Voice Conversion by modelling and transformation of extended voice characteristics - Thèses de l'Université Pierre et Marie Curie Access content directly
Theses Year : 2015

Voice Conversion by modelling and transformation of extended voice characteristics

Conversion de l’identité de la voix par modélisation et transformation de caractéristiques étendues de la voix

Stefan Huber
  • Function : Author
  • PersonId : 935257

Abstract

Voice Conversion (VC) aims at transforming the characteristics of a source speaker’s voice in such a way that it will be perceived as being uttered by a target speaker. The principle of VC is to define mapping functions for the conversion from one source speaker’s voice to one target speaker’s voice. The transformation functions of common State-Of-The-Art (START) VC system adapt instantaneously to the characteristics of the source voice. While recent VC systems have made considerable progress over the conversion quality of initial approaches, the quality is nevertheless not yet sufficient. Considerable improvements are required before VC techniques can be used in an professional industrial environment. The objective of this thesis is to augment the quality of Voice Conversion to facilitate its industrial applicability to a reasonable extent. The basic properties of different START algorithms for Voice Conversion are discussed on their intrinsic advantages and shortcomings. Based on experimental evaluations of one GMM-based State-Of-The-Art VC approach the conclusion is that most VC systems which rely on statistical models are, due to averaging effect of the linear regression, less appropriate to achieve a high enough similarity score to the target speaker required for industrial usage. The contributions established throughout this thesis work lie in the extended means to a) model the glottal excitation source, b) model a voice descriptor set using a novel speech system based on an extended source-filter model, and c) to further advance IRCAM’s novel VC system by combining it with the contributions of a) and b).
La Conversion de la Voix (VC) vise à transformer les caractéristiques de la voix d’un locuteur source de manière qu’il sera perçu comme étant prononcé par un locuteur cible. Le principe de la VC est de définir des fonctions du transposition pour la conversion de la voix de l’un locuteur source à la voix de l’un locuteur cible. Les fonctions de transformation de VC systèmes "State-Of-The-Art" (START) adapte instantanément aux caractéristiques de la voix source. Cependant, la qualité est pas encore suffisant. Des améliorations considérables sont nécessaires que les techniques VC peuvent être utilisés dans un environnement industriel professionnel. L’objectif de cette thèse est d’augmenter la qualité de la conversion de la voix pour faciliter son applicabilité industrielle dans une mesure raisonnable. Les propriétés de base de différentes START algorithmes de la conversion de la voix sont discutés sur leurs avantages intrinsèques et ses déficits. Basé sur des évaluations expérimentales avec un GMM VC système la conclusion est que la plupart des systèmes VC START qui reposent sur des modèles statistiques sont, en raison de l’effet en moyenne de la régression linéaire, moins appropriées pour atteindre un score du similitude assez élevé avec le haut-parleur cible requise pour l’utilisation industrielle. Les contributions établies pendant de ce travail de thèse se trouvent dans les moyens étendus à a) modéliser l’excitation du source glottique, b) modéliser des descripteurs de la voix en utilisant un nouveau système de parole basée sur un modèle élargie de source-filtre, et c) avancer une nouveau système VC de l’Ircam en le combinant avec les contributions de a) et b).
Fichier principal
Vignette du fichier
HUBER_Stefan_2015_diff.pdf (45.91 Mo) Télécharger le fichier
Origin : Version validated by the jury (STAR)

Dates and versions

tel-02317057 , version 1 (22-06-2016)
tel-02317057 , version 2 (15-10-2019)
tel-02317057 , version 3 (30-03-2022)

Identifiers

  • HAL Id : tel-02317057 , version 3

Cite

Stefan Huber. Voice Conversion by modelling and transformation of extended voice characteristics. Signal and Image Processing. Université Pierre et Marie Curie - Paris VI, 2015. English. ⟨NNT : 2015PA066750⟩. ⟨tel-02317057v3⟩
484 View
363 Download

Share

Gmail Facebook X LinkedIn More