Voice Conversion by modelling and transformation of extended voice characteristics

Stefan Huber

Thèse Année : 2015

Voice Conversion by modelling and transformation of extended voice characteristics

Conversion de l’identité de la voix par modélisation et transformation de caractéristiques étendues de la voix

(1)

Stefan Huber

Fonction : Auteur
PersonId : 935257

Analyse et synthèse sonores [Paris]

Résumé

Voice Conversion (VC) aims at transforming the characteristics of a source speaker’s voice in such a way that it will be perceived as being uttered by a target speaker. The principle of VC is to define mapping functions for the conversion from one source speaker’s voice to one target speaker’s voice. The transformation functions of common State-Of-The-Art (START) VC system adapt instantaneously to the characteristics of the source voice. While recent VC systems have made considerable progress over the conversion quality of initial approaches, the quality is nevertheless not yet sufficient. Considerable improvements are required before VC techniques can be used in an professional industrial environment. The objective of this thesis is to augment the quality of Voice Conversion to facilitate its industrial applicability to a reasonable extent. The basic properties of different START algorithms for Voice Conversion are discussed on their intrinsic advantages and shortcomings. Based on experimental evaluations of one GMM-based State-Of-The-Art VC approach the conclusion is that most VC systems which rely on statistical models are, due to averaging effect of the linear regression, less appropriate to achieve a high enough similarity score to the target speaker required for industrial usage. The contributions established throughout this thesis work lie in the extended means to a) model the glottal excitation source, b) model a voice descriptor set using a novel speech system based on an extended source-filter model, and c) to further advance IRCAM’s novel VC system by combining it with the contributions of a) and b).

La Conversion de la Voix (VC) vise à transformer les caractéristiques de la voix d’un locuteur source de manière qu’il sera perçu comme étant prononcé par un locuteur cible. Le principe de la VC est de définir des fonctions du transposition pour la conversion de la voix de l’un locuteur source à la voix de l’un locuteur cible. Les fonctions de transformation de VC systèmes "State-Of-The-Art" (START) adapte instantanément aux caractéristiques de la voix source. Cependant, la qualité est pas encore suffisant. Des améliorations considérables sont nécessaires que les techniques VC peuvent être utilisés dans un environnement industriel professionnel. L’objectif de cette thèse est d’augmenter la qualité de la conversion de la voix pour faciliter son applicabilité industrielle dans une mesure raisonnable. Les propriétés de base de différentes START algorithmes de la conversion de la voix sont discutés sur leurs avantages intrinsèques et ses déficits. Basé sur des évaluations expérimentales avec un GMM VC système la conclusion est que la plupart des systèmes VC START qui reposent sur des modèles statistiques sont, en raison de l’effet en moyenne de la régression linéaire, moins appropriées pour atteindre un score du similitude assez élevé avec le haut-parleur cible requise pour l’utilisation industrielle. Les contributions établies pendant de ce travail de thèse se trouvent dans les moyens étendus à a) modéliser l’excitation du source glottique, b) modéliser des descripteurs de la voix en utilisant un nouveau système de parole basée sur un modèle élargie de source-filtre, et c) avancer une nouveau système VC de l’Ircam en le combinant avec les contributions de a) et b).

Mots clés

Voice conversion Statistical and digital signal processing Speech synthesis Glottal excitation source Viterbi smoothing Voice quality

Conversion de la voix Traitement statistique et numérique du signal Synthèse vocale Excitation du source glottique Viterbi lissage Qualité vocale

Domaines

Traitement du signal et de l'image [eess.SP]

Fichier principal

HUBER_Stefan_2015_diff.pdf (45.91 Mo)

Origine	Version validée par le jury (STAR)

ABES STAR : Contact

https://hal.science/tel-02317057

Soumis le : mercredi 30 mars 2022-16:06:23

Dernière modification le : vendredi 24 mai 2024-04:19:13

Dates et versions

tel-02317057 , version 1 (22-06-2016)

tel-02317057 , version 2 (15-10-2019)

tel-02317057 , version 3 (30-03-2022)

Identifiants

HAL Id : tel-02317057 , version 3

Citer

Stefan Huber. Voice Conversion by modelling and transformation of extended voice characteristics. Signal and Image Processing. Université Pierre et Marie Curie - Paris VI, 2015. English. ⟨NNT : 2015PA066750⟩. ⟨tel-02317057v3⟩

Exporter

BibTeX XML-TEI Dublin Core DC Terms EndNote DataCite

Collections

UPMC CNRS THESES-UPMC STAR IRCAM STMS SORBONNE-UNIVERSITE THESES-SU SU-SCIENCES

605 Consultations

383 Téléchargements

Voice Conversion by modelling and transformation of extended voice characteristics

Conversion de l’identité de la voix par modélisation et transformation de caractéristiques étendues de la voix

Résumé

Mots clés

Domaines

Dates et versions

Identifiants

Citer

Exporter

Collections

Partager