About: Spectral envelope transformation for high-quality voice conversion

Facets (new session)
Description
Metadata
Settings
- owl:sameAs
- Inference Rule:

About: Spectral envelope transformation for high-quality voice conversion Goto Sponge NotDistinct Permalink

An Entity of Type : rdac:C10001, within Data Space : data.idref.fr associated with source document(s)

Attributes	Values
type	frbr:Work rdac:C10001
Thesis advisor	Chonavel, Thierry Université de Rennes 1 (1969-2022) Université européenne de Bretagne (2007-2016) École doctorale Mathématiques, télécommunications, informatique, signal, systèmes, électronique (Rennes)
Author	Godoy, Elizabeth (1984-....)
alternative label	Transformation de l'enveloppe spectrale pour la conversion de voix de haute qualité
dc:subject	Voix Thèses et écrits académiques Synthèse automatique de la parole
preferred label	Spectral envelope transformation for high-quality voice conversion
Language	http://lexvo.org/id/iso639-3/eng
Subject	http://www.idref.fr/04079931X/id http://www.idref.fr/027253139/id http://www.idref.fr/027245799/id
dc:title	Spectral envelope transformation for high-quality voice conversion
Degree granting institution	Ecole nationale supérieure des télécommunications de Bretagne (Brest ; 1977-2016)
note	Cette thèse traite de la conversion de voix (CV), technologie qui vise à transformer le signal de parole d’un locuteur source de telle sorte que le signal de parole résultant semble avoir été prononcé par un locuteur cible différent. Pour cela, la transformation de l’enveloppe spectrale joue un rôle prépondérant. Les approches existantes en CV requièrent un alignement des trames source et cible. En particulier, l’approche dominante à base de modèles de mélanges de gaussiennes (GMM) repose explicitement sur des statistiques jointes calculées à partir de ces trames source et cible alignées. Cependant, les méthodes à base de GMM souffrent de plusieurs limitations que nous mettons clairement en évidence dans cette thèse. Il apparaît ainsi que les enveloppes spectrales ainsi transformées sont trop lisses et manquent de détails spectraux. Par conséquent, la parole convertie semble étouffée et souffre d’un « manque de présence ». Dans cette thèse, nous proposons une nouvelle approche en CV dans laquelle le lien entre paramètres des locuteurs source et cible est établi plus globalement, au niveau de la classe acoustique. Plus précisément, partant d’une classification des données par phonèmes, la méthode proposée (DFWA) allie alignement fréquentiel dynamique (DFW) et correction d’amplitude. Comparée aux méthodes actuelles à base de GMM et de DFW, la méthode DFWA permet de mieux maintenir les détails spectraux des enveloppes converties. Des tests tant objectifs que subjectifs, menés sur des corpus français et anglais montrent que DFWA i) offre une meilleure qualité de parole et ii) et parvient tout aussi bien à convertir l’identité du locuteur. De plus, en éliminant la nécessité d’un alignement trame par trame des données source et cible, la méthode DFWA permet de s’affranchir de corpus parallèles et, de ce fait, ouvre la voie à une utilisation de la CV dans des contextes applicatifs bien plus larges. The scope of this thesis lies in Voice Conversion (VC), which aims to transform the speech signal of a source speaker so that the resulting voice resembles that of a different target speaker. To this end, the speech spectral envelope plays a key role. Existing approaches to spectral envelope transformation for VC typically rely on alignment of individual source and target speech frames. In particular, dominant VC approaches use Gaussian Mixture Modeling (GMM) that relies explicitly on joint statistics calculated from the aligned source and target frames. However, there are several important limitations in GMM-based VC, as is clearly illustrated in this dissertation. Most significantly, the spectral envelopes transformed using the GMM are overly-smooth and lack sufficient spectral details needed to synthesize high-quality speech. Consequently, the converted speech is \"muffled\" and suffers from a \"loss of presence.\" In order to improve the quality of VC, this thesis proposes an alternative method for spectral envelope transformation that establishes mappings between source and target features on a more global, acoustic class level. Specifically, beginning with a classification of the speech data by phoneme, the proposed approach is based on Dynamic Frequency Warping with Amplitude scaling (DFWA). Compared to current GMM and DFW-based methods, DFWA proves more effective at maintaining spectral details in the transformed spectral envelopes. Extensive objective and subjective evaluations using multiple speakers from both English and French corpora show that DFWA both i) generates higher quality speech and ii) is equally as successful in converting speaker identity. Moreover, in eliminating a reliance on alignment between individual source and target frames, the proposed DFWA approach offers a more flexible and versatile framework that ultimately opens up spectral envelope transformation for VC to a wider range of speech processing applications.
dc:type	Text
http://iflastandar...bd/elements/P1001	http://iflastandards.info/ns/isbd/terms/contentform/T1009
rdaw:P10219	2011
has content type	http://rdaregistry.info/termList/RDAContentType/1020
is primary topic of	http://www.idref.fr/206851774
is rdam:P30135 of	http://www.sudoc.fr/163339481/id http://www.sudoc.fr/163339236/id

Faceted Search & Find service v1.13.91 as of Aug 16 2018

Alternative Linked Data Documents: ODE Content Formats:

RDF

ODATA

Microdata

About

OpenLink Virtuoso version 07.20.3229 as of May 14 2019, on Linux (x86_64-pc-linux-gnu), Single-Server Edition (70 GB total memory)
Data on this page belongs to its respective rights holders.
Virtuoso Faceted Browser Copyright © 2009-2024 OpenLink Software