About: Spectral envelope transformation for high-quality voice conversion   Goto Sponge  NotDistinct  Permalink

An Entity of Type : rdac:C10001, within Data Space : data.idref.fr associated with source document(s)

AttributesValues
type
Thesis advisor
Author
alternative label
  • Transformation de l'enveloppe spectrale pour la conversion de voix de haute qualité
dc:subject
  • Voix
  • Thèses et écrits académiques
  • Synthèse automatique de la parole
preferred label
  • Spectral envelope transformation for high-quality voice conversion
Language
Subject
dc:title
  • Spectral envelope transformation for high-quality voice conversion
Degree granting institution
note
  • Cette thèse traite de la conversion de voix (CV), technologie qui vise à transformer le signal de parole d’un locuteur source de telle sorte que le signal de parole résultant semble avoir été prononcé par un locuteur cible différent. Pour cela, la transformation de l’enveloppe spectrale joue un rôle prépondérant. Les approches existantes en CV requièrent un alignement des trames source et cible. En particulier, l’approche dominante à base de modèles de mélanges de gaussiennes (GMM) repose explicitement sur des statistiques jointes calculées à partir de ces trames source et cible alignées. Cependant, les méthodes à base de GMM souffrent de plusieurs limitations que nous mettons clairement en évidence dans cette thèse. Il apparaît ainsi que les enveloppes spectrales ainsi transformées sont trop lisses et manquent de détails spectraux. Par conséquent, la parole convertie semble étouffée et souffre d’un « manque de présence ». Dans cette thèse, nous proposons une nouvelle approche en CV dans laquelle le lien entre paramètres des locuteurs source et cible est établi plus globalement, au niveau de la classe acoustique. Plus précisément, partant d’une classification des données par phonèmes, la méthode proposée (DFWA) allie alignement fréquentiel dynamique (DFW) et correction d’amplitude. Comparée aux méthodes actuelles à base de GMM et de DFW, la méthode DFWA permet de mieux maintenir les détails spectraux des enveloppes converties. Des tests tant objectifs que subjectifs, menés sur des corpus français et anglais montrent que DFWA i) offre une meilleure qualité de parole et ii) et parvient tout aussi bien à convertir l’identité du locuteur. De plus, en éliminant la nécessité d’un alignement trame par trame des données source et cible, la méthode DFWA permet de s’affranchir de corpus parallèles et, de ce fait, ouvre la voie à une utilisation de la CV dans des contextes applicatifs bien plus larges.
  • The scope of this thesis lies in Voice Conversion (VC), which aims to transform the speech signal of a source speaker so that the resulting voice resembles that of a different target speaker. To this end, the speech spectral envelope plays a key role. Existing approaches to spectral envelope transformation for VC typically rely on alignment of individual source and target speech frames. In particular, dominant VC approaches use Gaussian Mixture Modeling (GMM) that relies explicitly on joint statistics calculated from the aligned source and target frames. However, there are several important limitations in GMM-based VC, as is clearly illustrated in this dissertation. Most significantly, the spectral envelopes transformed using the GMM are overly-smooth and lack sufficient spectral details needed to synthesize high-quality speech. Consequently, the converted speech is \"muffled\" and suffers from a \"loss of presence.\" In order to improve the quality of VC, this thesis proposes an alternative method for spectral envelope transformation that establishes mappings between source and target features on a more global, acoustic class level. Specifically, beginning with a classification of the speech data by phoneme, the proposed approach is based on Dynamic Frequency Warping with Amplitude scaling (DFWA). Compared to current GMM and DFW-based methods, DFWA proves more effective at maintaining spectral details in the transformed spectral envelopes. Extensive objective and subjective evaluations using multiple speakers from both English and French corpora show that DFWA both i) generates higher quality speech and ii) is equally as successful in converting speaker identity. Moreover, in eliminating a reliance on alignment between individual source and target frames, the proposed DFWA approach offers a more flexible and versatile framework that ultimately opens up spectral envelope transformation for VC to a wider range of speech processing applications.
dc:type
  • Text
http://iflastandar...bd/elements/P1001
rdaw:P10219
  • 2011
has content type
is primary topic of
is rdam:P30135 of
Faceted Search & Find service v1.13.91 as of Aug 16 2018


Alternative Linked Data Documents: ODE     Content Formats:       RDF       ODATA       Microdata      About   
This material is Open Knowledge   W3C Semantic Web Technology [RDF Data]
OpenLink Virtuoso version 07.20.3229 as of May 14 2019, on Linux (x86_64-pc-linux-gnu), Single-Server Edition (70 GB total memory)
Data on this page belongs to its respective rights holders.
Virtuoso Faceted Browser Copyright © 2009-2024 OpenLink Software