About: Vers une modélisation statistique multi-niveau du langage, application aux langues peu dotées   Goto Sponge  NotDistinct  Permalink

An Entity of Type : rdac:C10001, within Data Space : data.idref.fr associated with source document(s)

AttributesValues
type
Thesis advisor
Author
alternative label
  • Toward a multi-level statistical language modeling for under-resourced languages
dc:subject
  • Thèses et écrits académiques
  • Reconnaissance automatique de la parole
preferred label
  • Vers une modélisation statistique multi-niveau du langage, application aux langues peu dotées
Language
Subject
dc:title
  • Vers une modélisation statistique multi-niveau du langage, application aux langues peu dotées
Degree granting institution
note
  • This PhD thesis focuses on the problems encountered when developing automatic speech recognition for under-resourced languages with a writing system without explicit separation between words. The specificity of the languages covered in our work requires automatic segmentation of text corpus into words in order to make the n-gram language modeling applicable. While the lack of text data has an impact on the performance of language model, the errors introduced by automatic segmentation can make these data even less usable. To deal with these problems, our research focuses primarily on language modeling, and in particular the choice of lexical and sub-lexical units, used by the recognition systems. We investigate the use of multiple units in speech recognition system. We validate these modeling approaches based on multiple units in recognition systems for a group of languages : Khmer, Vietnamese, Thai and Laotian.
  • Ce travail de thèse porte sur la reconnaissance automatique de la parole des langues peu dotées et ayant un système d'écrire sans séparation explicite entre les mots. La spécificité des lanques traitées dans notre contexte d'étude nécessite la segmentation automatique en mots pour rendre la modélisation du langage n-gramme applicable. Alors que le manque de données textuelles a un impact sur la performance des modèles de langage, les erreurs introduites par la segmentation automatique peuvent rendre ces données encore moins exploitables. Pour tenter de pallier les problèmes, nos recherches sont axées principalement sur la modélisation du langage, et en particulier sur le choix des unités lexicales et sous-lexicales, utilisées par les systèmes de reconnaissance. Nous expérimentons l'utilisation des multiples unités au niveau des modèles du langage et au niveau des sorties de systèmes de reconnaissance. Nous validons ces approches de modélisations à base des multiples unités sur les sytèmes de reconnaissance pour un groupede langues peu dotées : le khmer, le vietnamien, le thaï et le laotien.
dc:type
  • Text
http://iflastandar...bd/elements/P1001
rdaw:P10219
  • 2010
has content type
is primary topic of
is rdam:P30135 of
Faceted Search & Find service v1.13.91 as of Aug 16 2018


Alternative Linked Data Documents: ODE     Content Formats:       RDF       ODATA       Microdata      About   
This material is Open Knowledge   W3C Semantic Web Technology [RDF Data]
OpenLink Virtuoso version 07.20.3229 as of May 14 2019, on Linux (x86_64-pc-linux-gnu), Single-Server Edition (70 GB total memory)
Data on this page belongs to its respective rights holders.
Virtuoso Faceted Browser Copyright © 2009-2024 OpenLink Software