About: Notions d'événements distants et d'évenements impossibles en modélisation stochastique du langage, application aux modèles n-grammes de mots et de séquences   Goto Sponge  NotDistinct  Permalink

An Entity of Type : rdac:C10001, within Data Space : data.idref.fr associated with source document(s)

AttributesValues
type
Thesis advisor
Author
dc:subject
  • Thèses et écrits académiques
  • Processus stochastiques
  • Reconnaissance automatique de la parole
  • Langues -- Modèles mathématiques
preferred label
  • Notions d'événements distants et d'évenements impossibles en modélisation stochastique du langage, application aux modèles n-grammes de mots et de séquences
Language
Subject
dc:title
  • Notions d'événements distants et d'évenements impossibles en modélisation stochastique du langage, application aux modèles n-grammes de mots et de séquences
Degree granting institution
note
  • Un modèle de langage statistique (ML), ne décrivant que des événements linguistiques bien spécifiques ne suffit pas à décrire toute la langue. Il faut donc combiner plusieurs MLs pour recouvrir en grande partie la langue. Je propose, plutôt que de systématiquement combiner linéairement tous les MLs pour obtenir un ML moyen, de sélectionner le plus efficace en fonction du contexte linguistique; je développe une mesure de la capacité de prédiction du ML en fonction de l'historique et l'applique à la comparaison de plusieurs MLs de type n-grammes distants améliorant ainsi les performances de la combinaison linéaire de 5.4%. La méthode permet aussi de déterminer des séquences de mots comme nouvelles unités du lexique, ce qui améliore un modèle de référence de 21%. Une autre contribution de ce travail est le recensement automatique d'événements impossibles dans la langue française. 60 millions de bigrammes impossibles sont recensés grâce à des méthodes issues de la théorie de l'information.
  • A statistical language model (LM) deals only with specific linguistic events and so, is not sufficient to describe the entire language. One must then combine several LM in order to recover a great part of the language. I propose, instead of systematically and linearly combining all the LMs, to select the best one following the linguistic context. I define a measure of the prediction capacity of a LM depending on the history. I apply this measure to the comparison of several distant n-gram LMs. This improves by 5.4% the performance of the linear combination. Moreover, this method allows to define phrases as new lexical units in the vocabulary. These new units outperforms a baseline model by 21% in terms of perplexity and 12.5% in terms of word error rate for a speech recognition task. An other contribution of this work consists in automatically collecting impossible events in french language. 60 millions of impossible bigrams are collected using heuristics based on information theory.
dc:type
  • Text
http://iflastandar...bd/elements/P1001
rdaw:P10219
  • 2002
has content type
is primary topic of
is rdam:P30135 of
Faceted Search & Find service v1.13.91 as of Aug 16 2018


Alternative Linked Data Documents: ODE     Content Formats:       RDF       ODATA       Microdata      About   
This material is Open Knowledge   W3C Semantic Web Technology [RDF Data]
OpenLink Virtuoso version 07.20.3229 as of May 14 2019, on Linux (x86_64-pc-linux-gnu), Single-Server Edition (70 GB total memory)
Data on this page belongs to its respective rights holders.
Virtuoso Faceted Browser Copyright © 2009-2025 OpenLink Software