Attributes | Values |
---|
type
| |
Thesis advisor
| |
Author
| |
alternative label
| - Text-independent speaker technologies for Audio indexing and retrieval in the case of large data
|
dc:subject
| - Thèses et écrits académiques
- Reconnaissance automatique de la parole
- Multimédias
- Archivage électronique
|
preferred label
| - Indexation de documents audio, cas des grands volumes de données
|
Language
| |
Subject
| |
dc:title
| - Indexation de documents audio, cas des grands volumes de données
|
Degree granting institution
| |
note
| - Cette thèse est consacrée à l’élaboration et l’évaluation des techniques visant à renforcer la robustesse des systèmes d’indexation de documents audio au sens du locuteur. L’indexation audio au sens du locuteur consiste à reconnaître l’identité des locuteurs ainsi que leurs interventions dans un flux continu audio ou dans une base de données d’archives audio, ne contenant que la parole. Dans ce cadre nous avons choisi de structurer les documents audio (restreints à des journaux radiodiffusés) selon une classification en locuteurs. La technique utilisée repose sur l’extraction des coefficients mel-cepstrales, suivi par l’apprentissage statistique de modèles de mélange de gaussiennes (MMG) et sur la détection des changements de locuteur au moyen de test d’hypothèse Bayésien. Le processus est incrémental : au fur et à mesure que de nouveaux locuteurs sont détectés, ils sont identifiés à ceux de la base de données ou bien, le cas échéant, de nouvelles entrées sont créées dans la base. Comme toute structure de données adaptée au problème incrémental, notre système d’indexation permet d’effectuer la mise à jour des modèles MMG de locuteur à l’aide de l’algorithme fusion des MMG. Cet algorithme à été conçu à la fois pour créer une structure ascendante en regroupant deux à deux les modèles GMM jugés similaires. Enfin, à travers de deux études utilisant des structures arborescentes binaire ou n’aire, une réflexion est conduite afin de trouver une structure ordonnée et adaptée au problème incrémental. Quelques pistes de réflexions sur l’apport de l’analyse vidéo sont discutées et les besoins futurs sont explorés
- This thesis is devoted to techniques for speaker-based recognition systems to scale up to large amounts of data and speaker models. We have chosen to partition audio documents (news broadcast) according to speakers. The mel-cepstral acoustic characteristics of each speaker are model through a probabilistic Gaussian mixture model. First, speaker change detection in the stream is carried out by Bayesian hypothesis testing. The scheme is incremental : as new speakers are detected, they are either identified in the database or new entries are created in the database. First, we have examined some issues related to building a tree structure exploiting a similarity between speaker models. Several contributions were made. First, a proposal for organising a set of speaker models, based on an elementary model grouping. Then, we used an approximation of Kullback-Leibler divergence for this purpose. Finally, through two studies using binary of nary tree structures, we discuss the way of a version suitable for incremental processing. Finally, perspectives are drawn regarding joint audio/video analysis and future needs are analyzed
|
dc:type
| |
http://iflastandar...bd/elements/P1001
| |
rdaw:P10219
| |
has content type
| |
is primary topic
of | |
is rdam:P30135
of | |