About: Indexation de documents audio, cas des grands volumes de données

Facets (new session)
Description
Metadata
Settings
- owl:sameAs
- Inference Rule:

About: Indexation de documents audio, cas des grands volumes de données Goto Sponge NotDistinct Permalink

An Entity of Type : rdac:C10001, within Data Space : data.idref.fr associated with source document(s)

Attributes	Values
type	frbr:Work rdac:C10001
Thesis advisor	Université de Nantes. Faculté des sciences et des techniques Gelgon, Marc École doctorale sciences et technologies de l'information et des matériaux (Nantes) Laboratoire d’Informatique de Nantes Atlantique (UMR 6241) (Nantes) Université Mohammed V (Rabat). Faculté des sciences Mouaddib, Noureddine
Author	Rougui, Jamal-Eddine (1977-...)
alternative label	Text-independent speaker technologies for Audio indexing and retrieval in the case of large data
dc:subject	Thèses et écrits académiques Reconnaissance automatique de la parole Multimédias Archivage électronique
preferred label	Indexation de documents audio, cas des grands volumes de données
Language	http://lexvo.org/id/iso639-3/fra
Subject	http://www.idref.fr/02758772X/id http://www.idref.fr/027253139/id http://www.idref.fr/033475598/id http://www.idref.fr/027242293/id
dc:title	Indexation de documents audio, cas des grands volumes de données
Degree granting institution	Université de Nantes (1962-2021)
note	Cette thèse est consacrée à l’élaboration et l’évaluation des techniques visant à renforcer la robustesse des systèmes d’indexation de documents audio au sens du locuteur. L’indexation audio au sens du locuteur consiste à reconnaître l’identité des locuteurs ainsi que leurs interventions dans un flux continu audio ou dans une base de données d’archives audio, ne contenant que la parole. Dans ce cadre nous avons choisi de structurer les documents audio (restreints à des journaux radiodiffusés) selon une classification en locuteurs. La technique utilisée repose sur l’extraction des coefficients mel-cepstrales, suivi par l’apprentissage statistique de modèles de mélange de gaussiennes (MMG) et sur la détection des changements de locuteur au moyen de test d’hypothèse Bayésien. Le processus est incrémental : au fur et à mesure que de nouveaux locuteurs sont détectés, ils sont identifiés à ceux de la base de données ou bien, le cas échéant, de nouvelles entrées sont créées dans la base. Comme toute structure de données adaptée au problème incrémental, notre système d’indexation permet d’effectuer la mise à jour des modèles MMG de locuteur à l’aide de l’algorithme fusion des MMG. Cet algorithme à été conçu à la fois pour créer une structure ascendante en regroupant deux à deux les modèles GMM jugés similaires. Enfin, à travers de deux études utilisant des structures arborescentes binaire ou n’aire, une réflexion est conduite afin de trouver une structure ordonnée et adaptée au problème incrémental. Quelques pistes de réflexions sur l’apport de l’analyse vidéo sont discutées et les besoins futurs sont explorés This thesis is devoted to techniques for speaker-based recognition systems to scale up to large amounts of data and speaker models. We have chosen to partition audio documents (news broadcast) according to speakers. The mel-cepstral acoustic characteristics of each speaker are model through a probabilistic Gaussian mixture model. First, speaker change detection in the stream is carried out by Bayesian hypothesis testing. The scheme is incremental : as new speakers are detected, they are either identified in the database or new entries are created in the database. First, we have examined some issues related to building a tree structure exploiting a similarity between speaker models. Several contributions were made. First, a proposal for organising a set of speaker models, based on an elementary model grouping. Then, we used an approximation of Kullback-Leibler divergence for this purpose. Finally, through two studies using binary of nary tree structures, we discuss the way of a version suitable for incremental processing. Finally, perspectives are drawn regarding joint audio/video analysis and future needs are analyzed
dc:type	Text
http://iflastandar...bd/elements/P1001	http://iflastandards.info/ns/isbd/terms/contentform/T1009
rdaw:P10219	2008
has content type	http://rdaregistry.info/termList/RDAContentType/1020
is primary topic of	http://www.idref.fr/226636518
is rdam:P30135 of	http://www.sudoc.fr/133956601/id http://www.sudoc.fr/226603105/id http://www.sudoc.fr/247106437/id

Faceted Search & Find service v1.13.91 as of Aug 16 2018

Alternative Linked Data Documents: ODE Content Formats:

RDF

ODATA

Microdata

About

OpenLink Virtuoso version 07.20.3229 as of May 14 2019, on Linux (x86_64-pc-linux-gnu), Single-Server Edition (70 GB total memory)
Data on this page belongs to its respective rights holders.
Virtuoso Faceted Browser Copyright © 2009-2024 OpenLink Software