About: Apprentissage profond faiblement supervisé et semi-supervisé pour la détection d'évènements sonores   Goto Sponge  NotDistinct  Permalink

An Entity of Type : rdac:C10001, within Data Space : data.idref.fr associated with source document(s)

AttributesValues
type
Thesis advisor
Praeses
Author
alternative label
  • Weakly supervised and semi-supervised deep learning for sound event detection
dc:subject
  • Apprentissage semi-supervisé
  • Thèses et écrits académiques
  • Apprentissage profond
  • Apprentissage faiblement supervisé
  • Apprentissage non supervisé (intelligence artificielle)
  • Détection d'évènements sonores
  • Sons -- Classification
  • Évènements sonores
preferred label
  • Apprentissage profond faiblement supervisé et semi-supervisé pour la détection d'évènements sonores
Language
Subject
dc:title
  • Apprentissage profond faiblement supervisé et semi-supervisé pour la détection d'évènements sonores
Degree granting institution
Opponent
note
  • La quantité de données produite par les médias tel que Youtube est une mine d'or d'information pour les algorithmes d'apprentissage machine. Une mine d'or inatteignable tant que ces informations n'ont pas été raffinées. Pour les algorithmes dits supervisés, il est nécessaire d'associer à chaque information disponible une étiquette permettant de l'identifier et de l'utiliser. C'est un travail fastidieux, lent et coûteux, réalisé par des annotateurs humains de manière bénévole ou professionnellement. Cependant, la quantité d'information générée chaque jour excède largement nos capacités d'annotation humaine. Il est alors nécessaire de se tourner vers des méthodes d'apprentissage capables d'utiliser l'information dans sa forme brute ou légèrement travaillée. Cette problématique est au coeur de ma thèse, où il s'agit, dans une première partie, d'exploiter des annotations humaines dites \" faibles \", puis d'exploiter des données partiellement annotées dans une seconde partie. La détection automatique d'évènements sonores polyphoniques est une problématique difficile à résoudre. Les évènements sonores se superposent, se répètent et varient dans le domaine fréquentiel même au sein d'une même catégorie. Toutes ces difficultés rendent la tâche d'annotation encore plus difficile, non seulement pour un annotateur humain, mais aussi pour des systèmes entraînés à la classification. La classification audio de manière semi-supervisée, c'est-à-dire lorsqu'une partie conséquente du jeu de données n'a pas été annotée, est l'une des solutions proposées à la problématique de l'immense quantité de données générée chaque jour. Les méthodes d'apprentissage profond semi-supervisées sont nombreuses et utilisent différents mécanismes permettant d'extraire implicitement des informations des données non-annotées, les rendant ainsi utiles et directement utilisables. L'objectif de cette thèse est dans un premier temps, d'étudier et proposer des approches faiblement supervisées pour la tâche de détection d'évènements sonores, mises en oeuvre lors de notre participation à la tâche quatre du défi international DCASE. Il s'agit ici d'enregistrements audio faiblement supervisés réalistes, de type bruits domestique. Afin de résoudre cette tâche, nous avons proposé deux solutions fondées sur les réseaux de neurones convolutifs récurrents, ainsi que sur des hypothèses statistiques contraignant l'entraînement. Dans un second temps, nous nous pencherons sur l'apprentissage profond semi-supervisé, lorsqu'une majorité de l'information n'est pas annotée. Nous comparons des approches développées pour la classification d'images au départ, avant de proposer leur application À la classification audio. Nous montrons que les approches les plus récentes permettent d'obtenir des résultats aussi bons qu'un entraînement entièrement supervisé, qui lui aurait eu accès à l'intégralité des annotations.
  • The amount of information produced by media such as Youtube, Facebook, or Instagram is a gold mine of information for machine and deep learning algorithms. A gold mine that cannot be reached until this information has been refined. For supervised algorithms, it is necessary to associate a label to each available piece of information allowing to identify and use it. This is a tedious, slow, and costly task, performed by human annotators on a voluntary or professional basis. However, the amount of information generated each day far exceeds our human annotation capabilities. It is then necessary to turn to learning methods capable of using the information in its raw or slightly processed form. For that, we will focus on weak annotations in the first part, then on partial annotations in the second part. The detection of sound events in a polyphonic environment is a difficult problem to solve. The sound events overlap, repeat or vary in the frequency domain. All these difficulties make the annotation task even more challenging, not only for a human annotator but also for systems trained in simple classification (mono phone). Semi-supervised audio classification, i.e. when a significant part of the dataset has not been annotated, is another proposed solution to the problem of the huge amount of data generated every day. Semi-supervised deep learning methods are numerous and use different mechanisms to implicitly extract information from these unannotated data, making them useful and directly usable. The objectives of this thesis are two folds. Firstly, to study and propose weakly supervised approaches for the sound event detection task in our participation in the DCASE international challenge task four, which provides realistic weakly supervised audio recordings extracted from domestic scenes. To solve this task, we suggest two solutions based on recurrent neural networks and statistical assumptions constraining the training. Secondly, we focus on semi-supervised deep learning when most of the information is not annotated. We compare approaches developed for image classification before proposing their application to audio classification and a substantial improvement. We show that the most recent approaches can achieve results as good as fully supervised training, which would have had access to all annotations.
dc:type
  • Text
http://iflastandar...bd/elements/P1001
rdaw:P10219
  • 2021
has content type
is primary topic of
is rdam:P30135 of
Faceted Search & Find service v1.13.91 as of Aug 16 2018


Alternative Linked Data Documents: ODE     Content Formats:       RDF       ODATA       Microdata      About   
This material is Open Knowledge   W3C Semantic Web Technology [RDF Data]
OpenLink Virtuoso version 07.20.3229 as of May 14 2019, on Linux (x86_64-pc-linux-gnu), Single-Server Edition (70 GB total memory)
Data on this page belongs to its respective rights holders.
Virtuoso Faceted Browser Copyright © 2009-2024 OpenLink Software