About: Deep multimodal visual data fusion for outdoor scenes analysis in challenging weather conditions

Facets (new session)
Description
Metadata
Settings
- owl:sameAs
- Inference Rule:

About: Deep multimodal visual data fusion for outdoor scenes analysis in challenging weather conditions Goto Sponge NotDistinct Permalink

An Entity of Type : rdac:C10001, within Data Space : data.idref.fr associated with source document(s)

Attributes	Values
type	frbr:Work rdac:C10001
Thesis advisor	Sidibé, Dro Désiré (19..-.... ; chercheur en informatique) École doctorale Sciences et technologies de l'information et de la communication (Orsay, Essonne ; 2015-....) Université d'Évry-Val-d'Essonne (1991-....) Informatique, Biologie Intégrative et Systèmes Complexes (Evry, Essonne) Chambon, Sylvie, Julie (1979-.... ; enseignante-chercheuse en informatique) Ruichek, Yassine (1969-....) Université Paris-Saclay. Graduate School Sciences de l’ingénierie et des systèmes (2020-….)
Praeses	Mokraoui, Anissa (19..-....)
Author	Hu, Sijie (1991-....)
alternative label	Deep Learning pour la fusion multimodale d'images, application à l'analyse de scènes extérieures dans des conditions difficiles
dc:subject	Analyse Vision Thèses et écrits académiques Perception des images Apprentissage profond Détection d'objet Perception -- Dissertation universitaire Fusion multimodale Segmentation sémantique Analyse de scènes extérieur
preferred label	Deep multimodal visual data fusion for outdoor scenes analysis in challenging weather conditions
Language	http://lexvo.org/id/iso639-3/eng
Subject	http://www.idref.fr/04075667X/id http://www.idref.fr/223540633/id http://www.idref.fr/027789896/id http://www.idref.fr/028701461/id http://www.idref.fr/040839486/id http://www.idref.fr/027253139/id http://www.idref.fr/027426122/id
dc:title	Deep multimodal visual data fusion for outdoor scenes analysis in challenging weather conditions
Degree granting institution	Université Paris-Saclay (2015-2019)
Opponent	Manzanera, Antoine
note	Les données visuelles multimodales peuvent fournir des informations différentes sur la même scène, améliorant ainsi la précision et la robustesse de l'analyse de scènes. Cette thèse se concentre principalement sur la façon d'utiliser efficacement les données visuelles multimodales telles que les images en couleur, les images infrarouges et les images de profondeur, et sur la façon de fusionner ces données visuelles pour une compréhension plus complète de l'environnement. Nous avons choisi la segmentation sémantique et la détection d'objets, deux tâches représentatives de la vision par ordinateur, pour évaluer et valider différentes méthodes de fusion de données visuelles multimodales. Ensuite, nous proposons un schéma de fusion RGB-D basé sur l'attention additive, considérant la carte de profondeur comme une modalité auxiliaire pour fournir des indices géométriques supplémentaires, et résolvant le coût élevé associé à l'auto-attention. Compte tenu de la complexité de la perception de scènes en conditions de faible luminosité, nous avons conçu un module de fusion croisée qui utilise l'attention de canal et spatiale pour explorer les informations complémentaires des paires d'images visible-infrarouge, améliorant ainsi la perception de l'environnement par le système. Enfin, nous avons également abordé l'application des données visuelles multimodales dans l'adaptation de domaine non supervisée. Nous proposons d'utiliser des indices de profondeur pour guider le modèle à apprendre la représentation de caractéristiques invariables au domaine. Les nombreux résultats expérimentaux indiquent que les méthodes proposées surpassent les autres méthodes sur plusieurs bases de données multimodales disponibles publiquement et peuvent être étendues à différents types de modèles, démontrant ainsi davantage la robustesse et les capacités de généralisation de nos méthodes dans les tâches de perception de scènes en extérieur. Multi-modal visual data can provide different information about the same scene, thus enhancing the accuracy and robustness of scene analysis. This thesis mainly focuses on how to effectively utilize multi-modal visual data such as color images, infrared images, and depth images, and how to fuse these visual data for a more comprehensive understanding of the environment. Semantic segmentation and object detection, two representative computer vision tasks, were selected for investigating and verifying different multi-modal visual data fusion methods. Then, we propose an additive-attention-based RGB-D fusion scheme, considering the depth map as an auxiliary modality to provide additional geometric clues, and solving the high cost associated with self-attention. Considering the complexity of scene perception under low-light conditions, we designed a cross-fusion module that uses channel and spatial attention to explore the complementary information of visible-infrared image pairs, enhancing the system's perception of the environment. Additionally, we also researched the application of multi-modal visual data in unsupervised domain adaptation. We proposed to leverage depth cues to guide the model to learn domain-invariant feature representation. Extensive research results indicate that the proposed methods outperform others on multiple publicly available multi-modal datasets and can be extended to different types of models, which further demonstrating the robustness and generalization capabilities of our methods in outdoor scene perception tasks.
dc:type	Text
http://iflastandar...bd/elements/P1001	http://iflastandards.info/ns/isbd/terms/contentform/T1009
rdaw:P10219	2023
has content type	http://rdaregistry.info/termList/RDAContentType/1020
is primary topic of	http://www.idref.fr/273833979
is rdam:P30135 of	http://www.sudoc.fr/273814044/id http://www.sudoc.fr/273252402/id

Faceted Search & Find service v1.13.91 as of Aug 16 2018

Alternative Linked Data Documents: ODE Content Formats:

RDF

ODATA

Microdata

About

OpenLink Virtuoso version 07.20.3229 as of May 14 2019, on Linux (x86_64-pc-linux-gnu), Single-Server Edition (70 GB total memory)
Data on this page belongs to its respective rights holders.
Virtuoso Faceted Browser Copyright © 2009-2024 OpenLink Software