About: Modèle de traduction statistique à fragments enrichi par la syntaxe

Facets (new session)
Description
Metadata
Settings
- owl:sameAs
- Inference Rule:

About: Modèle de traduction statistique à fragments enrichi par la syntaxe Goto Sponge NotDistinct Permalink

An Entity of Type : rdac:C10001, within Data Space : data.idref.fr associated with source document(s)

Attributes	Values
type	frbr:Work rdac:C10001
Thesis advisor	École doctorale mathématiques, sciences et technologies de l'information, informatique (Grenoble ; 199.-....) Boitet, Christian (19..-.... ; professeur de mathématiques appliquées)
Author	Nikoulina, Vassilina (1981-.... ; auteure en informatique)
alternative label	Syntax-augmented phrase-based machine translation model
dc:subject	Apprentissage automatique Thèses et écrits académiques Traduction automatique -- Évaluation
preferred label	Modèle de traduction statistique à fragments enrichi par la syntaxe
Language	http://lexvo.org/id/iso639-3/fra
Subject	http://www.idref.fr/027940373/id http://www.idref.fr/027431819/id http://www.idref.fr/027253139/id http://www.idref.fr/027791513/id
dc:title	Modèle de traduction statistique à fragments enrichi par la syntaxe
Degree granting institution	Université de Grenoble (2009-2014)
note	Les modèles de traduction automatique probabiliste traditionnel ignorent la structure syntaxique des phrases source et cible. Le choix des unités lexicales cible et de leur ordre est contrôlé uniquement par des statistiques de surface sur le corpus d'entraînement. La connaissance de la structure linguistique peut-être bénéfique, car elle fournit des informations génériques compensant la pauvreté des données directement observables. Nos travaux ont pour but d'étudier l'impact des informations syntaxiques sur un modèle de traduction probabiliste de base, fondé sur des fragments, dans le cadre d'un analyseur dépendanciel particulier, XIP, dont la performance est bien adaptée à nos besoins. Nous étudions d'abord l'intégration des informations syntaxiques dans un but de reclassement des traductions proposées par le modèle de base? Nous définissons un ensemble de traits mesurant la similarité entre les structures de dépendance source et cible, et des traits de cohérence linguistique (basés sur l'analyse cible). L'apprentissage automatique des poids de ces traits permet de détecter leurs importance. L'évaluation manuelle des différents modèles de reclassement nous a permis de montrer le potentiel de ces traits pour améliorer la qualité des traductions proposées par le modèle de base. Ensuite, nous avons proposé un modèle pour réduire la taille du graphe des hypothèses exploré par le modèle de base à l'aide de connaissances sur la structure syntaxique source. Nous avons également proposé une procédure de décomposition d'une phrase source initiale en sous-phrases pour simplifier la tâche de traduction. Les évaluations initiales de ces modèles se sont montrées prometteuses Traditional Statistical Machine Translation models are not aware of linguistic structure. Thus, target lexical choices and word order are controlled only by surface-based statistics learned from the training corpus. However, knowledge of linguistic structure can be beneficial since it provides generic information compensating data sparsity. The purpose of our work is to study the impact of syntactic information while preserving the general framework of Phrase-Based SMT. First, we study the integration of syntactic information using a reranking approach. We define features measuring the similarity between the dependency structures of source and target sentences, as well as features of linguistic coherence of the target sentences. The importance of each feature is assessed by learning their weights through a Structured Perceptron Algorithm. The evaluation of several reranking models shows that these features often improve the quality of translations produced by the basic model, in terms of manual evaluations as opposed to automatic measures. Then, we propose different models in order to increase the quality and diversity of the search graph produced by the decoder, through filtering out uninteresting hypotheses based on the source syntactic structure. This is done either by learning limits on the phrase recordering, or by decomposing the source sentence in order to simplify the translation process. The initial evaluations of these models look promising
dc:type	Text
http://iflastandar...bd/elements/P1001	http://iflastandards.info/ns/isbd/terms/contentform/T1009
rdaw:P10219	2010
has content type	http://rdaregistry.info/termList/RDAContentType/1020
is primary topic of	http://www.idref.fr/22664183X
is rdam:P30135 of	http://www.sudoc.fr/226539326/id http://www.sudoc.fr/24716366X/id

Faceted Search & Find service v1.13.91 as of Aug 16 2018

Alternative Linked Data Documents: ODE Content Formats:

RDF

ODATA

Microdata

About

OpenLink Virtuoso version 07.20.3229 as of May 14 2019, on Linux (x86_64-pc-linux-gnu), Single-Server Edition (70 GB total memory)
Data on this page belongs to its respective rights holders.
Virtuoso Faceted Browser Copyright © 2009-2024 OpenLink Software