About: Spécification et réalisation d'un formalisme générique pour la segmentation multiple de documents textuels multilingues

Facets (new session)
Description
Metadata
Settings
- owl:sameAs
- Inference Rule:

About: Spécification et réalisation d'un formalisme générique pour la segmentation multiple de documents textuels multilingues Goto Sponge NotDistinct Permalink

An Entity of Type : rdac:C10001, within Data Space : data.idref.fr associated with source document(s)

Attributes	Values
type	frbr:Work rdac:C10001
Thesis advisor	Véronis, Jean (1955-2013) Boitet, Christian (19..-....) Chanod, Jean-Pierre (1955-....) Chauché, Jacques (19..-.... ; auteur en informatique) Laboratoire Jean Kuntzmann (Grenoble ; 2007-....) Xerox Research Centre Europe (Grenoble ; 1993-2017)
Praeses	Ledru, Yves (19..-....)
Author	Quint, Julien (1975-.... ; auteur en informatique)
alternative label	Specification and implementation of a generic formalism for multiple segmentation of multilingual text documents
dc:subject	Segmentation Perl Thèses et écrits académiques Perl (langage de programmation) Analyse automatique (linguistique) Transducteurs Analyse du discours -- Informatique Analyse morphologique Morphological analysis Langage spécialisé pour la linguistique spécialized languages for linguistics Analyse présyntaxique Presyntactic analysis Spécialized languages for linguistics Transducteurs d'états finis pondérés Weighted finite-state transducers
preferred label	Spécification et réalisation d'un formalisme générique pour la segmentation multiple de documents textuels multilingues
Language	http://lexvo.org/id/iso639-3/fra
Subject	http://www.idref.fr/027815617/id http://www.idref.fr/029093929/id http://www.idref.fr/03411615X/id http://www.idref.fr/02909397X/id http://www.idref.fr/027253139/id
dc:title	Spécification et réalisation d'un formalisme générique pour la segmentation multiple de documents textuels multilingues
Degree granting institution	Université Joseph Fourier (Grenoble ; 1971-2015)
Opponent	Dymetman, Marc (19..-.... ; auteur en informatique)
note	Le problème de la segmentation en mots, ou itémisation, est souvent considéré comme trivial grâce à la présence de séparateurs dans l'écriture. L'essor de l'Internet et surtout du Web a rendu disponibles des millions de documents dans une multitude de langues et généré un intérêt pour les applications multilingues, qui ont rapidement montré les limites des approches simplistes en vigueur jusqu'à présent. L'étude, d'une part, des systèmes d'analyse morphologiques (en particulier les formalismes fondés sur les états finis), et d'autre part, des applications spécialisées pour l'itémisation dans différentes langues réputées difficiles (japonais, chinois, thaï) mène à des observations contrastées. La notion même de mot, et donc le processus d'itémisation, varie grandement d'une langue à l'autre ; et s'il n'existe pas de méthode générique, surtout en l'absence de séparateurs entre les mots, des approches similaires sont employées par différents systèmes pour différentes langues. On propose de se placer au dessus de l'itémisation et de parler de segmentation de texte en général. On introduit un langage spécialisé pour la segmentation nommé Sumo (Segmentation Universelle Multiple par Ordinateur) dont la principale caractéristique est d'offrir une séparation claire entre le processus de segmentation et la ou les langues considérées. On a donc d'une part une structure de donnée dédiée, qui représente un document simultanément à différents niveaux de segmentation (en mots, en phrases, etc.) À chaque niveau correspond un graphe d'items, les unités de segmentation à ce niveau. Cette structure à étages est fondée sur les automates d'états finis pondérés. D'autre part, on définit une algèbre pour la manipulation de ces structures, comme il en existe une pour la manipulation d'automates d'états finis. En plus de cette algèbre, on dispose également d'un langage de contrôle permettant de construire des applications de segmentation sophistiquées. Un prototype expérimental de calcul à états finis pondéré réalisé en Perl est présenté, et la réalisation d'un système complet, efficace et robuste est discuté. Les applications actuelles et potentielles de Sumo sont présentées, ainsi que les perspectives de développements à venir. The issue of word segmentation, or tokenization, is often treated as a trivial matter because of the use of separators in writing. The rise of the Internet and the Web led to the availability of millions of documents in countless languages, which in turn led to a renewed interest for mutlingual applications. These applications rapidly showed the limitations of the simplistic approaches in use until now. Studying morphological analyzers (especially the ones based on finite-state technology) on the one hand, and specific tokenization applications for “hard” languages (Chinese, Japanese or Thai) on the other hand yields contrasted observations. The very notion of word, and in turn of tokenization, varies widely from one language to the other; and if there is no universal method, especially when there are no written separators, similar approaches are used by different systems for different languages. A proposal is made to consider any kind of text segmentation, rather than tokenization. A specialized language for segmentation is introduced, named Sumo. Its main feature is to offer a clear distinction between the segmentation process and the considered language(s). Sumo defines a dedicated data structure based on weighted finite-state automata, as well as a set of operations on this structure similar to finite- state calculus. Programming sophisticated segmentation applications is done using a specialized control language. An experimental prototype for weighted finite-state calculus has been implemented in Perl, and the implementation of a full, efficient and robust system is discussed. Current and potential applications of Sumo are discussed, as well as future work on the formalism.
dc:type	Text
http://iflastandar...bd/elements/P1001	http://iflastandards.info/ns/isbd/terms/contentform/T1009
rdaw:P10219	2002
has content type	http://rdaregistry.info/termList/RDAContentType/1020
is primary topic of	http://www.idref.fr/206846800
is rdam:P30135 of	http://www.sudoc.fr/126108307/id http://www.sudoc.fr/152537791/id

Faceted Search & Find service v1.13.91 as of Aug 16 2018

Alternative Linked Data Documents: ODE Content Formats:

RDF

ODATA

Microdata

About

OpenLink Virtuoso version 07.20.3229 as of May 14 2019, on Linux (x86_64-pc-linux-gnu), Single-Server Edition (70 GB total memory)
Data on this page belongs to its respective rights holders.
Virtuoso Faceted Browser Copyright © 2009-2024 OpenLink Software