About: Stratégies et règles minimales pour un traitement automatique de l'arabe   Goto Sponge  NotDistinct  Permalink

An Entity of Type : rdac:C10001, within Data Space : data.idref.fr associated with source document(s)

AttributesValues
type
Thesis advisor
Author
alternative label
  • Strategies and minimal rules for an automatic processing of Arabic
dc:subject
  • Thèses et écrits académiques
  • Linguistique -- Informatique
  • Analyse automatique (linguistique)
  • Arabe (langue) -- Informatique
preferred label
  • Stratégies et règles minimales pour un traitement automatique de l'arabe
Language
Subject
dc:title
  • Stratégies et règles minimales pour un traitement automatique de l'arabe
Degree granting institution
note
  • La théorie de la minimalité dans le traitement automatique de l'arabe développée depuis 1985 par Audebert et Jaccarini est exposée dans ses grands principes, qui visent la construction d'un moniteur morpho-syntaxique : une analyse morphologique sans lexique effectuée par des automates augmentés et reflétant un compromis entre les phénomènes de concaténation et le croisement entre racines et schèmes, le rôle syntaxique central des invariants de la morphologie qui sont des tokens syntaxiques, et la description de ce rôle par des automates variables. Un logiciel écrit en C, Sarfiyya, a été créé pour poursuivre ce travail théorique et le confronter à la réalité de corpus de textes informatisés de presse et de littérature. Il repose sur un système original d'étiquettes floues privilégiant la détermination pour le nom, le mode/aspect pour le verbe, la famille syntaxique pour les tokens. Un éditeur graphique et interactif d'automates, un analyseur d'automates augmentés par des micro-lexiques et d'autres fonctions de Sarfiyya ont permis le développement de grammaires nominales et verbales avec peu de lexique et au comportement ambigu connu : cette ambigui͏̈té avoisine deux interprétations par mot. Un analyseur de mots-outils ou tokens complète ces outils qui utilise un contexte court pour leur désambigui͏̈sation. L'emploi de paires de tokens, lexicalisées ou catégorisées, permettent entre autres méthodes un taux de détection élevé. Une étude de faisabilité conclue ce travail par l'analyse la détectabilité d'un système de marques minimales, telles la présence de phrases nominales, des khabars et des mubtada's, de phrases verbales, subordonnées et relatives, points de passage de toute analyse de la phrase complexe. Des procédures linéaires sont proposées pour leur détection, dans le cadre de la construction du moniteur morpho-syntaxique. Cette étude démontre la fécondité de la méthode minimale et sa validité pour diverses applications, mais aussi ses faiblesses
dc:type
  • Text
http://iflastandar...bd/elements/P1001
rdaw:P10219
  • 2001
has content type
is primary topic of
is rdam:P30135 of
Faceted Search & Find service v1.13.91 as of Aug 16 2018


Alternative Linked Data Documents: ODE     Content Formats:       RDF       ODATA       Microdata      About   
This material is Open Knowledge   W3C Semantic Web Technology [RDF Data]
OpenLink Virtuoso version 07.20.3229 as of May 14 2019, on Linux (x86_64-pc-linux-gnu), Single-Server Edition (70 GB total memory)
Data on this page belongs to its respective rights holders.
Virtuoso Faceted Browser Copyright © 2009-2025 OpenLink Software