全部 标题 作者
关键词 摘要

OALib Journal期刊
ISSN: 2333-9721
费用:99美元

查看量下载量

相关文章

更多...

Annotations en cha nes de coréférences et anaphores dans un corpus de discours spontané en fran ais

DOI: 10.1051/shsconf/20120100252

Full-Text   Cite this paper   Add to My Lib

Abstract:

Cet article présente une analyse des relations anaphoriques d’un corpus de dialogue oral spontané en fran ais. Au cours des deux dernières décennies, l’ingénierie des langues a connu des avancées spectaculaires qui ont permis l’émergence de nombreuses applications opérationnelles destinées aussi bien au grand public qu’aux professionnels. Parmi ces technologies langagières, la recherche d’information et l’indexation de documents constituent sans nul doute un des champs applicatifs promis à un bel avenir. En effet, la croissance exponentielle des ressources textuelles ou multimédias accessibles sur Internet nécessite la mise en place d’outils de structuration et d’interrogation automatique intelligents. Par exemple, la quasi-intégralité des articles publiés sur Internet par les quotidiens de la presse nationale ou régionale font l’objet d’une indexation automatique. L’importance de la résolution des anaphores pour les technologies langagières a conduit à l’émergence de nombreux travaux qui ont fait l’objet de campagnes d’évaluation internationales (MUC et SemEval) ou nationales (DEFT) au cours de la dernière décennie. Ces recherches ont toutefois porté majoritairement sur des documents ou des messages électroniques (langage écrit). A l’opposé, la communauté parole s’est surtout focalisée sur la problématique de l’anaphore pronominale, très présente en dialogue oral homme-machine (serveurs vocaux interactifs). La particularité de notre corpus se situe donc dans son caractère oral et dans le type des entités annotées (groupes nominaux et pronoms). Les avancées continues du traitement de la parole (reconnaissance vocale en particulier) amènent désormais les chercheurs à s’intéresser à une recherche d’information dans des flux oraux ou vidéos (émissions radio ou télédiffusées par exemple) équivalente à celle réalisée sur les documents électroniques. Dans cette perspective, il est essentiel de développer des techniques capables de traiter toutes les formes d’anaphores de l’oral spontané. Ainsi, cet article exposera plus particulièrement l’étude pilote CO2, qui a conduit à une procédure d’annotation de corpus, puis deux expériences issues du corpus annoté (l'accord en genre et en nombre, et la descriptions des définis en première mention), et enfin les travaux à venir du projet ANCOR. L’objectif de celui-ci est d’évaluer la pertinence et de modéliser les processus de résolution de ces anaphores complexes en discours spontané. Le corpus du projet ANCOR sera, à terme, le plus volumineux corpus de fran ais parlé annoté en anaphores.

Full-Text

Contact Us

service@oalib.com

QQ:3279437679

WhatsApp +8615387084133