|
Béatrice ARNULPHY, Xavier TANNIER, Anne
VILNAT
Univ. Paris-Sud, Orsay, France & LIMSI-CNRS, B.P. 133,
91403 Orsay Cedex, France {Beatrice.Arnulphy, Xavier.Tannier, Anne.Vilnat}@limsi.fr
Vers une extraction automatique des événements dans les
textes
Les sciences humaines étudient particulièrement les noms
d'événement [1]. En informatique linguistique en revanche, les études se sont
attelées aux événements de type verbal, moins complexe à analyser. Nos propres
travaux en traitement automatique des langues (TAL) se préoccupent des
événements de type nominal, avec pour objectif leur reconnaissance et leur
extraction automatique. Nous œuvrons dans une approche d'extraction
d'information et plaçons le cas des événements nominaux dans le cadre de
l'analyse des entités nommées. Les Entités nommées événement (EN-E) sont
constituées de noms déverbaux, dérivés de verbes qui font événement tels que
fête (issu de fêter) ; des éléments qui évoquent des événements de façon non
ambiguë comme festival dans Festival du film de Berlin ; des mots qui prennent
un caractère événementiel évident en contexte, par exemple le mot polysémique
salon dans La cinquième édition du Salon de l'éducation ou encore un nom de lieu
comme Tchernobyl ou Copenhague, désignant, par métonymie, les événements qui s'y
sont produits (Personne ne veut d'un nouveau Tchernobyl ; Copenhague se solde
par un échec). Les EN-E sont les groupes nominaux dont la tête de syntagme porte
l'une ou l'autre de ces propriétés. Certaines entités nommées événement sont
formées à partir de noms déclencheurs d'événement (eg. festival, réunion). Ces
entités sont assez faciles à repérer, c'est pourquoi nous avons constitué dans
un premier temps des listes de noms déclencheurs à partir de lexiques existants
et de noms déverbaux, tout en nous appuyant sur des études de corpus. Lors de
ces études, nous avons également collecté des indices contextuels d'apparition
des EN-E. Cette démarche nous permet d'enrichir notre lexique et de dégager des
patrons pour la reconnaissance des EN-E. C'est ainsi que nous avons mis en
lumière l'utilité des verbes de cause ou de conséquence (comme provoquer ou se
traduire par) et les verbes décrivant des événements (avoir lieu, se tenir) pour
la reconnaissance des événements [2]. Les règles de détection automatique
ont été développées au moyen de l'analyseur syntaxique robuste XIP [3]. Dans
le cadre d'une communication orale au colloque de linguistique dédié aux
événements, nous proposons de présenter l'intérêt en traitement automatique des
langues d'un travail sur les événements. Nous décrirons notre démarche
d'extraction des événements nominaux à partir de corpus journalistiques et nous
vous ferons connaître nos résultats et travaux en cours.
Mots clés : entité nommée, événement,
extraction d'information, lexique de déclencheurs, traitement automatique des
langues
[1] Michelle Lecolle. Éléments pour la caractérisation des
toponymes en emploi événementiel. In Ivan Evrard, Michel Pierrard, Laurence
Rosier, and Dan Van Raemdonck, editors, Les sens en marge - Représentations
linguistiques et observables discursifs : actes du colloque international de
Bruxelles, 3-5 novembre 2005, pages 29-43. L'Harmattan, Paris, nov 2009. [2]
Béatrice Arnulphy, Xavier Tannier, and Anne Vilnat. Les entités nommées
événement et les verbes de cause-conséquence. In Actes de TALN 2010, Montréal,
Canada, juillet 2010. [3] Salah Aït-Mokhtar, Jean-Pierre Chanod, and Claude
Roux. Robustness beyond Shallowness: Incremental Deep Parsing. Natural Language
Engineering, 8:121-144, 2002.
[Ce travail a été particulièrement financé par OSEO dans le
cadre du programme Quaero]
| |