Béatrice ARNULPHY,  Xavier TANNIER,  Anne VILNAT
Univ. Paris-Sud, Orsay, France & LIMSI-CNRS, B.P. 133, 91403 Orsay Cedex, France
{Beatrice.Arnulphy, Xavier.Tannier, Anne.Vilnat}@limsi.fr
 
Vers une extraction automatique des événements dans les textes
 
Les sciences humaines étudient particulièrement les noms d'événement [1]. En informatique linguistique en revanche, les études se sont attelées aux événements de type verbal, moins complexe à analyser. Nos propres travaux en traitement automatique des langues (TAL) se préoccupent des événements de type nominal, avec pour objectif leur reconnaissance et leur extraction automatique. Nous œuvrons dans une approche d'extraction d'information et plaçons le cas des événements nominaux dans le cadre de l'analyse des entités nommées.
Les Entités nommées événement (EN-E) sont constituées de noms déverbaux, dérivés de verbes qui font événement tels que fête (issu de fêter) ; des éléments qui évoquent des événements de façon non ambiguë comme festival dans Festival du film de Berlin ; des mots qui prennent un caractère événementiel évident en contexte, par exemple le mot polysémique salon dans La cinquième édition du Salon de l'éducation ou encore un nom de lieu comme Tchernobyl ou Copenhague, désignant, par métonymie, les événements qui s'y sont produits (Personne ne veut d'un nouveau Tchernobyl ; Copenhague se solde par un échec). Les EN-E sont les groupes nominaux dont la tête de syntagme porte l'une ou l'autre de ces propriétés.
Certaines entités nommées événement sont formées à partir de noms déclencheurs d'événement (eg. festival, réunion). Ces entités sont assez faciles à repérer, c'est pourquoi nous avons constitué dans un premier temps des listes de noms déclencheurs à partir de lexiques existants et de noms déverbaux, tout en nous appuyant sur des études de corpus. Lors de ces études, nous avons également collecté des indices contextuels d'apparition des EN-E. Cette démarche nous permet d'enrichir notre lexique et de dégager des patrons pour la reconnaissance des EN-E. C'est ainsi que nous avons mis en lumière l'utilité des verbes de cause ou de conséquence (comme provoquer ou se traduire par) et les verbes décrivant des événements (avoir lieu, se tenir) pour la reconnaissance des événements  [2]. Les règles de détection automatique ont été développées au moyen de l'analyseur syntaxique robuste XIP [3].
Dans le cadre d'une communication orale au colloque de linguistique dédié aux événements, nous proposons de présenter l'intérêt en traitement automatique des langues d'un travail sur les événements. Nous décrirons notre démarche d'extraction des événements nominaux à partir de corpus journalistiques et nous vous ferons connaître nos résultats et travaux en cours.
 
Mots clés : entité nommée, événement, extraction d'information, lexique de déclencheurs, traitement automatique des langues
 
[1] Michelle Lecolle. Éléments pour la caractérisation des toponymes en emploi événementiel. In Ivan Evrard, Michel Pierrard, Laurence Rosier, and Dan Van Raemdonck, editors, Les sens en marge - Représentations linguistiques et observables discursifs : actes du colloque international de Bruxelles, 3-5 novembre 2005, pages 29-43. L'Harmattan, Paris, nov 2009.
[2] Béatrice Arnulphy, Xavier Tannier, and Anne Vilnat. Les entités nommées événement et les verbes de cause-conséquence. In Actes de TALN 2010, Montréal, Canada, juillet 2010.
[3] Salah Aït-Mokhtar, Jean-Pierre Chanod, and Claude Roux. Robustness beyond Shallowness: Incremental Deep Parsing. Natural Language Engineering, 8:121-144, 2002.
 
 
[Ce travail a été particulièrement financé par OSEO dans le cadre du programme Quaero]