CNRS : Centre National de la Recherche Scientifique
Liens utiles CNRSLe CNRSAnnuairesMots-Clefs du CNRSAutres sites
Accueil Département scientifique homme et société : Centre National de la reherche scientifiqueAccueil Département scientifique homme et société : Centre National de la reherche scientifique
  Accueil > La recherche en sciences humaines et sociales > Modélisation Contrastive et Computationnelle des Chaînes de Coréférence

Vie des Laboratoires

 

 

Modélisation Contrastive et Computationnelle des Chaînes de Coréférence

UMR8094 Langues, textes, traitements informatiques, cognition (LATTICE)

25 avril 2012

 

Depuis deux ans, des chercheurs en linguistique et en informatique s'intéressent, sous la coordination de Frédéric Landragin, à la référence et à la coréférence dans des textes écrits, en français médiéval et en français contemporain, avec des objectifs à la fois théoriques et pratiques. Ces recherches interdisciplinaires ont bénéficié du soutien de l'InSHS et de l'InS2I, à travers l'attribution d'un PEPS.

 

L'absence de données linguistiques tenant compte des niveaux sémantiques et pragmatiques de la langue a conduit Frédéric Landragin et son équipe à envisager la constitution d'un corpus qui traiterait des phénomènes de références et de coréférences. Pour que la mise en œuvre d'un tel corpus prenne en compte le plus large éventail possible de cas, les chercheurs l'ont envisagé sur plusieurs états de langue (français médiéval et français contemporain) afin de prévoir une structure d'annotation commune à ces états de langue.

 

Volet Linguistique

D’un point de vue linguistique, les chercheurs s’attachent à modéliser les éléments d’une chaîne de coréférence, en tenant compte non seulement des expressions référentielles (noms propres, syntagmes nominaux, syntagmes sans nom, pronoms personnels, démonstratifs, adverbiaux, possessifs, etc.) ­— dont le rôle est de porter l’attention du destinataire sur un référent identifiable —, mais aussi des expressions et indices qui, sans référer, rappellent ou évoquent dans l’esprit du destinataire l’existence d’un référent (appositions, constructions pronominales, constructions attributives, etc.). En complément des travaux déjà effectués sur la coréférence, ce projet a pour objectif d’étudier et de modéliser la contribution de ces expressions et indices aux chaînes de coréférence, en partant du principe que tous les maillons d’une chaîne de coréférence n’ont pas la même importance. C’est dans ce principe « multi-niveau » et dans l’étude des indices coréférentiels que repose le caractère exploratoire du projet pour son versant linguistique.

Dans un même ordre d’idée, le projet s’intéresse aux maillons qui n’ont pas de trace linguistique marquée (les sujets zéro des infinitifs et des participiales, notamment), du fait de phénomènes d’ellipse ou de grammaticalisation. Pour ce faire, l’approche contrastive, qui met en rapport français médiéval et français contemporain, prend tout son sens : elle permet de mieux appréhender ces phénomènes et de mieux les prendre en compte dans les modélisations).

Plusieurs hypothèses linguistiques à tester en corpus ont déjà émergé. Si elles sont trop nombreuses pour pouvoir les citer toutes, l'une d'elle, essentielle, suppose qu'il y a un rapport entre la structure du texte et les chaînes de coréférence : autrement dit, les chaînes de coréférence participeraient à la cohérence et à la cohésion du texte. Cette hypothèse a conduit les chercheurs à envisager des test permettant, entre autre, de voir la corrélation entre la réapparition du nom propre au sein d'une châine de coréférence et un changement de paragraphe.

L'ensemble de ces hypothèses portent sur trois objets d’étude :

1. Les références : types d’expressions référentielles, typologie des expressions et indices qui ne réfèrent pas mais rappellent l’existence d’un référent accessible. Le travail est mené en groupe, avec des spécialistes de morphosyntaxe, de syntaxe et de sémantique, à la fois pour le français contemporain et le français médiéval. Ce travail est passé par la spécification d’un schéma d’annotation très complet, par l’écriture d’un manuel d’annotation, et par l’annotation d’un ensemble de textes courts afin de tester le schéma et le manuel. Trois annotateurs ont été impliqués dans cette tâche.

reference
Une visualisation des références aux personnages d'un texte, avec un code couleur lié à l'identité du référent

 

2. La suite des références d'un texte : fréquences des passages d'un référent à un autre, des continuations sur un même référent, avec comme objectif d'ouvrir la voie à la détection automatique de motifs (ou patrons) de transitions référentielles.

reference
Exemple de visualisation de la suite des références du texte, paragraphe par paragraphe.

 

3. Les chaînes de coréférence dans un texte : typologies de ces suites de références portant sur le même référent, études des éventuelles corrélations entre l'apparition d'une catégorie d'expression référentielle (nom propre, par exemple) et des caractéristiques des structures informationnelle et textuelle (changement de paragraphe, par exemple).

reference
Interface d'annotation d'une chaîne de coréférence

 

L'identification de ces trois objets d'étude complémentaires a permis de clarifier la méthodologie de travail. Mais les besoins en termes d'outils informatiques sont encore nombreux : aucun outil actuel n'est capable de gérer correctement des suites et des chaînes de coréférence incluant deux niveaux de contribution des maillons, ni a fortiori de les visualiser et de fournir des outils statistiques sur les données annotées correspondantes.

 

Volet linguistique diachronique

D'un point de vue chronologique, les travaux réalisés ont consisté à construire un schéma d'annotation focalisé avant tout sur les phénomènes de référence et incluant de ce fait des aspects morphosyntaxiques, syntaxiques et sémantiques. Ces aspects ont été d'abord explorés et testés sur des textes en français contemporain, avant de l'être sur des textes en ancien et en moyen français. De fait, une étape du travail a alors consisté à prendre en compte un ensemble de modifications permettant d'obtenir un schéma d'annotation compatible avec les différents états de langue. Parmi les aspects discutés, se trouvent le cas marqué, l'aspect pro-drop (pronom non exprimé), la distinction entre « les chevaliers du roi » et « les chevaliers le roi », etc.

 

reference
Interface d'annotation des formes explicites et des formes atténuées (deux types de maillon) dans ANALEC, avec ici un exemple d'annotation de sujet non exprimé d'un verbe conjugué

 

Par ailleurs, certains de ces aspects ainsi que d'autres spécificités du français médiéval, notamment l'impossibilité de la cataphore1 avant une certaine date, ont amené à formuler de nouvelles hypothèses linguistiques qui ont été ajoutées dans les objectifs du projet.

Enfin, le projet en cours prépare, en explorant les aspects techniques et leurs conséquences, la constitution de ressources en français médiéval, cette constitution exploitant au mieux les efforts déjà fournis par la communauté (BFM : base du français médiéval ; SCRMF : Syntactic Reference Corpus of Medieval French). Ceux-ci portent plus spécifiquement sur les couches morphosyntaxique et syntaxique des annotations, alors que l'étude actuelle s'intéresse à une nouvelle couche, sémantique. Avant d'aboutir à un format de fichier pour un corpus multi-couche pour le français médiéval, les chercheurs explorent les procédures d'annotation sémantique reposant sur des annotations syntaxiques existantes, ainsi que les outils de fusion d'annotations, pour obtenir un seul corpus à partir de deux jeux d'annotation réalisés sur le même texte. La complexité des structures syntaxiques et la complétude des annotations sémantiques rendent néanmoins ces deux aspects difficiles.

 

Volet linguistique outillée et linguistique automatique

D'un point de vue informatique, l'objectif est d'explorer la voie de la détection automatique de chaînes de coréférence et d'adapter les outils d'annotation existants à la gestion des chaînes de coréférence.

Pour le premier point, il existe déjà des systèmes d'identification de chaînes de coréférence, et par là même beaucoup de méthodes d'annotation de la coréférence, notamment des méthodes adaptées en vue d'un traitement automatique ultérieur. Néanmoins, ces méthodes et systèmes se restreignent aux expressions référentielles, voire à certaines expressions référentielles (celles qui sont détectables facilement). Plus que cela, ce projet vise à explorer la voie du traitement automatique non seulement pour les expressions référentielles mais aussi pour les indices qui font l'objet d'une étude dans le versant linguistique.

Pour le second point, des outils tels que MMAX 2, GLOZZ 0.9.9 ou ANALEC 0.6 sont dotés de fonctionnalités d'annotation et de visualisation, mais ne comportent pas les fonctionnalités de représentation et d'analyse que l'on attendrait d'eux pour ce qui concerne les chaînes de coréférence : visualisation des différentes chaînes d'un texte sous la forme de graphes ; mise en relief de spécificités morphosyntaxiques ou sémantiques d'une chaîne ; identification automatique de la structure d'une chaîne (en utilisant par exemple un système de motifs) ; calcul d'indices numériques à partir des éléments annotés (calcul de saillance, notamment).

 

reference
Interface d'interrogation de corpus dans ANALEC

 

Ce projet vise à satisfaire ces besoins via le développement d'une nouvelle version du logiciel ANALEC, qui joue le rôle de plateforme d'analyse de textes écrits, plateforme intégrant divers modules, non seulement de visualisation, mais aussi d'analyse. Début février 2012 est sortie la version 1.1 d'ANALEC qui propose une première procédure pour visualiser et ainsi commencer à analyser des chaînes de coréférence.

 

reference
Interface d'interrogation des chaînes de coréférence dans ANALEC 1.1.

 

 

1. Dans l'anaphore, l'antécédent (ex : "le premier ministre") précède le terme anaphorique (ex : "il"). Dans la cataphore, c'est l'inverse : "quand il a fait face aux journalistes, le premier ministre [...]".

 

 

Participants au projet

LATTICE (Montrouge) : Frédéric Landragin (coordinateur du projet), Michel Charolles, Benjamin Fagard, Julie Glikman, Frédérique Mélanie, Paola Pietrandrea, Thierry Poibeau, Sophie Prévost, Noalig Tanguy, Bernard Victorri.

LILPA (Strasbourg) : Daniela Capin, Lucie Limousin, Laurence Longo, Catherine Schnedecker, Amalia Todirascu.

En tant qu'individus : Céline Guillot (ICAR, Lyon), Vanessa Obry (Nantes), et d'autres participants plus ponctuels que ceux déjà cités.

 

contact Contact :

Frédéric Landragin, chargé de recherche CNRS

 

en savoir plus En savoir plus sur l'UMR8094 Langues, textes, traitements informatiques, cognition (LATTICE)


Accueil du Sitecontactimprimer Plan du sitecredits