![]() |
||||||||||||||||
![]() |
||||||||||||||||
| Accueil > La recherche en sciences humaines et sociales > Modélisation Contrastive et Computationnelle des Chaînes de Coréférence | ||||||||||||||||
Vie des Laboratoires
![]() Modélisation Contrastive et Computationnelle des Chaînes de CoréférenceUMR8094 Langues, textes, traitements informatiques, cognition (LATTICE)25 avril 2012
Depuis deux ans, des chercheurs en linguistique et en informatique s'intéressent, sous la coordination de Frédéric Landragin, à la référence et à la coréférence dans des textes écrits, en français médiéval et en français contemporain, avec des objectifs à la fois théoriques et pratiques. Ces recherches interdisciplinaires ont bénéficié du soutien de l'InSHS et de l'InS2I, à travers l'attribution d'un PEPS.
L'absence de données linguistiques tenant compte des niveaux sémantiques et pragmatiques de la langue a conduit Frédéric Landragin et son équipe à envisager la constitution d'un corpus qui traiterait des phénomènes de références et de coréférences. Pour que la mise en œuvre d'un tel corpus prenne en compte le plus large éventail possible de cas, les chercheurs l'ont envisagé sur plusieurs états de langue (français médiéval et français contemporain) afin de prévoir une structure d'annotation commune à ces états de langue.
Volet LinguistiqueD’un point de vue linguistique, les chercheurs s’attachent à modéliser les éléments d’une chaîne de coréférence, en tenant compte non seulement des expressions référentielles (noms propres, syntagmes nominaux, syntagmes sans nom, pronoms personnels, démonstratifs, adverbiaux, possessifs, etc.) — dont le rôle est de porter l’attention du destinataire sur un référent identifiable —, mais aussi des expressions et indices qui, sans référer, rappellent ou évoquent dans l’esprit du destinataire l’existence d’un référent (appositions, constructions pronominales, constructions attributives, etc.). En complément des travaux déjà effectués sur la coréférence, ce projet a pour objectif d’étudier et de modéliser la contribution de ces expressions et indices aux chaînes de coréférence, en partant du principe que tous les maillons d’une chaîne de coréférence n’ont pas la même importance. C’est dans ce principe « multi-niveau » et dans l’étude des indices coréférentiels que repose le caractère exploratoire du projet pour son versant linguistique. Dans un même ordre d’idée, le projet s’intéresse aux maillons qui n’ont pas de trace linguistique marquée (les sujets zéro des infinitifs et des participiales, notamment), du fait de phénomènes d’ellipse ou de grammaticalisation. Pour ce faire, l’approche contrastive, qui met en rapport français médiéval et français contemporain, prend tout son sens : elle permet de mieux appréhender ces phénomènes et de mieux les prendre en compte dans les modélisations). Plusieurs hypothèses linguistiques à tester en corpus ont déjà émergé. Si elles sont trop nombreuses pour pouvoir les citer toutes, l'une d'elle, essentielle, suppose qu'il y a un rapport entre la structure du texte et les chaînes de coréférence : autrement dit, les chaînes de coréférence participeraient à la cohérence et à la cohésion du texte. Cette hypothèse a conduit les chercheurs à envisager des test permettant, entre autre, de voir la corrélation entre la réapparition du nom propre au sein d'une châine de coréférence et un changement de paragraphe. L'ensemble de ces hypothèses portent sur trois objets d’étude :
L'identification de ces trois objets d'étude complémentaires a permis de clarifier la méthodologie de travail. Mais les besoins en termes d'outils informatiques sont encore nombreux : aucun outil actuel n'est capable de gérer correctement des suites et des chaînes de coréférence incluant deux niveaux de contribution des maillons, ni a fortiori de les visualiser et de fournir des outils statistiques sur les données annotées correspondantes.
Volet linguistique diachroniqueD'un point de vue chronologique, les travaux réalisés ont consisté à construire un schéma d'annotation focalisé avant tout sur les phénomènes de référence et incluant de ce fait des aspects morphosyntaxiques, syntaxiques et sémantiques. Ces aspects ont été d'abord explorés et testés sur des textes en français contemporain, avant de l'être sur des textes en ancien et en moyen français. De fait, une étape du travail a alors consisté à prendre en compte un ensemble de modifications permettant d'obtenir un schéma d'annotation compatible avec les différents états de langue. Parmi les aspects discutés, se trouvent le cas marqué, l'aspect pro-drop (pronom non exprimé), la distinction entre « les chevaliers du roi » et « les chevaliers le roi », etc.
Par ailleurs, certains de ces aspects ainsi que d'autres spécificités du français médiéval, notamment l'impossibilité de la cataphore1 avant une certaine date, ont amené à formuler de nouvelles hypothèses linguistiques qui ont été ajoutées dans les objectifs du projet. Enfin, le projet en cours prépare, en explorant les aspects techniques et leurs conséquences, la constitution de ressources en français médiéval, cette constitution exploitant au mieux les efforts déjà fournis par la communauté (BFM : base du français médiéval ; SCRMF : Syntactic Reference Corpus of Medieval French). Ceux-ci portent plus spécifiquement sur les couches morphosyntaxique et syntaxique des annotations, alors que l'étude actuelle s'intéresse à une nouvelle couche, sémantique. Avant d'aboutir à un format de fichier pour un corpus multi-couche pour le français médiéval, les chercheurs explorent les procédures d'annotation sémantique reposant sur des annotations syntaxiques existantes, ainsi que les outils de fusion d'annotations, pour obtenir un seul corpus à partir de deux jeux d'annotation réalisés sur le même texte. La complexité des structures syntaxiques et la complétude des annotations sémantiques rendent néanmoins ces deux aspects difficiles.
Volet linguistique outillée et linguistique automatiqueD'un point de vue informatique, l'objectif est d'explorer la voie de la détection automatique de chaînes de coréférence et d'adapter les outils d'annotation existants à la gestion des chaînes de coréférence. Pour le premier point, il existe déjà des systèmes d'identification de chaînes de coréférence, et par là même beaucoup de méthodes d'annotation de la coréférence, notamment des méthodes adaptées en vue d'un traitement automatique ultérieur. Néanmoins, ces méthodes et systèmes se restreignent aux expressions référentielles, voire à certaines expressions référentielles (celles qui sont détectables facilement). Plus que cela, ce projet vise à explorer la voie du traitement automatique non seulement pour les expressions référentielles mais aussi pour les indices qui font l'objet d'une étude dans le versant linguistique. Pour le second point, des outils tels que MMAX 2, GLOZZ 0.9.9 ou ANALEC 0.6 sont dotés de fonctionnalités d'annotation et de visualisation, mais ne comportent pas les fonctionnalités de représentation et d'analyse que l'on attendrait d'eux pour ce qui concerne les chaînes de coréférence : visualisation des différentes chaînes d'un texte sous la forme de graphes ; mise en relief de spécificités morphosyntaxiques ou sémantiques d'une chaîne ; identification automatique de la structure d'une chaîne (en utilisant par exemple un système de motifs) ; calcul d'indices numériques à partir des éléments annotés (calcul de saillance, notamment).
Ce projet vise à satisfaire ces besoins via le développement d'une nouvelle version du logiciel ANALEC, qui joue le rôle de plateforme d'analyse de textes écrits, plateforme intégrant divers modules, non seulement de visualisation, mais aussi d'analyse. Début février 2012 est sortie la version 1.1 d'ANALEC qui propose une première procédure pour visualiser et ainsi commencer à analyser des chaînes de coréférence.
1. Dans l'anaphore, l'antécédent (ex : "le premier ministre") précède le terme anaphorique (ex : "il"). Dans la cataphore, c'est l'inverse : "quand il a fait face aux journalistes, le premier ministre [...]".
Frédéric Landragin, chargé de recherche CNRS
|
||||||||||||||||