CNRS : Centre National de la Recherche Scientifique
Liens utiles CNRSLe CNRSAnnuairesMots-Clefs du CNRSAutres sites
Accueil Département scientifique homme et société : Centre National de la reherche scientifiqueAccueil Département scientifique homme et société : Centre National de la reherche scientifique
  Accueil > La recherche en sciences humaines et sociales > French Treebank : Un corpus de référence pour le français

Vie des Laboratoires

 

 

French Treebank : Un corpus de référence pour le français

UMR7110 Laboratoire de Linguistique Formelle (LLF)

6 avril 2017

 

Constitué à partir d’articles du quotidien Le Monde, le French Treebank (ou Corpus arboré pour le français) est une ressource lexicale et syntaxique de référence pour linguistes et informaticiens.

Développé depuis 1997 au Laboratoire de linguistique formelle (UMR7110, CNRS / Université Paris-Diderot) par Anne Abeillé et avec le soutien de l’Institut Universitaire de France, il propose aujourd’hui 21 550 phrases richement annotées et validées à la main.

La distribution du corpus contient 44 fichiers avec métadonnées, annotations lexicales et syntaxiques, le tout disponible en plusieurs formats informatiques pour une utilisation avec des outils de requête.

Les débouchés possibles sont multiples et impliquent souvent l’exécution de méthodes liées à l’intelligence artificielle : la correction et la traduction automatiques, l’aide à l’apprentissage du français, à la communication pour un public avec un handicap, ou encore l’entraînement de robots d’annotation. De nombreux projets scientifiques ou industriels reposent déjà sur le Corpus arboré pour le français. Apple, Google, Microsoft et Intel sont quelques-unes des entreprises qui exploitent le corpus afin d’améliorer leurs algorithmes.

Le corpus est distribué gratuitement pour toute utilisation à fins de recherche. Pour l’obtenir, il suffit d’en effectuer la demande en ligne et d’accepter les conditions générales d’utilisation. La licence commerciale, quant à elle, s’acquiert en contactant directement ftb@linguist.univ-parisdiderot.fr. Et avant toute demande, il est possible de tester le corpus grâce à un échantillon accessible sur simple clic !

 

Spécifications techniques :

  • Version 1.0 du 3 avril 2017
  • 21 500 phrases issues du quotidien Le Monde (1990-1993)
  • 664 500 tokens
  • 44 fichiers aux formats XML, Tiger-XML, PTB et CoNNL
  • Métadonnées (auteur, date, domaine)
  • Annotations lexicales (catégories, flexions, mots composés, composants)
  • Annotations syntaxiques (constituants majeurs et fonctions grammaticales)
  • Annotations corrigées et validées manuellement !

 

en savoir plus Accéder au Corpus

 

contact Contact :

Alexandre Roulois | alexandre.roulois@linguist.univ-paris-diderot.fr

 

en savoir plus En savoir plus sur le Laboratoire de Linguistique Formelle (LLF)

 

Accueil du Sitecontactimprimer Plan du sitecredits