French Treebank : Un corpus de référence pour le français

06 avril 2017

Autres

Constitué à partir d’articles du quotidien Le Monde, le French Treebank (ou Corpus arboré pour le français) est une ressource lexicale et syntaxique de référence pour linguistes et informaticiens.

Développé depuis 1997 au Laboratoire de linguistique formelle (UMR7110, CNRS / Université Paris-Diderot) par Anne Abeillé et avec le soutien de l’Institut Universitaire de France, il propose aujourd’hui 21 550 phrases richement annotées et validées à la main.

La distribution du corpus contient 44 fichiers avec métadonnées, annotations lexicales et syntaxiques, le tout disponible en plusieurs formats informatiques pour une utilisation avec des outils de requête.

Les débouchés possibles sont multiples et impliquent souvent l’exécution de méthodes liées à l’intelligence artificielle : la correction et la traduction automatiques, l’aide à l’apprentissage du français, à la communication pour un public avec un handicap, ou encore l’entraînement de robots d’annotation. De nombreux projets scientifiques ou industriels reposent déjà sur le Corpus arboré pour le français. Apple, Google, Microsoft et Intel sont quelques-unes des entreprises qui exploitent le corpus afin d’améliorer leurs algorithmes.

Le corpus est distribué gratuitement pour toute utilisation à fins de recherche. Pour l’obtenir, il suffit d’en effectuer la demande en ligne et d’accepter les conditions générales d’utilisation. La licence commerciale, quant à elle, s’acquiert en contactant directement ftb@linguist.univ-parisdiderot.fr. Et avant toute demande, il est possible de tester le corpus grâce à un échantillon accessible sur simple clic !

Spécifications techniques :

Version 1.0 du 3 avril 2017
21 500 phrases issues du quotidien Le Monde (1990-1993)
664 500 tokens
44 fichiers aux formats XML, Tiger-XML, PTB et CoNNL
Métadonnées (auteur, date, domaine)
Annotations lexicales (catégories, flexions, mots composés, composants)
Annotations syntaxiques (constituants majeurs et fonctions grammaticales)
Annotations corrigées et validées manuellement !

Accéder au Corpus

En savoir plus sur le Laboratoire de Linguistique Formelle (LLF)

Contact

Alexandre Roulois

junjwm{n7{x~uxr|Iurwp~r|}7~wr6yj{r|6mrmn{x}7o{