Une archive ouverte pour sauvegarder le patrimoine linguistique mondial

Recherche

Archive sonore de langues en danger et sous-documentées, la collection Pangloss contient plus de 3600 enregistrements aujourd’hui accessibles en ligne dans un site revu dans le cadre du programme Com’Lab du CNRS.

« Quand une langue s’éteint, c’est toute une culture qui finit par disparaître », se désole Alexis Michaud, linguiste au Laboratoire de langues & civilisations à tradition orale1 (Lacito) à Paris. Pour remédier à ces pertes qui s’accélèrent « comme pour la biodiversité »  – les experts estiment que 50 % des langues aujourd'hui parlées auront disparu à la fin de ce siècle –, le chargé de recherche CNRS et son équipe contribuent année après année à une archive sonore des langues rares, souvent à tradition essentiellement orale.

Statistiques sur la collection Pangloss

Créée en 1995 comme un programme d’archivage des données de terrain du Lacito, elle est rebaptisée collection Pangloss en 2012 et s’enrichit au fil du temps de dépôts de scientifiques de nombreux domaines – linguistes, traducteurs, ethnologues, etc. – et de centres de recherche français comme de leurs partenaires étrangers (Canada, États-Unis, Allemagne, Pays-Bas, Vietnam, Chine, Singapour, Turquie, etc.). Elle contient aujourd’hui plus de 3600 documents, audio ou vidéo, recueillis lors d’enquêtes de terrain sur tous les continents.

Un caractère d’urgence

Récits de vie spontanés, contes et légendes, listes de mots, chants… Cela représente environ 780 heures d'écoute dans plus de 170 langues, « le fruit de plus de vingt ans de travaux de chercheurs et d'ingénieurs spécialisés du CNRS », selon Alexis Michaud. Pangloss possède même certains matériaux anciens tels que des enregistrements historiques par Georges Dumézil, linguiste reçu à l’Académie française en 1978, connu en particulier pour ses travaux de mythologie comparée : on peut ainsi écouter la voix de Tevfik Saniç, dernier locuteur de l'oubykh, langue caucasienne parlée autrefois en Turquie et en Géorgie. « Seules ces données primaires permettent la poursuite des recherches quand les langues et traditions orales s’effacent », assure le linguiste.

Pour lutter contre ce phénomène, plus d’une vingtaine de partenaires contribuent à l’archive, des laboratoires qui déposent des données au CNRS qui finance les salaires, en passant par l’Institut des langues rares, premier institut universitaire consacré à la recherche et à l'apprentissage des langues rares lancé en août 2020 par l'École pratique des hautes études - PSL. L’Agence nationale de la recherche (ANR) a financé deux projets basés sur ces données. Pangloss fait partie des 37 collections aujourd’hui hébergées par la plate-forme Cocoon2 et dédiées à la recherche et la médiation scientifique. Elle participe aussi aux réseaux internationaux Open language archives community, dont le site web constitue une bibliothèque virtuelle mondiale de langues, et Delaman, réseau d’archives numériques de langues et traditions musicales en danger.

  • 1. Laboratoire de langues & civilisations à tradition orale (CNRS/Université Sorbonne Nouvelle/Inalco).
  • 2. Collection de corpus oraux numériques.

L'histoire oubykh « La chèvre et le mouton »

- © collection Pangloss

Au centre, notes du linguiste Georges Dumézil (à gauche) sur un récit raconté par le dernier locuteur de langue oubykh, Tevfik Esenç (à droite) – Gauche et centre © Georges Dumézil ; Droite © Institut d'Ethnologie

Audiodescription

En ce début d’année 2021, la collection dévoile une interface web entièrement remaniée dans le cadre du dispositif CNRS Com’Lab mis en place par la Direction de la communication du CNRS pour soutenir les actions de médiation scientifique. Le but : mieux répondre aux besoins d’usagers professionnels demandeurs d’outils numériques de pointe, mais aussi faciliter l'accès à un plus large public, invité à « librement consulter et télécharger » ces données. Une démarche de science ouverte qui a constitué le cœur du projet dès le départ dans une logique de conservation, de structuration et de mise à disposition de « données de la recherche qui présentent une haute valeur patrimoniale ».

Un peu moins de la moitié des enregistrements sont ainsi transcrits et annotés, permettant à tous les auditeurs de comprendre ce qu'ils écoutent. « Nous n’empilons pas simplement des données qui deviendraient de moins en moins intelligibles au fur et à mesure que le temps passe », explique Alexis Michaud. « Nous sommes plutôt, selon le terme d’un ou une collègue anglophone3, une ‘clinique’ des données, dans laquelle les documents sont enrichis (transcrits et traduits) voire réparés (pour les plus anciens) ».

Une démarche de science ouverte

Ces données obéissent aussi au principe FAIR : elles sont faciles à trouver, accessibles, interopérables et réutilisables... et l’étaient déjà « bien avant que le concept ne soit à la mode ». Elles sont structurées dans un format ouvert, standard au niveau international, et peuvent être téléchargées (pour certaines, sous licence Creative Commons). Hébergées sur les serveurs de la Très grande infrastructure de recherche (TGIR) Huma-Num, leur conservation pérenne est assurée par les Archives de France. Les outils logiciels utilisés pour préparer et diffuser ces ressources sont aussi en libre accès. Tout est ainsi fait pour que la collection Pangloss devienne aussi un « jardin de données » où des explorations inédites, imprévues peuvent « éclore ».

Pour des scientifiques habitués à « garder précieusement leurs données longuement et difficilement acquises, sources irremplaçables de leurs travaux », l’archive ouverte bouscule ainsi les façons de travailler. Depuis octobre 2020, chaque document4 de la collection a même un Digital Object Identifier (DOI). Employé comme « cheval de bataille pour la diffusion de pratiques de science ouverte », ce numéro d’identification international unique doit permettre à la fois de vérifier les sources et d’ouvrir la perspective de produire de nouvelles recherches à partir des données existantes en facilitant la navigation entre corpus et publications scientifiques.

Des technologies au service des langues

La collection Pangloss s’est appuyée très tôt sur les technologies – comme l’écosystème XML5 – qui sont maintenant au cœur des humanités numériques. À côté des corpus textuels, des dictionnaires électroniques sont mis à disposition des communautés. Par exemple, le dictionnaire japhug-chinois-français, premier dictionnaire électronique de cette langue d’une grande importance pour l’étude de la famille sino-tibétaine, comporte plus de 7 000 entrées, ce qui est une taille remarquable pour un dictionnaire de langue rare très peu documentée auparavant.

  • 3. Commentaire issu d’une évaluation anonyme de la collection.
  • 4. De granularité fine, le système de DOI employé permet même de faire référence à une phrase précise au sein d’un texte, ou un mot précis au sein d’une liste de vocabulaire.
  • 5. Le XML est un format de fichier conçu pour transmettre des informations sous forme d’étiquettes accolées aux données.

Chant sur le cyclone en langue olrat

- © collection Pangloss

Mme Susi Rosur (en rouge), l'une des toutes dernières personnes à encore parler la langue olrat, entonne le poème chanté “Cyclone” pour accompagner le leng, danse des femmes de Gaua (Vanuatu)

photo A. François — Gaua, Vanuatu — août 2003

Audiodescription

Ces données sont aussi mises à disposition des informaticiens, par exemple  en vue de l'utilisation d'outils de transcription automatique des langues via l’intelligence artificielle pour « accélérer le travail de collecte et de description d’une diversité linguistique mondiale en déclin rapide », espère Alexis Michaud. De plus, pour le chercheur, doter une langue d’outils numériques, comme un clavier dédié sur un smartphone, est « important pour qu’elle conserve une certaine place dans un contexte social où elle se trouve minoritaire et marginalisée ».

Au-delà de la référence au personnage du conte philosophique de Voltaire Candide ou l'Optimisme, maître Pangloss qui « cultive son jardin », le nom de la collection vient en effet du grec pan πᾶν ‘tout’ et glossa γλῶσσα ‘langue’, ce qui signifie « toutes les langues ». « Nous n’avons pas l’ambition démesurée de sauver toutes les langues, explique le linguiste, mais nous n’en excluons aucune et nous faisons à chacune l’honneur de considérer qu’elle a autant à nous apprendre que l’anglais ou le français. »