La 5e édition de la Journée Science Ouverte du CNRS met en valeur les logiciels libres et la fouille de textes

CNRS Recherche

Aujourd’hui, la 5e édition de la Journée science ouverte du CNRS aborde deux sujets spécifiques : la matinée est consacrée à la place du logiciel libre et l’après-midi porte sur la fouille et l’analyse des données textuelles dans le contexte de la science ouverte.

Le mercredi 22 novembre, se déroule la 5e édition de la Journée science ouverte (JSO) du CNRS. Cette journée dédiée aux avancées de la science ouverte aborde la place du logiciel libre et les méthodes de fouille de textes et de données. Ce 3e pilier de la feuille de route pour la science ouverte du CNRS est au cœur des enjeux actuels de diffusion, de protection et de réutilisation des résultats de la recherche au regard des méthodes d’apprentissage par intelligence artificielle.

Amphithéâtre avec de nombreux spectateurs. Sur la scène, Antoine Petit au micro à droite devant un écran présentant le titre de la journée : "Science ouverte : logiciels libres et fouille de textes"
LE PDG du CNRS, Antoine Petit, a inauguré la journée Science ouverte 2023. © CNRS

Ce rendez-vous annuel est un point d’étape sur un thème de la science ouverte pour échanger avec les équipes de direction des 10 instituts du CNRS et leurs conseils scientifiques, ainsi que le conseil scientifique de l’organisme. Organisée par la Direction des données ouverte de la recherche (DDOR), cette journée s’inscrit dans la stratégie globale du CNRS : « au même titre que la feuille de route pour la science ouverte et du plan « données de recherche », les journées science ouverte constituent un élément central qui définit notre action politique chaque année. », précise Sylvie Rousset, directrice de la DDOR.

C’est aussi une occasion privilégiée d’aborder la position institutionnelle en faveur de la science ouverte et de coordonner les actions prioritaires. Alain Schuhl, directeur général délégué à la science du CNRS, rappelle qu’il est essentiel « de mobiliser les instituts sur les développements à venir et de leur fournir la matière et les outils pour construire leur stratégie disciplinaire ».

Un point d’étape annuel qui engage des actions concrètes

Chaque édition aborde un des piliers de la feuille de route pour la science ouverte du CNRS comme les publications scientifiques (2020), l’évaluation de la recherche (2021) et les données de la recherche (2022), avec des résultats concrets (voir encadré). Cette année, seront abordées la fouille et l’analyse des textes et des données. « Chaque année, les chercheurs et chercheuses du CNRS s’investissent pour ouvrir les publications et les données scientifiques. Les logiciels dédiés à l’exploration des données textuelles s’appuient sur cette ouverture et permettront d’en exploiter toutes les possibilités. », précise Alain Schuhl.

Des rencontres productives

Ces journées de travail alimentent l’action politique du CNRS. Plusieurs initiatives ont ainsi été concrétisées suite à ces rencontres. Par exemple, pour le volet publication suite à la journée 2020, le soutien à l’archive ouverte HAL, le soutien au modèle de publication diamant, ou une meilleure prise en compte des prépublications. La journée sur l’évaluation de la recherche a été l’occasion de positionner le CNRS comme membre actif, dès sa création en 2022, de la coalition internationale CoARA1 , dont Sylvie Rousset est élue membre du board. Le CNRS avait en effet déjà signé la déclaration DORA2  dès juillet 2018, pour repenser les critères d’évaluation afin de les rendre plus qualitatifs et de permettre de mieux reconnaitre la diversité des métiers des chercheurs. Il a aussi participé à la rédaction de l’accord européen de réforme de l’évaluation de la recherche.

Enfin, plusieurs nouveautés ont été mises en place cette année suite à la journée science ouverte 2022 : le CNRS a créé son entrepôt CNRS Research Data au sein de l’écosystème Recherche Data Gouv du ministère de l’Enseignement supérieur et de la Recherche (MESR), un catalogue « CNRS données de la recherche » a été mis en place pour identifier les entrepôts thématiques et de confiance3  pour l’archivage, le partage et réutilisation des données, et un modèle CNRS de plan de gestion de données (PGD) est désormais disponible pour accompagner les scientifiques dans la planification de leur projet de recherche.

  • 1La Coalition on Advancing Research Assessment doit repenser l’évaluation de la recherche à l’échelle internationale.
  • 2Déclaration de San Francisco sur l’évolution de l’évaluation de la recherche.
  • 3Le Catalogue « CNRS Données de la Recherche » est un répertoire des entrepôts et des services dédiés aux données, dont le CNRS est responsable ou auxquels il contribue en y affectant des moyens : https://cat.opidor.fr/index.php/CNRS_Donn%C3%A9es_de_la_Recherche_:_Catalogue_des_entrep%C3%B4ts_et_des_services 

La place du logiciel libre et les modèles de valorisation

La matinée de la rencontre sera consacrée plus largement aux logiciels libres. Ces ressources collaboratives, accessibles à toutes et tous, naviguent entre les disciplines et permettent de nouer des liens entre les équipes de recherche et avec la société. La possibilité d’en consulter le code source et d’y apporter des modifications permet d’adapter ces logiciels à des besoins spécifiques. Le choix de la forge logicielle de partage fait partie des critères de souveraineté qui garantissent à chaque utilisateur, laboratoire ou institution, la maitrise des données produites, leur conservation et les règles de réutilisation. Tous ces éléments seront discutés lors de la rencontre.

La session « valorisation des logiciels libres » présente un panorama des bonnes pratiques autour des licences, de la protection des données et de la valorisation logicielle. L’objectif est de fournir les ressources nécessaires aux scientifiques qui souhaitent partager leur logiciel et d’encourager celles et ceux qui se questionnent sur les méthodes de valorisation. La pérennisation et la réutilisation des logiciels libres est un enjeux actuel : Alain Schuhl rappelle que « le CNRS soutient annuellement depuis 2020, à hauteur de 100k euros, l'initiative Software Heritage, une archive ouverte internationale pour les codes source des logiciels ».

En 2023, CNRS Innovation, structure du CNRS dédiée au transfert technologique, a lancé le programme OPEN pour accompagner les équipes de recherche sur la valorisation des logiciels libres produit par la recherche. Elle s’exprimera notamment sur les différents modèles de valorisation soutenus par la structure. Sylvie Rousset estime que « cette journée d’échanges permet de rencontrer les acteurs de la valorisation, de faire connaitre nos actions et de bâtir des ponts avec CNRS innovation. Ce travail qui commence entre la DGDI, CNRS innovation et la DDOR sera important ».

Pour l’occasion, le CNRS a aussi invité une représentante d’INRAE. Chaque année, les deux institutions co-organisent en effet une action nationale de formation sur l’exploration documentaire et l’extraction d’information à destination des communautés scientifiques de l’enseignement supérieur et de la recherche « Certains participants reviennent chaque année pour actualiser leurs connaissances et prendre en main un nouveau logiciel lors des ateliers pratiques. C’est toujours bon signe quand les participants reviennent d’une année sur l’autre pour renforcer leurs compétences. » indique Sylvie Rousset.

Cinq personnes sur scène dont une debout au micro à droite
La journée comprend une table ronde sur la valorisation du logiciel libre. © CNRS

Le CNRS est également en phase avec le MESR et avec ses partenaires pour construire une stratégie nationale. Cette journée se place donc en écho à la journée ministérielle dédiée au logiciel libre du 29 novembre qui sera l’occasion de présenter l’état des lieux de la production et de la valorisation des logiciels de recherche et de remettre les prix science ouverte du logiciel libre.

L’initiative Software Heritage

La mission de Software Heritage est de collecter, préserver et partager tous les logiciels disponibles publiquement sous forme de code source, dans le but de construire une infrastructure commune et partagée au service de l'industrie, de la recherche, de la culture et de la société dans son ensemble.

La fouille de données textuelles et les grands modèles de langage (LLM)

L’après-midi de la journée se concentrera sur la fouille de texte et de données. En effet, la production scientifique s’accélère chaque année et les scientifiques se tournent de plus en plus vers des solutions numériques pour parcourir la littérature scientifique, extraire de l’information et produire de nouvelles connaissances. Pour Alain Schuhl, la fouille de textes est une discipline qui facilitera l’innovation pour explorer, partager et réutiliser les résultats de la recherche. « Le CNRS est prêt à soutenir les outils et logiciels de fouille de textes et à en démocratiser les usages dans toutes les disciplines. », affirme-t-il.

Mais l’ouverture au grand public des robots conversationnels comme ChatGPT questionne la pertinence des résultats fournis. Ces assistants ont du potentiel pour analyser de grands volumes de données et extraire de l’information à partir d’une interface utilisateur qui se rapproche d’un moteur de recherche, et permet de proposer des requêtes sous forme de phrases (plus connues sous le nom de « prompts »). Derrière les derniers robots, il y a des années de travail en fouille de données textuelles pour développer de grands modèles de langage (LLM) suffisamment indexés qui permettent d’entrainer les intelligences artificielles. Le CNRS est en bonne position avec le supercalculateur Jean Zay (voir encadré).

Néanmoins, les logiciels propriétaires sont actuellement des boites noires qui n’affichent pas le code source pour comprendre le fonctionnement de l’algorithme, ni la nature des données à partir desquelles il construit ses résultats. Or la science ouverte demande à ce que les données et les logiciels soient accessibles pour des questions d’intégrité, de réplicabilité et de transparence. Après plusieurs présentations faisant un panorama de la fouille des données textuelles, une table-ronde viendra rappeler ces enjeux.

Le supercalculateur Jean Zay et le grand modèle de langage « Bloom »

Première puissance nationale pour la communauté scientifique en intelligence artificielle, ce supercalculateur est employé pour résoudre les problèmes scientifiques les plus complexes, comme la recherche sur le climat, l'astrophysique ou encore la biologie. Situé sur le plateau de Saclay, Jean Zay est développé par HPE et opéré par l’Institut du développement et des ressources en informatique scientifique (Idris) du CNRS. Entraîné sur ce supercalculateur, le grand modèle de langage « Bloom » est une intelligence artificielle, capable de comprendre n'importe quel texte, en 46 langues, et d'en restituer les informations principales.