CNRS : un plan ambitieux pour des données accessibles et réutilisables

Recherche

Suite à sa feuille de route sur la science ouverte publiée en 2019, le CNRS met en place un plan « Données de la recherche » pour inciter les scientifiques à rendre leurs données accessibles et réutilisables. Le directeur général délégué à la science, Alain Schuhl nous détaille ce plan.
 

Pourquoi est-il important de rendre les données de la recherche ouvertes ?
Alain Schuhl :
La mise à disposition des données attachées à une publication scientifique est indispensable pour comprendre, reproduire et valider un résultat scientifique. Partager ces données permet aussi à d’autres équipes de les réutiliser sans avoir à les générer une nouvelle fois, ce qui permet un gain de temps et assure une meilleure utilisation des fonds de la recherche. Surtout, de nouvelles connaissances peuvent émerger du croisement de données issues de communautés très différentes, à condition qu’elles soient diffusées avec un haut niveau de qualité et de contextualisation. Il est donc important de rendre les données « FAIR » – faciles à trouver, accessibles, interopérables, réutilisables – dès la conception des projets de recherche.

Le CNRS vient donc de mettre en place un plan « Données de la recherche ». Quelles sont ses ambitions ?
A.S. :
Ce plan et les actions qu’il propose traitent des données ayant vocation à être, selon l’expression de la communauté européenne, « ouvertes autant que possible, fermées autant que nécessaire » : il s’agit des données brutes ou retraitées dans tous leurs formats, les textes et documents, les logiciels, algorithmes, protocoles, etc. Le CNRS est un des acteurs européens majeurs de la production des données de la recherche, notamment au travers de son implication dans de très grands instruments, des systèmes d’observation et des infrastructures de données. Avec l’apparition de nouvelles technologies, une automatisation croissante et, par exemple, les nouvelles possibilités d’analyse offertes par l’intelligence artificielle, le volume et la diversité des données de la recherche vont fortement augmenter dans les années à venir. Ce plan s’inscrit donc dans la nécessité actuelle d’accélérer le développement vers la science ouverte, pour assurer la préservation et la réutilisation de ces données.

Or le CNRS couvre l’ensemble des champs disciplinaires qui sont à des degrés de maturation divers concernant l’ouverture des données. L’idée est donc de travailler avec chaque communauté pour diffuser les bonnes pratiques, faire connaître les services et les outils existants des communautés les plus avancées, comme celles de l’astrophysique, de la physique des particules ou des sciences humaines et sociales, et enfin d’accompagner la création de nouvelles pratiques, de nouveaux services et outils qui répondent aux problématiques des communautés plus novices en la matière.


Comment ce plan a-t-il été pensé ?
A.S. :
Ce plan s’appuie sur les réflexions qui ont conduit à la rédaction en janvier 2018 d’un livre blanc des données au CNRS par la Mission calcul et données (MiCaDo). Une analyse détaillée, effectuée dans les dix instituts de l’organisme, a alors conclu qu’il était important de promouvoir une véritable « culture de la donnée », de doter le CNRS d’une stratégie forte pour répondre aux besoins des communautés en matière de plateformes pour l’analyse de données à grande échelle, et de mettre en place une politique de gestion, de valorisation et de pérennisation des données.

Le Ministère de l’enseignement supérieur, de la recherche et de l’innovation (Mesri) a diffusé en juillet 2018 un Plan national pour la science ouverte, afin de rendre « les résultats de la recherche scientifique ouverts à tous, sans entrave, sans délai, sans paiement ». Suite à cela, en novembre 2019, le CNRS a adopté une feuille de route pour la science ouverte qui comprend déjà un volet « données de la recherche ». Avec ce plan dédié, nous entrons dans le concret.

En pratique, quelles sont les actions proposées ?
A.S. :
Nous souhaitons développer une stratégie et une politique volontaristes et lisibles. Le Plan données est avant tout piloté par les besoins des scientifiques et prendra en compte la diversité des contextes disciplinaires. C’est parfois un véritable changement de culture qui est nécessaire. Il faut donc faire évoluer les pratiques et les mentalités tout autant que développer des outils pour la gestion, le partage, la préservation à long terme et la diffusion des données de recherche en conformité avec les principes FAIR.

Pour cela, nous allons inciter les scientifiques à déposer leurs données, en accès libre, dans des entrepôts dont le CNRS tiendra une liste avec pour objectif des certifications. Selon les disciplines, il devrait être possible de mettre en place des périodes propriétaires ou d’embargo. Nous allons aussi encourager les communautés à réutiliser les données disponibles dans ces entrepôts.

Le CNRS mettra en place une réponse coordonnée face aux nouveaux besoins en termes d’expertise, de formation, de moyens humains et de reconnaissance, notamment dans l’évaluation, de ces nouvelles activités transdisciplinaires en support à la FAIRisation et au partage des données. En particulier, nous recentrons les activités de l’Institut de l'information scientifique et technique (Inist) sur ces questions. Il s’agit d’en faire le pilier de la politique de données ouvertes de la recherche du CNRS. Cette unité propre de service du CNRS, aide déjà les laboratoires à développer les plans de gestion de données exigés par les contrats européens, et les communautés à structurer leurs données et à les rendre accessibles.

Le CNRS va aussi s’investir dans les forums nationaux, européens et internationaux de discussion des politiques de la science ouverte, du calcul et des données de la recherche, tels que la Research Data Alliance (RDA) et l’European Open Science Cloud (EOSC).

Le plan met aussi en place une nouvelle gouvernance des données de la recherche au CNRS.
A.S. :
Oui, pour avoir une vision complète sur toute la science ouverte, une nouvelle Direction fonctionnelle des données ouvertes de la recherche (DDOR), rattachée à la Direction générale déléguée à la science (DGDS), aura pour mission de proposer et d’accompagner la mise en application d’une politique et d’une stratégie pour l’ouverture des données au CNRS. Issue de la fusion de l’actuelle Direction information scientifique et technique (Dist) et de la mission Calcul Données (MiCaDo), elle couvre l’ensemble du continuum depuis le calcul jusqu’à l’information scientifique et technique. C’est parce que la donnée englobe l’ensemble des problématiques qui seront traitées par cette direction que nous avons choisi de l’appeler Direction des données, ouvertes pour rappeler notre attachement à la science ouverte. Un choix avant-gardiste : nous considérons que les publications elles-mêmes sont des données de la recherche.

Les questions liées notamment à la différentiation entre les données ouvertes et celles à protéger, seront traitées au sein d’une cellule qui regroupera la direction de la DDOR,  le Fonctionnaire sécurité défense et des représentants de la Direction générale déléguée à l’innovation, de la Délégation à la protection des données, et de la Direction de la sûreté.

Enfin, la stratégie et la politique du CNRS en matière de données de la recherche devront être articulées avec celles de ses partenaires et du Mesri. Nous mettrons rapidement en place un administrateur ou une administratrice des données pour représenter le CNRS au sein du réseau que le Ministère est en train de constituer.