Mieux partager les données de recherche
Les scientifiques du CNRS peuvent désormais déposer leurs données au sein d’un espace institutionnel sur la plateforme nationale Recherche Data Gouv. Quelles sont les ambitions de cette plateforme ?
Conformément à sa feuille de route pour la science ouverte, le CNRS incite ses chercheurs et chercheuses à rendre accessibles leurs données de recherche
« Le CNRS est un des grands pourvoyeurs de données de recherche dans des thématiques pluridisciplinaires. Il est important de traiter cet enjeu globalement, du big data aux “petites” données bien utiles pour faire avancer la science », analyse Sylvie Rousset, directrice de la Direction des données ouvertes de la recherche (DDOR).
L’entrepôt CNRS Research Data permet aux scientifiques de publier leurs données issues de travaux de recherche soutenus par le CNRS. Il propose une collection principale générique et les laboratoires peuvent demander à créer des collections spécifiques – une dizaine l’ont déjà fait. Aujourd’hui, près de 80 jeux de données sont disponibles dans des domaines variés (chimie, physique, sciences de l'ingénierie et des systèmes, sciences de l’Univers, sciences de la vie, etc.), mettant à disposition plus de 6 600 fichiers.
Une solution complète et souveraine
Créé à l’état de l’art par un consortium d’établissements mené par Inrae
L’espace Recherche Data Gouv est accessible depuis un portail web unique et forme une « solution souveraine et une alternative fiable à la publication des données sur des plateformes commerciales », indique l’administratrice. Concrètement, il s’agit d’un entrepôt permettant à chaque établissement d’assurer la curation et la modération de ses données sur un espace institutionnel propre – comme celui ouvert par le CNRS qui « permet à un maximum d'équipes de recherche de ne pas se retrouver sans solution, puisque le CNRS est l'établissement tutelle du plus grand nombre d'unités de recherche en France », selon Isabelle Blanc.
« L’ambition française est celle de la Loi pour une république numérique de 2016 : dès lors que 50 % des travaux de recherche bénéficient d’un financement public, il doit y avoir au moins partage et au mieux ouverture
La priorité : l’accompagnement des scientifiques
« Ouvrir les données est plus complexe qu’ouvrir les publications : c’est tout un travail scientifique complémentaire qui est demandé aux équipes de recherche, le plus en amont possible, lors de la conception de leur projet et qui ne peut être confié à des tiers », explique Isabelle Blanc. Il faut ainsi être capable de décrire les instruments, conditions et protocoles avec lesquels les données ont été produites et collectées. En effet, selon une enquête du MESR entre 2018 et 2020, 80 % des communautés de recherche manquaient soit d’accompagnement soit d’infrastructure. Les autres pays
L'accompagnement est devenu un élément central du dispositif, prioritaire sur le développement d’une solution technique. En pratique, il s'organise par un maillage de services pour répondre à tous les besoins, selon une stratégie de fédération, de valorisation et d’amplification des initiatives existantes. En premier lieu, les ateliers de la donnée sont des guichets de proximité, disséminés sur tout le territoire, regroupant les expertises complémentaires de différents établissements. Aujourd’hui, 19 ateliers de la donnée mobilisent plus de 350 personnes de 80 établissements et offrent un éventail de plus de 140 services. Dix autres sont en projet et deux appels à labellisation auront lieu en 2024 et 2025. « Le CNRS est partenaire de nombreux ateliers de la donnée, qui sont le point d'entrée des scientifiques », précise Sylvie Rousset.
L’organisme contribue aussi au déploiement de centres de ressources nationaux, comme OPIDoR – portail mis en place par l’Inist-CNRS
La plupart des six centres de référence thématiques
EaSy Data, un entrepôt de confiance des sciences de l’univers
Le 6 novembre 2023 a eu lieu l’inauguration d’EaSy Data (Earth System Data Repository), l’entrepôt des données de longue traîne du système Terre et de l’environnement. Porté par Data Terra et opérationnalisé par le BRGM, EaSy Data a été identifié comme étant l’entrepôt thématique national des données dites « orphelines » ou de longue traîne de l’environnement et du système Terre, c’est-à-dire celles issues de travaux de recherche de durée finie (projets ou publications) dont l’acquisition/l’élaboration, la préservation et la diffusion ne sont pas organisées de façon pérenne ou communautaire.
La structuration de l’environnement des données de recherche renforce les collaborations scientifiques et favorise l’interdisciplinarité autour du partage et la réutilisation des données. Cela nécessite des moyens humains et financiers à long terme pour accompagner l’évolution des métiers et des compétences, ce pour quoi Sylvie Rousset invite à « reconnaître tous ces métiers et ces profils dans l’évaluation des carrières ». Des actions sont menées pour définir les compétences liées à la FAIRisation des données et mieux reconnaître la spécificité des métiers de gestion, de préservation et de diffusion des données comme les data librarian, data curator, data steward, etc.
À l’horizon 2025, l’archive ouverte HAL développée par le CNRS devrait aussi offrir un service pour déposer directement le jeu de données associé à une publication et le rendre accessible depuis Recherche Data Gouv. Cette même année, l’écosystème Recherche Data Gouv déposera une candidature pour devenir une infrastructure de recherche inscrite dans la stratégie nationale.
D’ici-là, Recherche Data Gouv vise une reconnaissance européenne (voir encadré) et doit trouver un modèle économique et une gouvernance pérenne. Une unité relevant de plusieurs tutelles sera mise en place pour cela en 2024, avec des personnels et moyens propres – le soutien financier du MESR étant poursuivi jusqu’en 2026. Une harmonisation de l’information juridique est aussi en développement pour accompagner les équipes et les ateliers de la donnée sur ces questions complexes qui nécessitent souvent du sur-mesure. « On espère que cet écosystème pourra grossir pour apporter cet accompagnement et faciliter la tâche à tous les établissements et toutes les équipes de recherche, dans un effet boule de neige accélérateur », conclut Isabelle Blanc.
Les ambitions de Recherche Data Gouv à l’international
Le comité de pilotage de Recherche Data Gouv prépare pour 2024 plusieurs candidatures pour rapprocher la plateforme nationale du projet européen European Open Science Cloud (EOSC). Ainsi, elle devrait rejoindre le catalogue de services mis à disposition par EOSC aux scientifiques européens et les ateliers de la donnée, rassemblant des acteurs experts en capacité d'accompagner des équipes de recherche, pourraient devenir des centres de compétences reconnus par l’Europe. « Les approches de la plateforme nationale Recherche Data Gouv et du projet européen EOSC sont complémentaires et peuvent se nourrir l’une l’autre », confirme Suzanne Dumouchel, responsable de la coopération internationale à la DDOR et membre du directoire de l’association EOSC, pour qui « les stratégies sont similaires, s’appuyant sur les outils existants et incluant les questions des compétences et de la qualité des données et des métadonnées ». Selon elle, « par son ampleur, son ambition, ses objectifs et sa dimension nationale, Recherche Data Gouv répond aussi aux critères envisagés pour devenir un futur nœud national d’EOSC ». Mais le ministère entend aller plus loin : « nous participons actuellement à la construction d'un consortium européen, avec nos homologues qui ont développé des projets de même nature, pour candidater à un appel 2024 d’EOSC sur les nœuds génériques, fournissant des services à toutes les communautés scientifiques à l’échelle européenne », dévoile Isabelle Blanc.