Données Ouvertes : « c’est le moment d’expliciter nos besoins ! »

Recherche

L’European Open Science Cloud (EOSC), grand projet d'ouverture des données scientifiques lancé par la Commission européenne en 2016, termine sa phase de « conception » cette année. Les chercheurs et chercheuses des pays membres ont jusqu'à fin 2020 pour détailler leurs besoins et pratiques. Explications avec Volker Beckmann, chargé de mission EOSC au CNRS, qui invite les scientifiques de l’organisme à un colloque EOSC le 22 janvier pour en discuter.

Qu’est-ce que l’European Open Science Cloud ?

Volker Beckmann1 : L’EOSC est une initiative de la Commission européenne, lancée en 2016. Elle entend donner à tous les scientifiques travaillant dans des institutions européennes, à la fois publiques et privées, accès à toutes les données disponibles, avec les infrastructures et les services liés adéquats. Le mot « données » est à comprendre au sens très large : données d’expérience, questionnaires, documents, images, etc. C’est une vision très forte du partage des résultats scientifiques : tous les États-membres reconnaissent l’importance du stockage et de la mise à disposition des données de recherche pour faire avancer la science. Les domaines interdisciplinaires, comme l’environnement, l’observation de la Terre, l’imagerie médicale ou encore l’étude des astroparticules, pourront grandement en bénéficier.

Lancement EOSC
La structure gouvernante de l'EOSC a été lancée le 23 novembre 2018. © BMBWF/Joseph Krpelan

Partager ses données, n’est-ce pas difficile dans certains domaines scientifiques ?

V. B. : Chaque communauté de recherche a un usage particulier des données. Certaines ont plus l’habitude de partager massivement des données, comme en physique des particules où les données produites au CERN sont disponibles pour tous les chercheurs des projets. Dans le domaine des sciences humaines et sociales, c’est plus compliqué car certains scientifiques peuvent passer des dizaines d’années à collecter leurs données, à leur manière non-standardisée, et il leur est difficile de simplement les partager ensuite. En biologie ou en chimie, il y a aussi la question des standards car les données dépendent des conditions expérimentales : il y a donc un grand besoin de documentation des données. Sans oublier les question d’anonymisation de celles qui sont sensibles.

Mais, comme le libre accès aux publications, le partage des données fait partie de la loi pour une République numérique française et demeure un objectif clair de la feuille de route du CNRS en matière de science ouverte. Comme l’a affirmé le PDG du CNRS Antoine Petit, ces données devront être “as open as possible, but as closed as necessary”, c’est-à-dire que l’on pousse à l’ouverture des données la plus large possible, sauf restrictions légales ou de sécurité. Le Ministère de l’Enseignement supérieur, de la Recherche et de l’Innovation a prévu des formations pour les doctorants pour les habituer au partage des données et à leur FAIRisation2 : rendre les données Facile à trouver, Accessibles, Interopérables et Réutilisables.

CMS désintégration boson de Higgs
L'accélérateur de particules LHC au CERN produit plus de 30 pétaoctets de données issues d'expérience chaque année. © Cyril FRESILLON/LHC/CNRS Photothèque

La phase de conception de l’EOSC court jusqu’à fin 2020. Où en sont la France et les autres États membres aujourd’hui ?

V. B. : L’EOSC n’est pas qu’une simple vision, c’est un véritable processus. L’idée est d’améliorer la situation de chaque discipline individuellement, en tenant compte des besoins spécifiques des communautés.

Ces dernières années, de nombreux projets et groupes de travail ont été lancés dans le cadre d’EOSC, en France comme en Europe : par exemple, le projet EOSC-Pillar lancé en juillet 2019 s’efforce de coordonner les efforts nationaux de science ouverte et partagée en Autriche, Belgique, France, Allemagne et Italie. Les pays nordiques sont très avancés, notamment parce qu’une sorte d’EOSC existe déjà à l’échelle de la Scandinavie, avec des infrastructures, des projets communs et une certaine habitude du partage des ressources et des données depuis les années 1980. Le partage des données fait aussi partie de la culture anglo-saxonne. En France comme en Allemagne ou en Italie, il y a plus de défis, humains autant que techniques, car ce type de partage généralisé est moins dans nos habitudes.

La Commission européenne ne souhaite pas faire changer la manière de travailler des chercheurs et chercheuses : nous allons utiliser ce qui existe déjà dans chaque domaine et construire des interfaces. Pour cela, l’EOSC est doté d’un budget de 100 millions d’euros par an, principalement distribué via les appels à projets européens mais aussi utilisé directement par les groupes de travail de l’EOSC. C’est dans cette phase de conception qu’il est important pour chaque scientifique producteur ou usager de données de faire remonter ses besoins et ses pratiques. C’est le rôle de la Journée EOSC organisée au CNRS le 22 janvier : nous voulons engager la discussion avec toutes les personnes concernées, et en particulier celles qui ne sont pas déjà dans des groupes de travail EOSC, afin d’expliciter les besoins de chacun.

Quelle sera la suite du processus ?

V. B. : En France, le processus, très centralisé, est majoritairement entre les mains des organismes de recherche nationaux, bien que quelques universités s’investissent indépendamment dans certains projets. Au CNRS, une fois les besoins recueillis, chaque institut mettra en place des dépôts de données pour ses communautés, en utilisant les standards internationaux de chaque domaine.

Ensuite, il faudra établir l’interconnexion entre ces différents dépôts et construire les interfaces pour que toutes les communautés puissent communiquer au niveau européen. Tout cela nécessitera des infrastructures, notamment pour le stockage, ainsi que des ingénieurs : la Commission européenne discute actuellement avec les États membres et les principales parties prenantes de la manière dont cela peut être financé.

Enfin, nous voulons proposer des services sur ces données, par exemple d’analyse en ligne ou de partage de documents, toujours en nous inspirant des services, logiciels et manières de travailler existant dans les communautés. Après les avoir identifiés, il faudra déterminer ce qui est nécessaire pour les rendre utilisable par tous : des traductions, des adaptations à d’autres environnements de travail, etc.

Une grande enquête a été lancée par le groupe de travail européen sur l’EOSC pour faire le point sur l'avancée des différents pays : elle devrait être présentée d’ici quelques mois.

Site EOSC
Le site web de l'EOSC - www.eosc-portal.eu - fournit déjà plusieurs services aux utilisateurs et producteurs de données. © EOSC

 

  • 1. Directeur adjoint scientifique « calcul et données » à l’Institut national de physique nucléaire et de physique des particules du CNRS.
  • 2. Au sommet du G20 en 2016 à Hangzhou, les dirigeants présents ont déclaré soutenir la FAIRisation des données de recherche.