EOSC : la science ouverte à l’échelle européenne

Recherche International

Fin mai, la Commission européenne vient échanger avec le CNRS sur le futur de l’European Open Science Cloud (EOSC), qui offre aux scientifiques de toutes disciplines un catalogue de services mutualisés pour la science ouverte. L’occasion d’un point d’étape sur cette initiative, entrée en action en 2021.

Faire de la science ouverte une habitude et structurer un internet des données et services dits « FAIR » – c’est-à-dire faciles à trouver, accessibles, interopérables et réutilisables – pour la recherche à l’échelle européenne, voire mondiale. Ce véritable changement culturel est l’ambition de l’initiative European Open Science Cloud (EOSC), lancée en 2016 par la Commission européenne. Entrée dans une phase de mise en œuvre il y a un peu plus de deux ans, après une première phase de conception, l’initiative envisage déjà son futur dans le prochain programme cadre européen après Horizon Europe, qui se termine en 2027. Deux moments clés marquent cette réflexion cette semaine : les 22 et 23 mai, se tient l’assemblée générale de l’association EOSC (voir encadré) et la Commission européenne vient s’entretenir avec le CNRS le 26 mai sur le sujet.

« En plus d’un retour sur l’utilisation d’EOSC par les scientifiques de l’organisme, la place du CNRS dans le développement stratégique de l’initiative et dans sa gouvernance sera au cœur des discussions. », annonce Suzanne Dumouchel, responsable de la coopération internationale à la Direction des données ouvertes de la recherche (DDOR) du CNRS et membre du directoire de l’association EOSC. « La venue de la commission européenne le 26 mai est un signe fort de l’intérêt de celle-ci envers notre organisme. », précise-t-elle.

La gouvernance d’EOSC

La mise en place de l’European Open Science Cloud bénéficie d’une gouvernance associant la Commission européenne, les pays participants au sein du comité de pilotage – dont la France, représentée par Inria – et la communauté de recherche représentée par l’association EOSC. Créée en décembre 2020, celle-ci rassemble plus de 190 acteurs de l’écosystème EOSC. Directrice de la DDOR, Sylvie Rousset y représente le CNRS. Suzanne Dumouchel a été élue membre du directoire de l’association pour un mandat de trois ans en 2020, parmi huit directeurs et directrices européens.

Pour faire avancer la science et l’innovation, l’initiative entend donner à tous les scientifiques travaillant dans des institutions européennes, à la fois publiques et privées, accès à toutes les données disponibles, avec les infrastructures et les services liés adéquats. Elle vise à permettre l’utilisation, le stockage, le partage et l’interopérabilité des données de recherche européennes, de manière décentralisée et adaptée aux besoins de chaque communauté de recherche.

« EOSC est un élément central pour soutenir la circulation, la diffusion et l’adoption des connaissances dans l’espace européen de la recherche (EER) tout en soutenant l’innovation. Il ambitionne d’augmenter la qualité des résultats scientifiques produits, en mutualisant les coûts et les efforts. », décrypte Alain Mermet, directeur du Bureau de Bruxelles du CNRS. Le Conseil de l’Union européenne a ainsi inscrit une action qui vise à rendre effective la science ouverte, en particulier à travers la mise en place de l’EOSC1 , en première place dans la liste des 20 actions de l'agenda politique 2022-2024 de l'EER annoncé en novembre 2021. 25 pays membres, 3 pays associés et 9 autres parties prenantes se sont engagés à contribuer à l’implémentation de cette action.

Le CNRS est membre de l’association EOSC et contribue à sa feuille de route pluriannuelle. Grande institution européenne pluridisciplinaire de recherche, il impulse une dynamique dans le développement de la science ouverte et interagit avec de nombreux utilisateurs et contributeurs actifs au sein d’EOSC. « Le CNRS entend ainsi jouer un rôle important dans la structuration et la gouvernance à venir de l’infrastructure EOSC. », précise Alain Schuhl, directeur général délégué à la science du CNRS. De plus, de nombreux instituts du CNRS sont parties prenantes dans le développement des services mis à disposition au niveau d’EOSC.

  • 1"Enable Open Science, including through the European Open Science Cloud (EOSC)"

Une plateforme de découverte multilingue des ressources en SHS

L’Institut des sciences humaines et sociales (INSHS) du CNRS s’appuie sur les efforts d’EOSC en termes d’interopérabilité des services, de création de standard ou encore d’alignement des vocabulaires utilisés par les différentes disciplines. En particulier, la plateforme GoTriple de découverte des ressources en SHS permet de découvrir en 11 langues européennes des données et publications, des profils de chercheurs et des projets de recherche. Issu du projet TRIPLE, qui a été coordonné par l’infrastructure de recherche Huma-Num, la plateforme GoTriple est aujourd’hui un service majeur de l’infrastructure de recherche européenne OPERAS dont le nœud français est OpenEdition. Ce service de découverte facilite ainsi la collaboration en SHS pour des applications scientifiques mais aussi sociétales et industrielles. « Avec cette plateforme de découverte, les chercheurs en SHS disposent d’un outil performant et multilingue pour développer et promouvoir leurs recherches. », résume Suzanne Dumouchel.

Le rôle de l’Institut national de physique des particules et de physique nucléaire (IN2P3), un des instituts du CNRS depuis longtemps confronté à l’analyse de grandes masses de données, a été déterminant pour le développement des services de stockage, de gestion et de traitement des données qui sont au cœur du fonctionnement de l’EOSC via en particulier sa collaboration avec l’European Grid Infrastructure (EGI). Plusieurs infrastructures françaises, dont le CNRS est tutelle, sont impliquées dans la structuration d’EOSC, qui est conçu comme un regroupement d’infrastructures fédérées. Celles-ci, comme France-Grilles, le CC-IN2P3, OpenEdition, Data-Terra ou le Centre de communication scientifique directe1 , ont développé des services et des ressources mis à disposition dans EOSC.

Aujourd’hui, ce sont plus de 1200 ressources issues du CNRS (bases de données, résultats de recherche, etc.) qui sont dans le catalogue EOSC. Les services interopérables traitent de l'ensemble du cycle de vie des données, de l’exploration au stockage, en passant par l'analyse, la publication, la visualisation et la réutilisation. Pour accueillir ces services et ces ressources, il faut aussi une infrastructure et des systèmes informatiques. Le CNRS contribue également à en penser l’architecture, l’interopérabilité entre les services, les standards pour les métadonnées, etc.

Enfin, l’organisme travaille en étroite collaboration avec d’autres institutions de l'Enseignement supérieur et de la Recherche (ESR) qui sont membres ou observateurs de l’association EOSC, afin d’identifier les besoins des communautés de recherche françaises en termes d’infrastructure de calculs, gestion de données ou encore visualisation. L’objectif : promouvoir la création d’un « EOSC français » pour « rendre les recherches plus visibles et plus innovantes ».

  • 1L’infrastructure France Grilles est un ensemble de machines sur lesquelles sont déployés des services logiciel pour le traitement des données scientifiques. Le centre de calcul de l’IN2P3 (CC-IN2P3) conçoit et opère un ensemble de services, en particulier un système de stockage de masse et de moyens de traitement de grandes masses de données. Le portail OpenEdition rassemble quatre plateforme de publications électroniques en sciences humaines et sociales. L’E-infrastructure Data Terra est un dispositif global d’accès et de traitement de données, produits et services dédiés à l’observation de la Terre. Le Centre pour la communication scientifique directe (CCSD) propose des services d’archivage, de diffusion et de valorisation des publications et données scientifiques comme l’archive ouverte HAL et les plateformes associées.

Galaxy-E : les apports d’EOSC à la communauté des sciences écologiques

« Utiliser les infrastructures d’EOSC permet de ne pas avoir à déployer et administrer notre propre infrastructure et de nous concentrer sur le développement de services et ressources FAIR. », explique Yvan Le Bras, responsable scientifique et technique infrastructure au Pôle national des données de biodiversité du Muséum national d'Histoire naturelle, qui a mis en place la plateforme Galaxy-E. Celle-ci est dédiée à l'analyse informatique reproductible pour la communauté des sciences écologiques, via le partage de données, d’outils et de processus de travail. Elle s’appuie sur la plateforme open source Galaxy, créée pour l'analyse, la gestion et la visualisation de données FAIR. Partager les données serait ainsi « nécessaire pour que les différentes parties œuvrant dans l'étude et la conservation de la biodiversité puissent avoir confiance dans les indicateurs de biodiversité proposés ».

Premier bénéficiaire des bourses du Conseil européen de la recherche (ERC), dont les lauréats sont incités à ouvrir leurs données, notamment via EOSC, le CNRS est donc « un grand contributeur d’EOSC », résume Suzanne Dumouchel qui souligne « l’économie de temps et de moyens » que permet le développement de services au niveau européen « de manière conjointe et collaborative ».

Pour fonctionner, EOSC dispose d’un budget d’un milliard d’euros sur la période 2021-2027, issu à parts égales d’un financement de la Commission européenne et de contributions en nature des institutions membres de l'association. Organisée à Bruxelles, l’assemblée générale des 22 et 23 mai sera notamment l’occasion pour la communauté EOSC de réfléchir à la gouvernance de l’initiative, après 2027 : les États membres doivent-ils être impliqués ? quel rôle pour les institutions nationales et les infrastructures de recherche européennes ? quel modèle économique pour les services ? Ce sont également sur ces questions que la Commission européenne souhaite consulter la position du CNRS.

ESCAPE : les physiciens s’engagent dans EOSC pour préparent leur science ouverte

Les grandes infrastructures de recherche d'astrophysique et de la physique des particules relèvent les défis de la science ouverte en Europe grâce à la collaboration internationale du cluster scientifique ESCAPE (“European science cluster of astronomy & particle physics ESFRI research infrastructures”) dirigé par le CNRS.  Les physiciens des particules sont des pionniers dans la gestion de grands volumes de données, dans l'adaptation de services logiciels ouverts pour l'analyse, la visualisation et la gestion de données statistiques. Les astrophysiciens ont établi les standards de la publication de données via l’Observatoire virtuel, qui permet la mise en commun d’outils d’analyse et de bases de données issues de grands instruments. Des scientifiques CNRS issus de l’IN2P3 et de l’INSU apportent leurs contributions en Europe dans le cadre d’ESCAPE et participent à la définition de l’architecture d’EOSC. Les nouvelles installations d'ESCAPE permettront d'étendre considérablement les capacités de la communauté scientifique à répondre aux questions sur la structure et l’évolution de l’Univers et des objets qui le composent. Pour ce faire « nous déployons un prototype d'infrastructure fédérée distribuée, appelée "lac de données", qui permettra d’optimiser l’archivage et le traitement des données, ainsi qu’un environnement virtuel de travail ouvert composé d’une série de services logiciels pour interroger les données, les partager et les combiner. », explique Giovanni Lamanna, directeur d’ESCAPE.