Les données, un enjeu majeur de la science ouverte

Recherche

Le 30 novembre à Paris, la Direction des données ouvertes de la recherche (DDOR) du CNRS organise sa 4ème édition de la journée science ouverte. Celle-ci est consacrée aux problématiques en lien avec la gestion et le partage des données de la recherche. L’occasion de faire le point sur les outils et services existants, et les enjeux associés aux données. Entretien avec Sylvie Rousset, directrice de la DDOR.

Quels sont les objectifs de cette journée sur la science ouverte ?
Sylvie Rousset : Cet événement s’inscrit dans une série de journées internes au CNRS dédiées à la science ouverte, destinées aux scientifiques via les dix instituts du CNRS. Mais il s’adresse aussi aux membres des conseils scientifiques de ces instituts qui représentent l’ensemble des institutions de recherche françaises. L’an dernier, l’enjeu principal portait sur l’évaluation de la recherche. L’événement avait permis au CNRS de se positionner dans le contexte national et européen. Cette année, nous nous focalisons sur la gestion et le partage des données (voir le programme), notamment en lien avec le plan « Données de la recherche ».

Vous avez notamment choisi de consacrer une table ronde sur le panorama juridique des données de la recherche, qui reste assez méconnu.
S. R : En effet, contrairement aux publications scientifiques, les données n’appartiennent pas en principe à leurs auteurs, mais à l’institution qui les a produites. Par ailleurs, bien que la loi demande d’ouvrir toutes les données de recherche, il existe des exceptions. C’est le cas par exemple des données personnelles protégées par le RGPD1 , celles de santé, ou de celles qui posent des questions de souveraineté nationale. Il est donc important de mettre au clair les règles juridiques associées aux données en général et dans différents cas d’usage en particulier.

Cette table ronde traitera ainsi des questions de partage de données dans le cadre d’accords de consortium, de l’identification des titulaires de droits de propriété intellectuelle, de la problématique des licences appropriées à apposer aux données partagées, etc. Nous soulèverons également des sujets associés à l’utilisation de données d’un tiers, à l’hébergement de données à l’étranger, ou encore à la responsabilité de mise à disposition des données produites par les plateformes. En parallèle de ces échanges, le CNRS doit également identifier la meilleure organisation qui permettra de répondre à toutes ces questions juridiques. La formation des personnels, par exemple, pourrait s’organiser au niveau des 18 délégations régionales de l’organisme de manière à pouvoir accompagner au mieux les scientifiques sur les questions juridiques en lien avec les données.

Cette journée met également en avant les entrepôts de données thématiques. Quels sont les messages clé que vous voulez transmettre sur ce sujet ?
S. R : Nous menons un important travail de sensibilisation et d’acculturation des scientifiques sur l’intérêt du partage des données et la promotion des solutions existantes. Certaines communautés sont beaucoup plus avancées que d’autres. C’est le cas de l’astronomie avec le Centre de données d’astronomie de Strasbourg (voir encadré), des sciences de la terre, des humanités ou encore de la bioinformatique. À travers ces exemples, nous voulons montrer qu’il est possible de partager des données ouvertes et que cela fonctionne bien. Par ailleurs, nous devons poursuivre nos accompagnements d’autres domaines comme la physique des matériaux, la chimie et l’ingénierie, pour lesquels plus de 50 % des données ne sont pas stockées de façon pérenne.

Par ailleurs, un exposé présentera la plateforme nationale Recherche Data Gouv inaugurée par le Ministère de l’Enseignement supérieur et de la Recherche (MESR) en juillet dernier, dont le développement a été soutenu par le CNRS. La plateforme sert aujourd’hui au dépôt de jeux de données génériques pour des communautés qui ne disposent pas d’entrepôts thématiques. Cette action est importante, car elle répond à un enjeu critique autour des données associées aux publications. En effet, les éditeurs de revues demandent de plus en plus aux auteurs de leur céder les données. Il était donc primordial d’offrir des espaces de dépôt qui permettent aux institutions de conserver leurs droits sur les données de la recherche.

Un dernier enjeu abordé mêle les notions de stockage, de calcul et d’intelligence artificielle. Comment se place le CNRS sur ces préoccupations ?
S. R : Derrière les entrepôts de données, se posent des questions de stockage et donc de modèle économique. On ne connaît pas encore l’étendue des petites données à héberger pour le CNRS, ni où les stocker toutes. Faut-il le faire dans des centres de calcul nationaux ou régionaux ? Face à ces nouvelles problématiques, la stratégie pionnière du CNRS d’avoir réuni en une seule direction (DDOR) tout le périmètre qui va des publications aux données de la recherche et au calcul, porte ses fruits. Nous avons créé un groupe de travail dédié au stockage de données avec les centres de calcul. Cela nous permet également d’adresser des opportunités émergentes. En effet, le partage des données ouvre la voie à de nouvelles façons de mener des recherches interdisciplinaires. On sait déjà que les outils d’intelligence artificielle révolutionnent la recherche de nombreux secteurs. L’ambition est désormais d’utiliser ces outils afin d’identifier de nouvelles problématiques d’intérêt au sein des jeux de données.

Plus largement, où se situe le CNRS aujourd’hui par rapport à ses ambitions sur la science ouverte ?
S. R : Nous avons bien avancé sur l’acculturation des chercheurs et chercheuses au partage des données et nous avons contribué à l’élaboration de solutions en phase avec les contextes nationaux (plateforme nationale) et internationaux (initiative European Open Science Cloud - EOSC). Nous sommes aussi en passe d’atteindre l’objectif des 100 % d’ouverture des publications fixé en novembre 2019 par Antoine Petit. Notre sujet prioritaire porte désormais sur les frais de publications. Nous échangeons avec d’autres organismes à l’international afin de proposer de nouvelles revues et/ou plateformes d’édition plus académiques.

Le CNRS s’est, par ailleurs, engagé avec la signature de DORA2  en 2018 en vue de transformer les pratiques d’évaluation de la recherche et de promouvoir la science ouverte. Nous sommes ainsi partie prenante et signataire de la réforme proposée au niveau européen avec le lancement récent de la nouvelle coalition CoARA. Un dernier chantier de grande ampleur concerne les outils dérivés de l’intelligence artificielle qui fera partie des principaux enjeux de la DDOR en 2023.

 

 

  • 1Le règlement général sur la protection des données (RGPD) est un règlement de l'Union européenne référence en matière de protection des données à caractère personnel.
  • 2La Déclaration de San-Francisco sur l'évaluation de la recherche. Elle met en cause l'usage croissant du classement bibliométrique (Journal Impact Factor) comme indice au service de l’évaluation de la recherche et des chercheurs.

50 ans de partage des données astronomiques

L'astronomie est une discipline pionnière du partage des données scientifiques. Le centre de données astronomiques de Strasbourg (CDS) a été l’un des premiers centres à prendre en charge des données numériques. Depuis sa création en 1972, il a su s’imposer comme un pilier de l'écosystème de partage des données en astronomie avec actuellement plus de deux millions de requêtes chaque jour. Il héberge et référence des données produites par les observatoires et les grands relevés du ciel, ainsi que les données des publications déposées par les auteurs et les revues spécialisées. Ouvert aux astronomes et aux curieux du monde entier, cet entrepôt met à disposition des données FAIR (faciles à trouver, accessibles, interopérables et réutilisables) grâce aux standards développés par l'Observatoire virtuel astronomique. Le CDS participe activement à la définition de ces standards disciplinaires sur le partage des données. Après 50 ans d’activité, comment expliquer ce succès ? Ses développements ont toujours été pilotés par les besoins scientifiques et une équipe aux profils variés (astronomes, documentalistes, informaticiens, etc.). Mais surtout, le CDS a su s’adapter aux évolutions scientifiques et techniques parfois disruptives – comme l'irruption du web – ainsi qu’aux changements de politiques de recherche. De quoi inspirer d’autres disciplines à en faire autant.