Science ouverte : les succès du CNRS

Institutionnel

La science ouverte va-t-elle prendre un nouveau tournant à l’heure d’un contexte international tendu et d’une IA en plein essor pour le meilleur comme pour le pire ? À l’occasion de la septième journée annuelle pour la science ouverte du CNRS, Sylvie Rousset, directrice de la Direction des données ouvertes de la recherche, fait le point sur les avancées et prochaines étapes du CNRS dans ce domaine.

En 2019, le CNRS lançait sa première feuille de route sur la science ouverte. Quelles en ont été les principales étapes et avancées ?

Sylvie Rousset : Le bilan s’avère globalement très positif pour les quatre piliers, à savoir les publications scientifiques, les données de la recherche, la fouille de texte et l’évaluation individuelle des chercheurs et des chercheuses. Il est particulièrement satisfaisant concernant les publications, où le CNRS apparaît leader en France. Nous nous étions fixés pour objectif 100 % de publications des personnels CNRS en accès ouvert ; avec près de 95 % des publications des scientifiques du CNRS en accès ouvert et 80 % au niveau des unités mixtes de recherche, nous avons réussi notre pari grâce à notre action volontariste d’incitation de nos scientifiques au dépôt des articles  dans les archives ouvertes, comme l’infrastructure nationale HAL, créée dès 2001 et qui attire aujourd’hui des scientifiques du monde entier.

Au vu de ce succès, de plus en plus de revues académiques nous sollicitent pour passer au modèle diamant, c’est-à-dire une revue financée par les institutions académiques de manière à ce qu’elle devienne gratuite pour les auteurs et les lecteurs. Mais les publications du CNRS n’étant pas les publications du monde entier, il faut désormais s’atteler à ce que l’ensemble des publications passe en accès ouvert. Or, à ce jour, nous sommes toujours tributaires de gros éditeurs privés.

Précisément, au fur et à mesure que progresse la science ouverte, les éditeurs privés ont inventé et justifié de nouvelles dépenses pour recourir à leurs services…

S. R. : Bien qu’il y ait un consensus international autour des modèles diamant, on continue à verser de plus en plus d’argent aux éditeurs privés. Et pour cause : ceux-ci ont réussi à détourner la science ouverte en faisant porter le coût économique de l’ouverture des publications sur les auteurs publiant dans leurs revues. C’est ce qu’on appelle les « article processing charges » (APC). En trois ans (2018 – 2021), ils ont doublé au CNRS, passant de 2 à 4 millions d’euros ; en France, entre 2013 et 2020, les frais ont été multipliés par trois, allant de 10 à 30 millions d’euros. Les choses pourraient encore s’aggraver : si toutes nos publications devenaient payantes à l’unité, le CNRS devrait débourser trois fois plus et la France 168 millions d’euros par an dans les années 2030. Une situation financière insoutenable. En publiant au coup par coup, les scientifiques ne se rendent pas compte de ces coûts faramineux. C’est pourquoi nous dénonçons vivement ce modèle, qui valorise les laboratoires privés capables de payer pour publier, sans contrôle de la qualité des articles scientifiques, et exclut les pays dont le budget alloué à la recherche est plus limité.

Pour sortir de ce système cher et aberrant, le CNRS a entamé une phase de désabonnements à des revues d’éditeurs privés à commencer par Springer dès 2018, ce qui représente une économie de 850 000 € par an. Nous avons par la suite reversé cet argent pour soutenir des plateformes d’édition en accès ouvert gratuit à la fois pour les lecteurs et pour les auteurs, comme le Centre Mersenne à Grenoble pour les mathématiques et les sciences exactes, OpenEdition à Marseille pour les sciences humaines et sociales ou encore Episciences à Lyon. Nous avons également incité les communautés scientifiques à passer en accès ouvert, comme la Société mathématique de France, et nous avons soutenu d’autres systèmes tel que Peer Community In.

La bibliothèque du Rijksmuseum, à Amsterdam.
La bibliothèque du Rijksmuseum, à Amsterdam.© Maxime Galliot / Unsplash

En parallèle de ces désabonnements, il faut développer une alternative publique à l’édition scientifique privée à but lucratif. C’est ce vers quoi se dirige l’Europe depuis 2020, avec le déploiement de la plateforme Open Research Europe, qui s’élargira l’an prochain pour promouvoir plus largement le modèle d’édition diamant. La Commission européenne a pour objectif de proposer tant aux bénéficiaires de projets européens qu’aux scientifiques de la communauté européenne un service de publication sans coût supplémentaire à grande échelle. Cette initiative s’inscrit dans une dynamique internationale plus large avec les rencontres du Global Summit on Diamond Open Acces qui rassemblent la communauté mondiale de l’édition scientifique diamant (éditeurs de revues, organisations, experts et parties prenantes) pour renforcer ce modèle de publication libre et gratuit pour les auteurs et les lecteurs.

En plus de ces coûts supplémentaires, les publications scientifiques ont été fortement impactées par l’arrivée de l’intelligence artificielle (IA). Faudra-t-il renoncer à ce système de communication scientifique ?

S. R. : Ce sera justement le thème de notre prochaine journée science ouverte, consacrée à « la mort des publications scientifiques ». Nous constatons en effet que les humains écrivent, lisent et évaluent de moins en moins des articles alors que la production ne cesse de croître chaque année, en partie à cause des usines à articles (paper mills), qui, grâce à l’IA, produisent de manière industrielle de fausses publications scientifiques. Pour identifier ces faux articles générés par IA, le CNRS a mis au point, grâce à l’Institut de l'information scientifique et technique (Inist) et aux travaux du chercheur Guillaume Cabanac, un service clé en main appelé TDM Factory, qui met à disposition l’outil BibCheck capable de détecter les articles rétractés par leurs éditeurs dans les références bibliographiques d’un article. Un usage préventif pour permettre à tous les scientifiques de vérifier leur bibliographie avant de publier un article afin d’enrayer la circulation d’une mauvaise science. 

Dans ces conditions, la publication doit-elle encore rester le modèle premier pour faire connaître une découverte scientifique ? Je pense au contraire que la communication scientifique doit se réinventer et développer des modèles de communication innovants. Justement, la table ronde de la journée science ouverte 2025 tentera d’y répondre en réunissant un panel d’intervenants issus de l’édition privée, de l’édition publique et des nouveaux formats de communication scientifique.

Dans la mesure où les IA sont incapables d’en produire, les données de la recherche ont-elles remplacé les publications scientifiques comme mode de communication principal ?

S. R. : Si l’on veut que la science soit plus ouverte, il faut que les données de la recherche le soient aussi. C’est d’ailleurs le modèle légal par défaut en France. Il y a de fait un cercle vertueux à partager ses données : des données ouvertes évitent la redondance des recherches, contribuent à la reproductibilité des résultats et augmentent l’intégrité scientifique et la confiance dans la science. Un exemple concret : 35 ans après le lancement du télescope Hubble, on dénombre autant de publications provenant de l’équipe qui a exploité en premier les données que d’autres collectifs ayant travaillé par la suite sur les données, toutes publiques.

35 ans après le lancement du satellite, des équipes de scientifiques de par le monde continuent d'exploiter les données de Hubble
35 ans après le lancement du satellite, des équipes de scientifiques de par le monde continuent d'exploiter les données de Hubble© Nasa

La problématique des données est apparue dans le débat public plus récemment que celle des publications scientifiques. Une enquête interne au CNRS au début de la feuille de route avait montré que 60 % des laboratoires conservaient leurs données en interne – sur des serveurs, voire des ordinateurs personnels –, ce qui induisait un risque non-négligeable de perte des données en raison de ce stockage individualisé. Pour pallier ce problème, le ministère de l’Enseignement supérieur et de la Recherche a lancé en 2022 Recherche Data Gouv, une plateforme de stockage de données, où le CNRS dispose d’un espace institutionnel depuis juin 2023, idéal pour les données génériques qui ne possèdent pas d’entrepôt thématique mieux adapté. En plus de l’espace CNRS Research Data, nous avons mis à disposition des scientifiques un certain nombre d’outils pour déposer, partager et réutiliser leurs données mais également pour les aider à concevoir leur plan de gestion des données, obligatoire dans un certain nombre d’appels à projet. 

Le ministère de l’Enseignement supérieur et de la Recherche travaille également à une vision nationale à travers la labellisation de datacentres répartis sur tout le territoire, de façon à mutualiser les solutions de calcul et de stockageAujourd’hui, l’enjeu reste aussi bien de convaincre les scientifiques de déposer leurs données sur les espaces existants que d’en créer de nouveaux, à l’instar des travaux de stockage massif à l’Idris, qui ont vu l’extension du supercalculateur Jean-Zay à l’été 2025. Plus tôt on s’intéresse aux données, plus on a de chances de les ouvrir pour en exploiter tout le potentiel. Bien sûr, la science peut être fermée si nécessaire : anonymisation des données médicales, dépôts de brevet ou toute question relative à la souveraineté nationale et à la sécurité. 

Ouvrir les données et les publications ne peut toutefois s’accomplir qu’en réformant l’évaluation individuelle des chercheurs et chercheuses…

S. R. : Tout à fait, c’était d’ailleurs l’un des verrous à la science ouverte que nous avions identifié dès le démarrage de la feuille de route. De nombreux scientifiques acceptaient de payer des APC en raison du prestige de la revue, qui rejaillissait en retour sur leur carrière.

Pour ouvrir des données de plus en plus nombreuses, il faut les stocker sur des infrastructures de plus en plus massives, à l'instar du supercalculateur Jean-Zay, sur le plateau de Saclay
Pour ouvrir des données de plus en plus nombreuses, il faut les stocker sur des infrastructures de plus en plus massives, à l'instar du supercalculateur Jean-Zay, sur le plateau de Saclay© Cyril FRESILLON / IDRIS / CNRS Images

Dès 2021, le CNRS, précurseur en France, a procédé à la réforme de l’évaluation individuelle de la recherche en proposant quatre principes au comité national. L’objectif est double : favoriser une meilleure reconnaissance de la diversité du métier de chercheur et chercheuse et fonder l’évaluation annuelle de ses scientifiques sur du qualitatif et non plus du quantitatif. Dorénavant, les rapports annuels d’activité contiennent une partie narrative qui consiste à raconter l’importance de telle ou telle découverte plutôt que se fonder exclusivement sur des indicateurs bibliométriques comme le facteur d’impact ou le H-Index.

Cette réforme s’intègre dans une dynamique internationale. C’est pourquoi le CNRS a rejoint dès son lancement en 2022 la coalition CoARA, qui comptabilise à ce jour 800 institutions signataires, dont les trois quarts en Europe. À travers CoARA et d’autres initiatives de ce genre, les institutions de recherche de par le monde sont en train d’aligner leurs pratiques, une situation inespérée au moment où nous avons publié la feuille de route.

Justement, le contexte géopolitique international est-il encore propice à la science ouverte ?

S. R. : Il a évidemment changé depuis 2019. En 2025, la menace de coupure des bases de données étatsuniennes a alerté les communautés scientifiques sur la souveraineté des données et les façons d’en assurer la pérennité. C’est une question nouvelle : au regard de la montée des tensions internationales, les problématiques de souveraineté nationale pourraient désormais interférer avec les politiques de stockage de données. Il y a aujourd’hui un vrai risque de perdre des données internationales sur le climat, l’environnement ou les études de genre, et ceci de façon irréversible. Il est donc plus que jamais fondamental de partager les données et de ne pas les confier à un seul pays ou une seule organisation. 

Aujourd’hui, les motivations pour la science ouverte sont encore plus fondamentales dans le contexte actuel qu’à la fin des années 2010. Nous devons également maîtriser le tsunami généré par l’IA, en en retenant les bons côtés mais en se préservant des effets néfastes que cela génère. Le CNRS y travaille et notre futur plan d’actions pour la science ouverte tiendra naturellement compte de ce nouveau contexte.

Le système de balises Argo fait partie des bases de données internationales menacées par les coupures étatsuniennes
Le système de balises Argo fait partie des bases de données internationales menacées par les coupures étatsuniennes© Dugornay Olivier / Ifremer