Nathalie Gaborit, lauréate de la médaille de bronze du CNRS 2022, analyse des données pour ses travaux sur les mécanismes physiopathologiques des arythmies cardiaques héréditaires. © Jean-Claude MOSCHETTI / ITX-lab / CNRS Photothèque

Les données de santé ouvrent des perspectives de recherche

Recherche

Les scientifiques du CNRS disposent à présent d’une procédure simplifiée pour accéder aux données du Système national des données de santé. Une mine d’or pour les recherches dans le domaine.

« Les données de santé sont un matériau essentiel pour les recherches menées, en particulier dans les sciences de la santé mais aussi d’autres domaines comme les sciences humaines et sociales, et ainsi pour répondre à certains défis auxquels fait face la société », assure Alain Schuhl, directeur général délégué à la science du CNRS. Les enjeux de santé font ainsi partie des priorités scientifiques du CNRS, inscrites dans son Contrat d’objectifs et de performance 2019-2023 signé avec l’État. Mais, pour réaliser des projets de recherche dans les domaines de la santé et de la prise en charge médico-sociale, comme développer des médicaments, mesurer les inégalités sociales de santé ou encore minimiser l’errance diagnostique des maladies rares, l’accès à des données de santé est primordial.

Or les données de santé sont des données personnelles à caractère sensible, soumises à la fois au code de la santé publique et au Règlement général sur la protection des données (RGPD) – des règles dont « le scrupuleux respect fait partie du processus d’une recherche éthique et responsable », affirme Alain Schuhl. Pour obtenir de telles données, les scientifiques ont deux voies. Ils peuvent effectuer une collecte directe en menant leurs propres expériences, pour lesquelles l’encadrement organisationnel, réglementaire et éthique est fort. Alternativement, ils peuvent réutiliser des données déjà collectées, par exemple pour l’activité de soins des hôpitaux. Plusieurs sources existent (voir encadré), dont le Système national des données de santé (SNDS).

Ce dernier est composé principalement d​​es bases de données des remboursements de l'Assurance maladie depuis 2006, mais aussi des hôpitaux ou des causes médicales de décès de l’Inserm (base CépiDc). Cet important volume de données pseudonymisées – accessible sur autorisation de la CNIL1  pour des recherches présentant un intérêt public – permet de suivre des cohortes sur plusieurs décennies voire d’entraîner une intelligence artificielle à reconnaître, par exemple, des pathologies. « Ce Système national est une ressource conséquente pour les chercheurs et chercheuses du CNRS », confirme le directeur délégué à la science : « c’est une richesse d’informations qui ouvre des perspectives scientifiques ».

Depuis 2021, le CNRS fait partie des rares organismes de recherche2  à disposer d’un « accès permanent » au SNDS. Une procédure (voir encadré) permet ainsi l’ouverture de comptes utilisateurs pour les scientifiques de l’organisme, sans avoir à effectuer une demande à la CNIL. En un an et demi dans le cadre d’un dispositif expérimental mis en place au CNRS, 10 demandes ont été positivement arbitrées et 8 scientifiques ont déjà accès à la plateforme – hébergée par la Caisse nationale de l'Assurance maladie (CNAM). Ils mènent des projets sur les liens entre la concurrence et la qualité dans le marché hospitalier et le marché de l’optique médicale français, l’intelligence artificielle en médecine, ou encore l’effet de la mise en place de la protection universelle maladie (PUMa) sur le recours aux soins. La possibilité d’une procédure d’accès simplifiée a ainsi « dopé les demandes », selon Gaëlle Bujan, déléguée à la protection des données du CNRS.

  • 1La Commission nationale de l'informatique et des libertés (CNIL) est une autorité administrative indépendante chargée de protéger les données personnelles et de veiller à ce que l’informatique soit au service du citoyen.
  • 2L’accès permanent au SNDS est possible pour une trentaine de services de l'État, établissements publics et organismes chargés d'une mission de service public, dont spécifiquement les équipes de recherche des centres hospitaliers universitaires et des centres de lutte contre le cancer, de l’Inserm, d’Inria, de l’EHESS et du CNRS. Cf. Décret n° 2021-848 du 29 juin 2021 relatif au traitement de données à caractère personnel dénommé « système national des données de santé ».

Accès aux données du Système national des données de santé : la procédure en détails

Pour les demandes, une seule adresse mail : CNRS-SNDS@cnrs.fr

Le chercheur ou la chercheuse doit travailler dans une équipe de recherche rattachée à titre principal au CNRS, sur des recherches dans le domaine de la santé, et avoir l’accord du directeur ou de la directrice d’unité. Une fois la demande reçue, la Direction générale déléguée à la science statue sur la suite à y donner, sur avis scientifique de l’institut de rattachement. Le délai de réponse du CNRS est de moins d’un mois. Ensuite, des formations sur les enjeux et la plateforme, données par des experts et expertes de la Caisse nationale de l'Assurance Maladie, sont obligatoires. La déléguée à la protection des données du CNRS vérifie1  en parallèle que le poste de travail visé respecte la politique de sécurité des systèmes d'information de l'État (PSSI) qui s'applique au CNRS et le référentiel général de sécurité applicable aux données de santé, et analyse l’impact du projet sur la vie privée des personnes afin de limiter les risques. Finalement, l'accès est effectif en 4 à 6 mois. Certaines demandes peuvent nécessiter des autorisations supplémentaires.

Pour en savoir plus (accès intranet) : https://intranet.cnrs.fr/protection_donnees/rgpd/snds/Pages/default.aspx

  • 1Conjointement avec les équipes dédiées des délégations régionales, du laboratoire, voire des partenaires du projet.

L’accès prend effet 4 à 6 mois après la demande, suite à des formations obligatoires. « Le processus est beaucoup plus rapide et bien plus simple que la démarche classique », témoigne Mathilde Godard, chargée de recherche CNRS au Laboratoire d'économie de Dauphine1 . La chercheuse en économie de la santé étudie les effets de l’annonce d’un licenciement massif sur la santé mentale de la population située dans la zone d’emploi. Si les données du SNDS lui ont apporté des informations, elle précise tout de même qu’il reste « beaucoup à faire pour faciliter les croisements avec d’autres bases de données de manière plus automatique, afin d’aider à la compréhension des déterminants socio-économiques de la santé ».

Car, aujourd’hui, ces données sensibles exigent un niveau de sécurité élevé qui permet peu de croisements : seul le résultat des traitements scientifiques, et non les données brutes pseudonymisées, peut sortir de la plateforme sécurisée – à condition de travailler sur un ordinateur lui-même aux normes de la Politique de sécurité des systèmes d’information de l’État appliquée au CNRS. « Lorsqu’un ou une scientifique accède aux données du SNDS via l’accès permanent du CNRS, c’est en fait l’organisme qui porte la responsabilité juridique de la protection des données consultées et utilisées. Nous validons les mesures de protection mises en place par les scientifiques. Rien ne doit donc pouvoir sortir de la bulle sécurisée hébergeant les données. », clarifie Gaëlle Bujan.

  • 1CNRS/IRD/Université Paris Dauphine-PSL.

D’autres accès possibles aux données de santé

Au-delà du Système national des données de santé, les scientifiques du CNRS peuvent avoir par exemple accès à des fins de recherche à l’Entrepôt de données de santé de l’AP-HP1  grâce à une convention passée, aujourd’hui pour chaque projet, entre les deux institutions. Cet entrepôt rassemble les données administratives et médicales, pseudonymisées, collectées par 38 hôpitaux de la région parisienne dans le cadre de leur mission de soins (hospitalisations et consultations).

Le Centre d’accès sécurisé aux données (CASD), groupement d’intérêt public dont fait partie le CNRS2 , héberge quant à lui des données confidentielles nécessitant un niveau de sécurité élevé (de santé mais aussi sociales ou sur les entreprises françaises). Il permet d’avoir accès à ces bases de données de manière sécurisée et peut héberger de nouvelles bases, utilisables par les communautés de recherche dans une démarche de science ouverte.

  • 1Assistance Publique – Hôpitaux de Paris.
  • 2Créé en 2018, le CASD est un groupement d’intérêt public rassemblant l’État représenté par INSEE, le GENES, le CNRS, l’École polytechnique et HEC Paris.

Doctorante au laboratoire TSE-Recherche1 , Léa Bignon se dit « très consciente de la haute sensibilité de ces données ». Elle les utilise pour étudier l’impact de l’introduction de nouvelles technologies médicales sur le parcours des patients. Elle analyse en particulier, de manière statistique, l'influence des capteurs de glycémie en continu, remboursés par l’assurance maladie depuis mi-2017, sur le choix des insulines prescrites par les praticiens aux patients atteints de diabète. Pour cela, elle a dû s’adapter aux outils et logiciels intégrés à la plateforme, et aux particularités d’une base de données créée pour gérer des flux de remboursements et non faire des analyses statistiques de recherche. « La formation obligatoire est très utile pour comprendre les démarches de sécurité nécessaires mais aussi le processus de création des données. Je me réfère en permanence aux supports et aux ressources fournis par la CNAM ! », atteste-t-elle.

« Le SNDS fournit des informations indispensables à mes recherches. Un tel niveau d’exhaustivité est unique en France : y avoir accès donne une autre ampleur à mon projet, c’est un privilège. », assure encore la doctorante. Un avis partagé par Mathilde Godard : « La santé n’est pas que l’affaire des épidémiologistes et des experts en immunologie ou ​​imagerie médicale : c’est un domaine de recherche qui concerne aussi par exemple les sociologues ou les économistes. Il était capital que le CNRS, seul organisme à rassembler toutes les disciplines, se saisisse de cet enjeu comme il l’a fait. »

  • 1CNRS/Inrae/Université Toulouse Capitole.