Le supercalculateur Jean ZAY en action contre le coronavirus

Recherche

La recherche internationale s’organise face au COVID-19 et doit disposer des armes adéquates. Le supercalculateur Jean Zay consacre ainsi son énorme puissance de calcul à différents projets de modélisation moléculaire ou d’outils de diagnostics.

Face à la pandémie de COVID-191, le CNRS déploie les grands moyens avec le supercalculateur Jean Zay. Inauguré en septembre 2019 à l’IDRIS2, le centre de calcul intensif du CNRS, voit en temps normal sa puissance partagée entre environ 300 projets, mobilisant environ 1 200 chercheurs de tous les horizons scientifiques.

L’IDRIS est un des trois centres nationaux équipés et coordonnés depuis 2007 par GENCI3. Alors que les supercalculateurs sont généralement spécialisés dans le calcul scientifique, aussi appelé calcul haute performance (HPC), Jean Zay y adjoint une partition consacrée spécifiquement à l’intelligence artificielle (IA). « Jean Zay est un des supercalculateurs les plus puissants d’Europe, tant sur sa partie convergée que non convergée », affirme Pierre-François Lavallée, directeur de l’IDRIS. Dans le cas de recherches sur un nouveau virus, sa partition « non convergée » - basée sur des processeurs classiques (CPU) - est capable d’effectuer des simulations extrêmement complexes, comme celles d’interactions moléculaires qui permettraient de trouver des moyens, et donc des composés, capables d’affecter le virus d’une manière ou d’une autre.  La partie dite « convergée »  de Jean Zay - un mélange de processeurs classiques (CPU) et graphiques (GPU) - peut non seulement optimiser ce même type de simulations, mais aussi utiliser l’IA pour aider les chercheurs à mieux diagnostiquer des radios ou scanners, par exemple.

  • 1. La maladie provoquée par le virus SARS-CoV-2, un nouveau coronavirus identifié en janvier 2020, a été nommée COVID-19 par l’Organisation mondiale de la Santé (OMS). Les coronavirus sont une grande famille de virus qui provoquent des maladies allant d’un simple rhume à des pathologies plus sévères comme le SRAS-CoV ou le Mers-CoV
  • 2. Institut du développement et des ressources en informatique scientifique (CNRS)
  • 3. Grand équipement national de calcul intensif
Nœuds de calcul du supercalculateur Jean Zay. Chaque nœud dispose de 192 Go de mémoire et chaque GPU de 32 Go. © Cyril Fresillon/IDRIS/CNRS Photothèque

Mobilisation et modélisation

« Pour le coronavirus, en collaboration avec GENCI, nous avons dû lancer un appel d’offres pour des chercheurs à la fois compétents dans le domaine et capables d’être immédiatement opérationnels », précise Pierre-François Lavallée. « L’IDRIS a ensuite aidé à adapter, optimiser et mettre en place les simulations. » En temps normal, les attributions d’heures de calcul sont évaluées deux fois par an, pour partager 16 pétaflops, c’est-à-dire seize millions de milliards d’opérations en virgule flottante effectuées en une seule seconde, mais les projets consacrés à la lutte contre le virus SARS-CoV-2 sont devenus totalement prioritaires. 

Certains chercheurs étaient déjà prêts. Jean-Philip Piquemal, directeur du Laboratoire de chimie théorique (LCT)4, optimisait ainsi depuis un an ses modèles et ses codes de design de médicaments pour le supercalculateur. Alors qu’il étudiait surtout le VIH, il a pu se tourner dès le début de l’épidémie vers la nouvelle menace. En plus de son équipe du LCT, Jean-Philip Piquemal est épaulé par des chercheurs du CNAM5, du laboratoire XLIM6 et des universités américaines d’Austin au Texas et de Saint-Louis dans le Missouri.

« Au LCT, nous avons développé le code Tinker-HP, dédié à la modélisation moléculaire », annonce Jean-Philip Piquemal. « Il permet des calculs particulièrement précis, mais demande du matériel informatique conséquent. » Ces chercheurs en chimie théorique s’intéressent à la protéine Spike, qui forme les pics que l’on voit à la surface du virus, et qui lui sert à reconnaître et interagir avec les cellules humaines.

À défaut de détruire le pathogène, désamorcer cette protéine empêcherait le virus de pénétrer et d’infecter des cellules hôtes. Sa taille et sa complexité alourdissent cependant les calculs et modélisations. « Nous rencontrons le même problème qu’avec le VIH », poursuit Jean-Philip Piquemal, « avec des protéines qui mutent souvent et risquent de rendre potentiellement inefficaces les solutions que l’on trouverait. Or certaines parties de la protéine Spike sont très conservées au cours de l’évolution des coronavirus, des stratégies de criblage virtuel peuvent donc identifier des molécules capables d’empêcher l’entrée du virus. Afin d’attaquer COVID-19 sous plusieurs angles, nous nous intéressons aussi à bloquer la machinerie interne des pathogènes en modélisant d’autres protéines telles les diverses protéases ou la polymérase, qui sont moins susceptibles de muter. »

  • 4. Laboratoire de chimie théorique (CNRS/Sorbonne Université)
  • 5. Laboratoire Génomique, bioinformatique et chimie moléculaire (GBCM) du Conservatoire national des arts et métiers (CNAM)
  • 6. Laboratoire XLIM (CNRS/Université de Limoges)
Modélisation de l’interaction et la liaison entre une partie de la protéine Spike de n-SARS-Cov-2 (en vert) et une partie du récepteur humain ACE2 représentant la première étape de l’entrée du virus dans la cellule hôte. ©LCPT

Atteindre un modèle à 250 millions d’atomes

Le modèle actuel du virus comporte jusqu’à cinq millions d’atomes, un chiffre déjà colossal alors que l’objectif est d’atteindre les 250 millions. Une taille qui dépasse largement les capacités d’ordinateurs classiques, qui plus est dans le contexte très particulier d’un adversaire dont on ne connaît pas encore grand-chose. « Pour ne pas travailler dans le vide, nous devons peaufiner nos modèles avec les nouvelles données expérimentales obtenues par d’autres équipes », souligne le chercheur. « Nous n’avions que très peu d’informations fiables sur le virus ne serait-ce que le mois dernier. Mais au moins nous bénéficions de la puissance de Jean Zay et de ses 1 300 processeurs GPU, chacune aussi puissante qu’un millier de processeurs grand public. »

Contrer la transmission du virus

De son côté, Antonio Monari est responsable de SeekAndDestroy au Laboratoire de physique et chimie théoriques (LPCT)7, qui rassemble des scientifiques de Nancy, Alcalà de Hénares (Madrid) et Palerme. « Notre projet vise à modéliser au niveau moléculaire les systèmes biologiques qui assurent la transmission du virus », introduit le chercheur. « Nos deux cibles sont les protéines Spike, qui permet l’entrée du virus dans les cellules humaines, et SARS unique domain, présente dans tous les virus de cette famille et les aidant à résister au système immunitaire. »

Sars unique domain utilise le repli d’un brin d’ARN pour ne pas être reconnu par les lymphocytes. Une ruse que les chercheurs tentent de déjouer, avec l’espoir qu’elle soit aussi valable contre les autres coronavirus, y compris ceux qui pourraient apparaître plus tard. Ces deux pistes reposent en tout cas sur des simulations de dynamique moléculaire, afin de décrire comment les protéines évoluent et interagissent. Cela donnerait ensuite une idée des médicaments capables de perturber le virus, en se substituant aux liaisons qu’il utilise pour infecter et se défendre.

« La puissance de calcul offerte par Jean Zay est fondamentale, pour obtenir des résultats le plus tôt possible et en testant un maximum de molécules », affirme Antonio Monari. « Sans cela, le danger serait de devoir laisser de côté certaines solutions. Le supercalculateur permet également de prolonger la durée de chaque simulation, car les interactions entre macromolécules biologiques peuvent demander du temps. »

Mustafa Tekpinar, du laboratoire Biologie moléculaire structurale et processus infectieux8, souligne lui aussi l’importance de la protéine Spike, mais s’intéresse surtout à la protéase de SARS-CoV-2. Cette enzyme, dont l’équivalent chez le VIH, le SARS9 ou le MERS10 avait déjà été étudié, est une cible viable pour le développement d’un vaccin. Il modélise donc les interactions de la molécule avec des collègues de l’Institut Pasteur et de l’université turque de Siirt.

  • 7. Laboratoire de physique et chimie théoriques (CNRS/Université de Lorraine)
  • 8. Biologie moléculaire structurale et processus infectieux (CNRS/Institut Pasteur)
  • 9. La première forme de syndrome respiratoire aigu sévère est apparue en Chine en 2002, provoquant une épidémie l’année suivante. Les médias employaient alors l’acronyme francisé SRAS
  • 10. Coronavirus du syndrome respiratoire du Moyen-Orient, apparu pour la première fois en Arabie Saoudite en 2012
Représentation de l'interaction de la protéine Spike avec le récepteur ACE-2 de la cellule-cible humaine (en gris). Image issue de simulations HPC réalisées à Sorbonne Université à l'aide du supercalculateur Jean Zay CNRS/GENCI et du logiciel Tinker-HP. © Université de Limoges/CNAM, visualiseur VTX

L’objectif est d’inhiber la protéase grâce à des interactions allostériques, où une molécule, en s’accrochant à distance d’un site actif, empêche la protéine de fonctionner et donc le pathogène de se répliquer. Là encore, le manque d’informations sur le virus freine la recherche, d’où l’importance de mieux en connaître les mécanismes. La protéase présente néanmoins un avantage technique très prosaïque : l’enzyme est relativement petite et donc plus facile à modéliser.

« Après le SARS, le MERS, Ebola et Zika, COVID-19 est la cinquième épidémie virale majeure de ces vingt dernières années », s’inquiète Mustafa Tekpinar. « Nous savons qu’il y en aura d’autres et que nous devons envisager différentes solutions pour les combattre, en prenant en compte les possibilités de mutation. Certaines options ne vont rien donner, mais d’autres seront de véritables mines thérapeutiques. »

Les pistes sont en tout cas nombreuses, rien qu’autour de Jean Zay. « D’autres projets utilisent par exemple l’IA pour diagnostiquer des radios ou scanners des poumons », cite Pierre-François Lavallée. « Les réseaux de neurones ont besoin de beaucoup de données et d’entraînement pour apprendre à repérer la maladie. » De quoi faire tourner le supercalculateur à plein régime pour un bon bout de temps. Baptisé en hommage à l’ancien ministre de l’Éducation nationale et des Beaux-arts, très impliqué dans la création du CNRS et assassiné par la Milice en 1944, Jean Zay combat à nouveau une menace mondiale.