Les recherches actuelles

    Les phylogénies moléculaires 

imprimer   
Guillaume LECOINTRE
Département de systématique,
Muséum national d'histoire naturelle,
Paris

 

 

 

 

 

 

 

 

 


Exemple de phylogénie
moléculaire

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 
 
 
 
 
 
 
 
 

 

 

 





Les êtres vivants sont composés d’attributs, autrement dit de caractères. Le requin, la truite, le chat et le chien ont tous deux yeux. Ces caractères peuvent être partagés par plusieurs espèces, et certains caractères sont plus largement partagés que d’autres. Le requin, la truite, le chat et le chien ont deux yeux, mais seuls les deux derniers ont des poils. Les espèces partageant un caractère donné exclusif peuvent être réunies dans un ensemble. Le caractère devient alors un argument pour constituer cet ensemble. La présence de poils argumente l’ensemble chat + chien.


RAPPELS FONDAMENTAUX


Construire une phylogénie, c’est construire, à partir d’un jeu d’observations fixées (la matrice de caractères), des ensembles argumentés, emboîtés les uns dans les autres de manière à rendre maximale la cohérence de tous les caractères entre eux. C’est-à-dire que l’on fabrique, parmi tous les ensembles possibles, le jeu d’ensembles les plus argumentés par des arguments qui ne sont utilisés qu’une seule fois.
Ces ensembles sont représentés sous forme d’arbres (un arbre est une façon de représenter une série d’ensembles emboîtés les uns dans les autres). On recherchera l’arbre qui limitera au maximum la répétition du même argument pour deux ensembles distincts… On dit aussi qu’on recherche l’arbre le plus parcimonieux. L’arbre le plus parcimonieux maximise le pouvoir explicatif des arguments.

Le choix d'un caractère
Cette logique s’applique à une grande diversité de caractères. En fait, toute structure des organismes que l’on peut comparer d’une espèce à l’autre est potentiellement exploitable pour construire des phylogénies. Forme ou organisation générale de l’organisme, os, muscles, organes, tissus, traits de développement embryonnaire, types de cellules, organites cellulaires, formes des chromosomes, ordre des gènes le long de l’ADN, séquences d’ADN ou de protéines, tout est bon pour les phylogénies à deux conditions :
- Premièrement, il ne faut pas que ces structures soient rigoureusement identiques d’une espèce à l’autre, sinon on perd tout pouvoir discriminant à l’intérieur de l’échantillon d’espèces que l’on se propose de classer.
- Deuxièmement, il ne faut pas non plus que ces structures soient si différentes entre elles qu’on ne sache plus les reconnaître comme "les mêmes" d’une espèce à l’autre.
Entre ces deux pôles se joue tout le problème de la similitude et de l’homologie, qu’il n’est pas de notre propos ici de détailler. Disons, pour faire court, que le premier devoir du phylogénéticien est d’identifier des structures d’espèces différentes comme étant des versions légèrement différentes d’un même caractère. Un caractère est donc un jeu d’attributs pour lesquels on peut formuler un pari d’homologie.

Gènes lents, gènes rapides
Du point de vue de leur structure, les macromolécules telles l’ADN, l’ARN ou les protéines sont comparables à de gigantesques colliers de perles. Les perles de l’ADN ne peuvent avoir que quatre couleurs (A, C, G, T), celles de l’ARN quatre couleurs (A, C, G, U), et celles des protéines vingt couleurs (chacun des acides aminés).
Une succession donnée de perles est appelée séquence. Les séquences d’ADN constituant le matériel génétique d’un organisme sont situées dans le noyau de chacune de ses cellules, et dans une moindre mesure dans les mitochondries et les chloroplastes.
Une succession donnée de perles d’ADN nécessaire et suffisante pour remplir une fonction donnée est appelée gène.
Séquencer un gène, c’est lire la succession des perles du collier, comme une succession de lettres permettrait de lire une phrase.
Lorsque les cellules se divisent, et plus généralement lorsqu’une espèce se reproduit, il faut recopier tout le matériel génétique. Cette opération est extrêmement fidèle, néanmoins le nombre de copies et le nombre de générations sont si gigantesques que des erreurs arrivent à "passer".
La séquence d’un gène donné varie alors quelque peu au sein d’une population d’individus. Un gène donné diffère par quelques perles d’une espèce à l’autre. De plus, il faut savoir que tous les gènes ne changent pas à la même vitesse. Certains mettent des millions d’années à "accepter" une mutation, d’autres sont plus tolérants.
Il y a donc des gènes "lents" et des gènes "rapides". Les gènes lents, comme ceux des histones, changent si peu souvent que toutes les espèces de vertébrés (lamproie, requin, homme, truite, grenouille) ont la même séquence, ou quasiment. Un gène rapide comme celui du cytochrome b exhibera des différences entre populations d’une même espèce, et a fortiori entre espèces.
On devine dès à présent que pour un lot donné d’espèces à classer, le choix d’un gène plutôt qu’un autre va résider dans la vitesse d’évolution du gène. Relativement au temps de divergence des lignées en présence, le gène candidat ne doit pas être trop lent, ni trop rapide.

L'alignement des séquences
Pour un jeu d’espèces fixé, on peut donc aujourd’hui obtenir la séquence d’un gène donné, et comparer ces séquences en plaçant les unes en dessous des autres leurs parties identiques. Cette opération est appelée "alignement des séquences" ; elle consiste à mettre en place et de manière explicite des hypothèses d’homologie entre les perles de différentes espèces.
Bien entendu, en dehors de toute information biologique extrinsèque, les séquences sont alignées de manière à placer le maximum de successions identiques de perles les unes en dessous des autres, c’est-à-dire à minimiser le nombre de différences observées entre les séquences.
Si les séquences sont de longueurs différentes, des "insertions" d’étoiles symbolisent par endroits une perle manquante. Certaines espèces auraient donc perdu certaines perles du collier, à moins que ce ne soient les autres espèces qui possèdent des perles surnuméraires. Quoi qu’il en soit, le placement de ces "étoiles" doit respecter le même principe de minimisation des différences entre séquences.
Cette procédure peut être effectuée à l’œil, ou à l’aide d’algorithmes spécifiques, ou même directement couplée à la construction de l’arbre.
Dans ce dernier cas, on cherchera l’alignement qui produira l’arbre le plus parcimonieux (procédure dite d’optimisation directe).
Plus classiquement, les séquences une fois alignées constituent une matrice de caractères, où chaque ligne est une espèce et chaque colonne un caractère (une position dans la séquence). Sur cette matrice, les procédures classiques de construction d’arbres pourront être appliquées.
En effet, dans la pratique, on constate dans les revues que les caractères moléculaires font l’objet de traitements phylogénétiques plus éclectiques dans l’algorithmique (méthodes de parcimonie, méthodes phénétiques, méthodes probabilistes) que ne le font les caractères moléculaires. La phylogénie moléculaire d’aujourd’hui est cette partie des sciences des classifications, la systématique, qui fonde ses phylogénies principalement sur des séquences d’ADN, d’ARN ou de protéines.
Mais il n’en a pas été toujours ainsi. Les phylogénies moléculaires ont des ancêtres dans le vingtième siècle qui datent d’avant les séquençages de routine…






 
 © CNRS - Contacts : Sagascience@cnrs-dir.fr