La parenté, conséquence de l'évolution
 
    Analyser les caractères et reconstruire la phylogénie
du monde vivant
 

imprimer   
Véronique Barriel,
Pascal Tassy,
UMR 8569, Département Histoire de la Terre, Muséum National d’Histoire Naturelle, Paris

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 


Fig. 1 - Homologie primaire et homologie secondaire

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 


Fig. 2 - L'arbre universel
du vivant

 

 

 

 

 

 

 

 

 

 


Fig. 3 - Homoplasie et parcimonie
 

 





 

 

 

 

 

 

 

 

 

 

 

 


Fig. 4 - X et Y, deux espèces caractérisées par un taux de substitution des nucléotides élevé. Elles partagent au site S le même nucléotide C considéré a priori comme homologue; l’état inféré pour le nœud ancestral sera alors C. En réalité, le site ayant muté plusieurs fois chez X et chez Y, le nucléotide ancestral pour ce site était A.

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 


Fig. 5 - Cladogramme et arbres phylogénétiques de 4 taxons actuels et fossiles

 

 

 

 

 

 

 

 


Fig. 6 - Comparaison extra-groupe





Fig. 7 - La notion d'âge d'origine et d'âge de différenciation selon Hennig

 


Depuis plus de trois milliards d'années, l'évolution biologique est responsable de la diversité de la vie sur Terre. Le paradigme de la biologie moderne, la théorie de l'évolution, nous impose de retracer l'histoire de l'évolution, autrement dit la phylogénie. En tant que construction historique, la phylogénie - représentée sous la forme d'un arbre - demeure une hypothèse. Par voie de conséquence, il est indispensable d'être explicite à propos des prémisses sur lesquelles reposent les différentes méthodes phylogénétiques en usage.

En principe, l'analyse phylogénétique s'appuie sur les caractères intrinsèques aux organismes : caractères morpho-anatomiques, moléculaires, voire éthologiques. Les observations peuvent être transcrites sous la forme de caractères discontinus (=discrets) – du type "massif / gracile", "concave / convexe", "perforé / non perforé" – et sous la forme de caractères continus (mensurations, fréquences). Les caractères morpho-anatomiques ont été étudiés depuis longtemps et c'est à partir d'eux que l'on a conçu au XIXe siècle la notion d'homologie, le caractère homologue permettant d'identifier les groupes dans une classification naturelle. L'évolutionnisme a donné à l'homologie sa dimension phylogénétique : un caractère homologue partagé par un nombre quelconque de taxons est dû à une ascendance commune.

Il y a deux façons de voir la construction phylogénétique et, par conséquent, d'analyser les caractères. Ou bien l'observation des caractères permet, par la méthode comparative, de construire directement des hypothèses d'homologie illustrées sous forme d'arbre : c'est, en gros, le cadre de l'approche cladistique héritée de la "systématique phylogénétique" de Hennig qui remonte aux années 1950 mais largement diffusée seulement à la fin des années 1960. Ou bien la comparaison des caractères induit un calcul de la ressemblance, et un arbre est construit en fonction des indices de ressemblances, ou distances : c'est l'approche phénétique ou taxinomie numérique, également diffusée dans les années 1960.

La première approche, l'approche cladistique, liée à des caractères discontinus, a raffiné la notion d'homologie, en fondant la construction phylogénétique sur le principe de synapomorphie. Ce faisant, cette analyse repose sur l’optimisation d’un critère : les caractères partagés sont dus à l’ascendance commune. L’homologie – le signal – est maximisée, l'homoplasie – le bruit (le partage de caractères non dus à une ascendance commune) – est minimisée.

La seconde approche, l'approche phénétique, qui intègre aussi bien les caractères continus que discontinus, a abandonné la notion d'homologie et fonde la construction phylogénétique sur la notion de similitude globale. L'homoplasie est considérée comme négligeable et, de ce fait, la partition entre homologie et homoplasie n'a pas de sens. Cette approche est encore pratiquée en biologie moléculaire, notamment dans le cadre de ce que l'on appelle "l'horloge moléculaire".



L'ANALYSE DES CARACTÈRES MORPHO-ANATOMIQUES

Émettre une hypothèse d'homologie revient à énoncer, par exemple, qu'une bulle auditive formée par l'os pétreux (encore appelé périotique, pétrosal, rocher) est un caractère propre aux primates parmi les mammifères (synapomorphie des primates). Une bulle pétrosale est ainsi un caractère discret, discontinu, comme le sont les caractères morpho-anatomiques qualitatifs.

Le point de départ de l'analyse est de s'assurer que lorsque l'on compare l'os pétreux des mammifères on compare bien le même os. Le critère d'identité (le "même") quelle que soit la forme (gonflé en bulle ou non) est un critère de connexion anatomique et de développement ontogénétique dont la pertinence n'est testée que par les conséquences tirées de l'hypothèse. Cette étape initiale forme le postulat de la méthode comparative.

L'homologie primaire : l'os pétreux formant ou ne formant pas une bulle, ne permet pas d'émettre une hypothèse phylogénétique. L'homologie secondaire (ou homologie phylogénétique) est le résultat d'une procédure analytique qui, en cladistique, repose sur l'application du principe de parcimonie.


CODAGE ET PARCIMONIE
L'os pétreux se présente sous deux formes, deux états, selon qu'il est en forme de bulle ou non (Fig. 1a, respectivement k' et k). Un codage binaire simple peut être tiré de cette observation, le premier état est codé (1) et le second (0) – ce pourrait être l'inverse. L'élucidation du sens de la transformation d'un état en un autre, c'est-à-dire le sens de l'évolution de l'os pétreux (ou polarité), permet d'émettre l'hypothèse d'homologie secondaire (homologie phylogénétique ou synapomorphie). Pour ce faire, le principal critère est la comparaison dite extra-groupe au moyen du principe de parcimonie. Il s'agit d'observer la forme du pétreux chez des mammifères non-primates, d'abord proches parents, comme les chauve-souris (Chiroptera) ou plus lointains, carnivores (Carnivora), insectivores (Lipothyphla) etc. La morphologie en bulle du pétreux est la moins répandue chez les mammifères, elle est, en fait, uniquement présente chez les primates, actuels comme fossiles. Cette analyse de la distribution des états de l'os pétreux repose sur la parcimonie en ce sens qu'une seule transformation suffit à expliquer la présence de la bulle chez les primates (il n'est pas nécessaire de multiplier le nombre de transformations). La forme en bulle du pétreux, présente chez chacune des espèces connues de primates, est dérivée (apomorphe), optimisée au nœud ancestral des primates, c'est-à-dire héritée de l'ancêtre commun des Primates ; la forme non bullaire est primitive (plésiomorphe), héritée de l'ancêtre commun des Mammalia. La bulle pétrosale est l'homologie secondaire (phylogénétique) des primates. Ce cas correspond à la figure 1c où B et D sont deux primates, tandis que A, C et E représentent respectivement les carnivores, les insectivores et les chiroptères.

Le raisonnement simple que l'on vient de suivre implique des comparaisons en dehors du groupe étudié, ici des groupes de mammifères non primates, afin d'orienter l'état des caractères, d'enraciner l'arbre. La comparaison extra-groupe, fondée sur l'application du principe de parcimonie, élève autant que possible la généralité des caractères étudiés en fonction du plus grand nombre possible d'extra-groupes introduits dans l'analyse. Ce critère est universel (caractères morphologiques ou moléculaires) sauf en ce qui concerne l'origine de la vie. Les arbres universels du vivant concernant la première dichotomie dans l'histoire des vivants (Fig. 2) sont enracinés au moyen d'une hypothèse sur la duplication génétique (paralogie).


HOMOLOGIE ET HOMOPLASIE
Il est rare que dans l'histoire de la vie, un même caractère ne se soit transformé de la même manière qu'une seule fois. L'apparition indépendante du même état transformé chez différents taxons est appelé convergence, ou bien, si les taxons sont proches, parallélisme. Dans les deux cas, du point de vue de la distribution du caractère, cela revient au même : l'état transformé est optimisé plus d'une fois dans l'arbre (Figures. 1b et 3a). Il peut se faire également qu'une transformation ultérieure revienne, apparemment, à l'état initial, selon une séquence de type 0 -> 1 -> 0. Le "0" final mime le "0" initial du point de vue de l'observation morphologique mais les taxons qui partagent l'état initial (partage d'un état primitif) et ceux qui partagent l'état final (partage d'un état dérivé) ne sont pas liés par une relation d'homologie. C'est ce que l'on appelle la réversion (Fig.3b).


HOMOPLASIE ET PARCIMONIE
En cladistique, l'arbre phylogénétique a la forme d'un cladogramme. C'est un arbre de parenté construit à partir du principe de parcimonie.
Les caractères sont observés, codés sous la forme d'états binaires (0-1) ou d’états multiples (0-1-2) dans une matrice taxons x caractères. Dans un cladogramme, les taxons sont reliés sur la base de leur ressemblance maximale en termes de caractères (états) individuels, c'est-à-dire en termes d'homologies. Les algorithmes de parcimonie ont été conçus à la fin des années 1960-début des années 1970. Leur efficacité à été régulièrement améliorée tant en temps de calcul que du nombre de taxons analysés. Actuellement on peut obtenir une solution exacte jusqu'à 20-25 taxons (quel que soit le nombre de caractères), au-delà seule une solution heuristique peut être trouvée.

L'interprétation d'un cladogramme en tant qu’arbre phylogénétique est immédiate. L'arbre qui maximise les homologies est l'arbre de longueur minimale, celui qui contient le minimum de transformations, autrement dit le minimum de pas évolutifs. Les états optimisés à un nœud sont interprétés comme présents chez le dernier ancêtre commun des taxons qui dérivent de ce nœud. La branche qui relie deux nœuds internes est le lieu des transformations évolutives. La longueur d'une branche correspond au nombre de transformations ainsi optimisées. Dans le cas illustré par la figure 3 (homoplasie), l’état du caractère au nœud ancestral au groupe (C D E) ne peut être optimisé de façon non ambiguë, ce peut être 0 ou 1 selon les hypothèses de convergence ou de réversion, aussi parcimonieuses l’une que l’autre.

Le critère d'optimisation parcimonieuse des états aux nœuds répond à la fois à la notion de ressemblance maximale des caractères individuels et à celle de communauté de descendance. Ce critère permet de calculer pour un quelconque jeu de données taxons x caractères, le rapport homologie-homoplasie. En effet, même si l'on maximise l'homologie, il apparaît quasiment toujours des caractères homoplastiques. Parmi les indices calculant la cohérence des données, l'indice de rétention (calculé automatiquement par les logiciels d’analyse de parcimonie) donne une bonne idée du rapport homologie - homoplasie, selon la formule :
IR = G - L / G - R où G est le nombre maximal possible de transformations pour un caractère par rapport aux taxons analysés qui le possèdent, L est le nombre effectif de transformations sur l'arbre obtenu et R le nombre minimal de transformations.



SPÉCIFICITÉ DES CARACTÈRES MOLÉCULAIRES

LES CARACTÈRES
Tout ce qui vient d'être dit précédemment pour les caractères morpho-anatomiques est vrai pour les caractères moléculaires. Il suffit de remplacer, par exemple, "os pétreux" par site 100 du gène du cytochrome b de l'ADNmt, "état 0" par adénine et "état 1" par cytosine, le texte reste inchangé. Le stade de l'homologie primaire (le site 100 est bien le même site 100 chez les différentes espèces que l'on compare), correspond à la phase d’alignement des séquences. La présence d'une adénine sur tel nœud du cladogramme et d'une cytosine sur tel autre est l'homologie secondaire. Du point de vue du traitement, les caractères morpho-anatomiques et moléculaires sont du même ordre, ce sont des caractères discrets. C'est pourquoi la cladistique s'applique parfaitement à ce type de données.

Pourtant les données moléculaires (comparaison de la structure des protéines ou de celles des ADN et ARN) sont souvent tenues pour particulières. Cela pour deux raisons.

La première est que l'identité des états ne fait pas de doute : une adénine est une adénine. La part d'hypothèse initiale est réduite à l'identification du site comme homologie. Cela peut soulever des difficultés si les séquences comparées ne sont pas de même longueur, en raison d’événements mutationnels du type insertion/délétion. La question de la qualité de l'alignement des séquences rejoint alors la subjectivité de l'appréciation des caractères morpho-anatomiques.

La seconde est que l'évolution des gènes en termes de substitutions peut largement prêter à interprétation. Imaginons différentes espèces se caractérisant par un taux de substitutions élevé : un site quelconque mute cinq fois, ou plus, au cours de l’évolution chez chacune des espèces : il ne peut être interprété en termes d’homologie. En effet, le même nucléotide porté par deux espèces, ou plus, n’est pas homologue (Fig.4). Se pose alors le problème de la saturation ou, si l'on préfère, le traitement du bruit si l'on juge a priori que le bruit excède le signal. La maximisation de l'homologie n'est alors pas nécessairement la procédure la mieux adaptée.

Si l’on considère que les effets d’une homoplasie omniprésente s’annulent, on utilise des méthodes phénétiques. On peut aussi estimer que les événements mutationnels possibles (transversions, transitions, insertions/délétions) ne se produisent pas à des fréquences identiques. On est amené dans ce cas à les pondérer différentiellement, aussi bien en parcimonie qu’en phénétique. Un tel comportement des caractères moléculaires est, en outre, à l’origine de méthodes de constructions d’arbres différentes des méthodes cladistique et phénétique. Il s'agit des méthodes probabilistes (méthode de maximum de vraisemblance, méthode baysienne) qui calculent l'arbre le plus vraisemblable sachant un modèle d'évolution posé a priori. Des études de simulation ont montré que lorsque les taux de mutations sont extrêmes et inégalement répartis dans les séquences et chez les taxons, une simple optimisation du signal donnera un résultat erroné. L'homologie peut alors être exprimée en termes de probabilité. Les progrès actuels de l'implémentation informatique permettent d'améliorer le rendement de telles méthodes, généralement très coûteuses en temps de calcul et relativement limitées en nombre de taxons.

LE MODÈLE DE L'HORLOGE
Le modèle de l'horloge moléculaire est un modèle où les taux de mutation sont les mêmes chez tous les taxons analysés. Le modèle de l'horloge a justifié au début l'application de données phénétiques construisant des arbres dont les branches ont nécessairement la même longueur. De telles méthodes ont toujours cours lorsque les données sont des caractères continus (par exemple les fréquences alléliques dans certaines analyses intra-spécifiques) dont le mode d'évolution est considéré comme constant. Le modèle est toutefois fort contraignant. Les gènes n’évoluent pas tous à la même vitesse, différentes portions de gènes peuvent évoluer à des vitesses différentes et le taux d’évolution des mêmes gènes peut varier selon les taxons. Les méthodes phénétiques n'exigeant pas une évolution constante (mais évidemment compatibles avec une telle évolution) doivent donc être utilisées en priorité.

L'une des applications du modèle de l'horloge est de donner des dates de divergence sur des arbres moléculaires une fois que l'arbre a été calé à partir d'une date fournie sur des données extérieures à l'analyse (âge fourni par la paléontologie).



CLADOGRAMME, ARBRE PHYLOGÉNÉTIQUE, SCÉNARIO ÉVOLUTIF

Un cladogramme est un schéma illustrant la distribution des caractères maximisant les hypothèses d’homologie. De ce fait, il peut être directement interprété comme un arbre phylogénétique (Fig. 5). On a pris l’habitude de qualifier de scénario évolutif un arbre phylogénétique intégrant non seulement les caractères mais aussi la divergence ainsi que des données écologiques et géographiques.

Selon le niveau des taxons terminaux (espèces ou taxons supra-spécifiques) et des longueurs des branches - notamment la présence de branches de longueur nulle -, le cladogramme peut être compatible avec différents arbres phylogénétiques et a fortiori plusieurs scénarios évolutifs.

Prenons l'exemple (Fig. 5) d'un cladogramme construit à partir de taxons terminaux actuels et fossiles et qui contient une branche nulle. Le taxon terminal situé à l'extrémité de la branche de longueur nulle a les mêmes caractères que le nœud dont il dérive. S'il s'agit d'un fossile de rang spécifique et que sa position géologique est compatible, l'arbre tiré du cladogramme peut montrer cette espèce comme espèce ancestrale (fig. 5b,c,d). En revanche, s'il s'agit d'un taxon de rang supérieur, la branche nulle indique l'absence d'apomorphie propre (pas d'autapomorphie) et, par conséquent, le groupe n'est pas monophylétique.

Une fois situé dans la dimension géologique, un cladogramme devient un arbre phylogénétique au sens strict (fig. 5d). Deux taxons frères issus d'un même nœud peuvent être représentés par des archives paléontologiques très différentes. On peut mettre ainsi en évidence des lignées-fantômes, c'est-à-dire des lignées non représentées par les archives fossiles pour une période de temps donnée, mais dont l'hypothèse cladistique de parenté implique l'existence. Sur la figure 5d, la lignée-fantôme menant à D est plus longue que celle menant à C (mais le taux d’évolution de C est supérieur). L'une des lignées-fantômes les plus célèbres est celle du cœlacanthe actuel dont le taxon le plus proche parent remonte au Crétacé supérieur, ce qui, par conséquent, implique une lacune de plus de soixante millions d'années.



PROPRIÉTÉS DES FOSSILES

Dans le cas des données morpho-anatomiques, les fossiles fournissent une information incomparable. En tant que représentation de l'histoire de la descendance, l'arbre phylogénétique est inscrit dans la dimension du temps géologique. Tout schéma de parenté qui n’inclut que des taxons actuels est nécessairement lacunaire. Les fossiles s'intègrent dans le schéma en réduisant ces lacunes. Plus encore, ils apportent des associations de caractères qui, souvent, n'existent pas dans la nature actuelle. Ils contrôlent - confirment ou réfutent - des hypothèses d'homologies établies initialement sur l'actuel, voire induisent des comparaisons originales. Par exemple, si l'on ne tient compte que des formes vivantes, l’hiatus morphologique qui sépare deux groupes frères, les oiseaux (Aves) et les crocodiles (Crocodylia), est considérable. Les hypothèses d'homologie tirées de la comparaison de ces deux taxons et des autres amniotes sont plus pauvres et moins pertinentes que celle issue de l’introduction de fossiles connus depuis 240 millions d'années, que l'on appelle les dinosaures. Ces derniers se disposent en effet tout au long de la branche qui mène aux oiseaux actuels, les premiers oiseaux n'étant connus que depuis 140 millions d'années). L’hiatus est à ce point comblé que les caractères dont on a longtemps pensé qu'ils étaient propres aux formes adaptées au vol (Aves avec Archaeopteryx - oiseau jurassique - et tous ses successeurs), comme les plumes ou les clavicules soudées en fourchette sont présents chez les dinosaures théropodes terrestres. Il en est de même pour des caractères intermédiaires comme la structure du poignet d'Archaeopteryx, connue chez les dinosaures coureurs les plus proches parents des oiseaux (les droméosaures) (Fig. 6).

Enfin, dès lors que des apomorphies sont identifiées permettant d'hypothétiser des parentés avec les taxons actuels, les fossiles permettent de préciser l'âge de différenciation et l'âge d'origine des groupes, âges qui sont souvent confondus (Fig. 7).




BIBLIOGRAPHIE
 


 
 © CNRS - Contacts : Sagascience@cnrs-dir.fr