imprimer   

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 
 
 
 
 
 
 
 
 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 
 

 






LES DONNEES DE SEQUENCE FINIRENT PAR PRENDRE LE DESSUS


Les données de séquences (protéines, ADN, ARN), quant à elles, ont un champ d'application en matière de phylogénie bien plus large que celui des techniques précédemment citées : la comparaison de séquences d'ADN permet tout aussi bien les tests de paternité, l'étude de variants géographiques d'une espèce et la construction de phylogénies entre espèces dont les temps de divergence peuvent aller jusqu'à 3,5 milliards d'années.Tout est affaire du degré de variabilité des séquences auxquelles on s'adresse. Le séquençage d'ADN, qui pose néanmoins des problèmes qui lui sont propres (cinq états seulement en un site : A, G, C, T, délétion), est une des techniques les plus utilisées en phylogénie moléculaire actuellement dans le monde.

L'hypothèse de l'horloge moléculaire
Les premières comparaisons de séquences d'acide aminés conduisirent à la constatation que les mesures de la divergence des séquences étaient corrélées au temps (dont les repères étaient fournis par la paléontologie). Elles contribuèrent à la formulation de l'hypothèse de l'horloge moléculaire par Zuckerkandl et Pauling dès 1962-1965, et Wilson en 1977. La nouveauté résidait en ce qu'il devenait possible d'évaluer sur la base des séquences le temps de divergence de lignées pour lesquelles on n'avait pas de fossiles. Cette hypothèse, dont le mécanisme est une composante de la théorie neutraliste de l'Evolution de Kimura (1968, 1983), fut assez controversée dans son interprétation. Elle stipulait que les séquences macromoléculaires d'une même classe fonctionnelle évoluent de manière constante au cours du temps, et à la même vitesse entre lignées distinctes. Les molécules d'une classe fonctionnelle subissant de faibles contraintes évoluent plus vite que celles dont la fonction est plus vitale. Les séquences composant le génome seraient autant d'horloges moléculaires battant à leur rythme propre.
Pour utiliser cette hypothèse à des fins phylogénétiques, il faut alors, bien entendu, s'adresser à la bonne horloge. L'utilisation de plus en plus intense de données de séquences à des fins phylogénétiques amenèrent progressivement les chercheurs à partir de 1980 à réduire la généralité de cette hypothèse pour ne plus la considérer valable que dans le cadre restreint de problématiques données. En effet, il s'avéra assez vite, dans les années 1980, que les taux de substitution que subit une même molécule dans différentes lignées diffèrent au cours du temps et diffèrent entre eux.
Ce constat devient si courant que Li conclut en 1993 à l'absence de toute horloge moléculaire qui se voudrait globale et que l'on commence à s'interroger sur les causes de ces différences de rythme d'évolution. Deux facteurs sont principalement retenus : d'une part, le temps de génération (plus précisément la vitesse de division des cellules germinales) et, d'autre part, l'intensité du métabolisme.
Quoi qu'il en soit, l'hypothèse de l'horloge peut être très utile non seulement dans les cas où elle est vérifiée, mais aussi lorsque la "période" ou l'étendue temporelle de ses variations est petite ou négligeable par rapport aux temps de divergence des lignées étudiées.
Au cours de son histoire, l'hypothèse de l'horloge moléculaire passa donc du statut de prérequis aux analyses (voir par exemple la technique U.P.G.M.A.), à celui d'hypothèse nulle permettant de révéler les entorses à l'horloge.

Les phylogénies moléculaires fondées sur des données de séquences
E. Zuckerkandl et L. Pauling en 1965, puis W. Fitch et E. Margoliash en 1967 apparaissent classiquement comme les pionniers des phylogénies moléculaires fondées sur des données de séquences.
Ces derniers obtiennent à partir des séquences protéiques du cytochrome c d'une vingtaine d'espèces (dont la plupart sont des Vertébrés), par une méthode de construction utilisant des distances, un arbre comportant seulement 3 incongruences (sur 18 clades) par rapport aux phylogénies fondées sur des caractères morpho-anatomiques.
Des travaux nombreux et célèbres sur les séquences protéiques de globines furent menés dès le début des années 1960 avec E. Zuckerkandl, L. Pauling, M.O. Dayhoff, puis M. Goodman. Ils permirent non seulement de retrouver une bonne congruence générale des phylogénies moléculaires et morphologiques de Vertébrés, mais aussi révélèrent la position dans les arbres phylogénétiques des événements de duplication des gènes de cette famille multigénique. Car même si les chercheurs travaillaient à l’échelle des séquences protéiques, ils découvrirent que les séquences de différentes globines d’une même espèce se ressemblaient.
Cette étape est importante car on comprit que, comme des copies d’un gène peuvent être sœurs par spéciation, elles peuvent être également sœurs par duplication au sein d’un même génome ; et que cette séparation physique suivie d’évolutions ultérieures autorisait l’emploi des mêmes outils conceptuels de la phylogénie pour retracer l’histoire des génomes.
Ces concepts sont toujours à l’œuvre aujourd’hui, à l’époque des génomes complets et de la génomique. Woese et Fox montrèrent en 1977 que les organismes vivants se divisent en Eubactéries, Archébactéries et Eucaryotes (et non plus en "Procaryotes" et Eucaryotes) sur l'analyse des fragments de l'ARN ribosomique 16S, ce qui fut confirmé dix ans plus tard par l'analyse des séquences complètes d'ARN ribosomique 16S par l’équipe d’Olsen en 1987. De surcroît, cette étude confirma la théorie de l’origine endosymbiotique des mitochondries et des chloroplastes, ce qui acheva ce convaincre de la nouvelle puissance d’investigation fournie par les phylogénies moléculaires.

L'explosion des données de séquences d'ADN
Jusqu'aux environs de 1975, les techniques d'obtention des séquences protéiques ou d'acides nucléiques étaient lourdes et coûteuses, de telle sorte que les données de séquences pouvant être utilisées à des fins phylogénétiques restèrent en quantité faible jusqu'à la fin des années 1970.
L'introduction par Sanger et ses collègues, en 1977, du séquençage utilisant les didéoxynucléotides terminateurs, puis la mise au point par K. Mullis en 1984 de la technique d'amplification génique dite "Polymerase Chain Reaction" ou PCR (il n’est pas de notre propos ici de détailler les divers procédés biotechnologiques) provoquèrent une explosion des données de séquences d'ADN disponibles à de telles fins.
Parallèlement, le séquençage direct de l'ARN ribosomique fut rendu possible par l’équipe de Bachellerie à Toulouse dès 1983, ce qui permit un accès rapide à des séquences ribosomiques sans passer par un clonage. Cet apport fut précieux durant toute la décennie suivante, durant laquelle les appareils à PCR autorisant des amplifications in vitro fiables n’étaient pas encore très répandus dans les laboratoires.
Ainsi, durant les années 1980, les techniques de séquençage et, par conséquent, la masse de données de séquences accumulées firent des progrès immenses. Les séquences furent compilées par plusieurs banques de données internationales. En 1990, GenBank (l'une des banques de données les plus connues et les plus utilisées) compilait déjà 100 millions de paires de bases et ce chiffre progresse de manière exponentielle. On peut considérer que cette envolée est due à un nouvel accès, de plus en plus facilité, par des laboratoires toujours plus nombreux, aux techniques de séquençage de l'ADN, molécule qui donne l'information structurale ultime de l'identité génétique d'un organisme (d'où une fascination réductionniste assez répandue).

Le développement de l'informatique
Mais les avancées de la phylogénie moléculaire furent possibles également par le développement, dans la même période, de l'informatique. Les caractères moléculaires sont nombreux et facilement codables, donc propices à des traitements rapides automatisés que ne pourrait faire un cerveau humain.
Lorsque les premières séquences exploitables à des fins comparatives apparurent, les phénéticiens (voir plus bas) avaient déjà proposé leurs méthodes de taxinomie numérique (comme Sokal et Sneath dès 1963) et les appliquaient à l'aide de programmes informatiques à des données de natures diverses. Ce facteur eut son importance dans le succès des phylogénies moléculaires. Les vifs débats sur la légitimité des méthodes employées, auxquels l'émergence de la cladistique ne fut pas étrangère, dans les années 1970 et 1980 (phénétique versus cladistique, mérites respectifs des méthodes de distances et de celles de parcimonie, et, plus récemment, mérites respectifs et fondements comparés des méthodes probabilistes et de parcimonie, etc.) contribuèrent, avec le nombre croissant des séquences, à augmenter le nombre de méthodes et de programmes disponibles.
Aujourd’hui, certaines pages de la toile abritent plusieurs dizaines de programmes téléchargeables différents, ce qui n’est pas sans quelques effets pervers. En effet, pour certains débutants plus préoccupés d’efficacité que de réflexion, on peut toujours obtenir un arbre en appuyant sur le bouton. Reste à savoir quelle philosophie et, surtout, quels artéfacts se cachent derrière.
Le plus difficile aujourd’hui pour l’utilisateur d’arbre reste bien l’interprétation. Certains programmes ont été des emblématiques, tel Hennig86 de J. Farris. Dans la même mouvance cladistique, les descendants efficaces tels Nona (P. Goloboff) ont progressé sur le temps de calcul et soigné leur interface (Nona dans Winclada de K. Nixon). Le programme le plus utilisé est sans doute le "Phylogenetic Analysis Using Parsimony" (PAUP) de D. Swofford, qui est utilisable sur tout type de données, mais qui, dans sa version 4, propose chacune des trois grandes méthodes de traitement phylogénétique des données moléculaires. Parmi elles, celle du maximum de vraisemblance de J. Felsenstein, approche probabiliste développée dès 1981 et appelée, selon certains, à se développer, et celles d’inspiration phénétique, abritant de nombreuses méthodes de distances telles que celle de Fitch et Margoliash (1967) ou celle, plus utilisée encore, de Saitou et Nei, "Neighbor Joining" (1987).

La progression des séquences et des programmes informatiques disponibles a fait paraître, à partir de la fin des années 1980, une foule d'études phylogénétiques dont certaines eurent un retentissement médiatique parfois quelque peu excessif ("Eve africaine", le cochon d’inde hors des rongeurs, etc.). Cette profusion d'arbres montre que cette discipline était déjà en pleine vitalité. En France, l'ambiance optimiste au sujet des apports de la "phylogénie moléculaire" dans la période 1987-1992 autorisait l'espoir de découvrir rapidement de nouvelles relations de parenté à partir de séquences sans que pour autant ces mêmes relations soient connues à partir de données morphologiques. Un discours triomphaliste occultait partiellement les difficultés liées à l'obtention des données brutes (les séquences), mais surtout certains problèmes liés à la reconstruction phylogénétique appliquée aux caractères moléculaires, problèmes qui étaient pourtant déjà perceptibles. L’optimisme de l’époque devait vite s'accompagner de précautions.





 
 © CNRS - Contacts : Sagascience@cnrs-dir.fr