|
LES DONNEES DE SEQUENCE FINIRENT PAR PRENDRE
LE DESSUS
Les données de séquences (protéines,
ADN, ARN), quant à elles, ont un champ d'application en matière
de phylogénie bien plus large que celui des techniques précédemment
citées : la comparaison de séquences d'ADN permet tout aussi
bien les tests de paternité, l'étude de variants géographiques
d'une espèce et la construction de phylogénies entre espèces
dont les temps de divergence peuvent aller jusqu'à 3,5 milliards
d'années.Tout est affaire du degré de variabilité
des séquences auxquelles on s'adresse. Le séquençage
d'ADN, qui pose néanmoins des problèmes qui lui sont propres
(cinq états seulement en un site : A, G, C, T, délétion),
est une des techniques les plus utilisées en phylogénie
moléculaire actuellement dans le monde.
L'hypothèse de l'horloge moléculaire
Les premières comparaisons de séquences d'acide aminés
conduisirent à la constatation que les mesures de la divergence
des séquences étaient corrélées au temps (dont
les repères étaient fournis par la paléontologie).
Elles contribuèrent à la formulation de l'hypothèse
de l'horloge moléculaire par Zuckerkandl et Pauling dès
1962-1965, et Wilson en 1977. La nouveauté résidait en ce
qu'il devenait possible d'évaluer sur la base des séquences
le temps de divergence de lignées pour lesquelles on n'avait pas
de fossiles. Cette hypothèse, dont le mécanisme est une
composante de la théorie neutraliste de l'Evolution de Kimura (1968,
1983), fut assez controversée dans son interprétation. Elle
stipulait que les séquences macromoléculaires d'une même
classe fonctionnelle évoluent de manière constante au cours
du temps, et à la même vitesse entre lignées distinctes.
Les molécules d'une classe fonctionnelle subissant de faibles contraintes
évoluent plus vite que celles dont la fonction est plus vitale.
Les séquences composant le génome seraient autant d'horloges
moléculaires battant à leur rythme propre.
Pour utiliser cette hypothèse à des fins phylogénétiques,
il faut alors, bien entendu, s'adresser à la bonne horloge. L'utilisation
de plus en plus intense de données de séquences à
des fins phylogénétiques amenèrent progressivement
les chercheurs à partir de 1980 à réduire la généralité
de cette hypothèse pour ne plus la considérer valable que
dans le cadre restreint de problématiques données. En effet,
il s'avéra assez vite, dans les années 1980, que les taux
de substitution que subit une même molécule dans différentes
lignées diffèrent au cours du temps et diffèrent
entre eux.
Ce constat devient si courant que Li conclut en 1993 à l'absence
de toute horloge moléculaire qui se voudrait globale et que l'on
commence à s'interroger sur les causes de ces différences
de rythme d'évolution. Deux facteurs sont principalement retenus
: d'une part, le temps de génération (plus précisément
la vitesse de division des cellules germinales) et, d'autre part, l'intensité
du métabolisme.
Quoi qu'il en soit, l'hypothèse de l'horloge peut être très
utile non seulement dans les cas où elle est vérifiée,
mais aussi lorsque la "période" ou l'étendue temporelle
de ses variations est petite ou négligeable par rapport aux temps
de divergence des lignées étudiées.
Au cours de son histoire, l'hypothèse de l'horloge moléculaire
passa donc du statut de prérequis aux analyses (voir par exemple
la technique U.P.G.M.A.), à celui d'hypothèse nulle permettant
de révéler les entorses à l'horloge.
Les phylogénies moléculaires
fondées sur des données de séquences
E. Zuckerkandl et L. Pauling en 1965, puis W. Fitch et E. Margoliash en
1967 apparaissent classiquement comme les pionniers des phylogénies
moléculaires fondées sur des données de séquences.
Ces derniers obtiennent à partir des séquences protéiques
du cytochrome c d'une vingtaine d'espèces (dont la plupart sont
des Vertébrés), par une méthode de construction utilisant
des distances, un arbre comportant seulement 3 incongruences (sur 18 clades)
par rapport aux phylogénies fondées sur des caractères
morpho-anatomiques.
Des travaux nombreux et célèbres sur les séquences
protéiques de globines furent menés dès le début
des années 1960 avec E. Zuckerkandl, L. Pauling, M.O. Dayhoff,
puis M. Goodman. Ils permirent non seulement de retrouver une bonne congruence
générale des phylogénies moléculaires et morphologiques
de Vertébrés, mais aussi révélèrent
la position dans les arbres phylogénétiques des événements
de duplication des gènes de cette famille multigénique.
Car même si les chercheurs travaillaient à léchelle
des séquences protéiques, ils découvrirent que les
séquences de différentes globines dune même
espèce se ressemblaient.
Cette étape est importante car on comprit que, comme des copies
dun gène peuvent être surs par spéciation,
elles peuvent être également surs par duplication au
sein dun même génome ; et que cette séparation
physique suivie dévolutions ultérieures autorisait
lemploi des mêmes outils conceptuels de la phylogénie
pour retracer lhistoire des génomes.
Ces concepts sont toujours à luvre aujourdhui,
à lépoque des génomes complets et de la génomique.
Woese et Fox montrèrent en 1977 que les organismes vivants se divisent
en Eubactéries, Archébactéries et Eucaryotes (et
non plus en "Procaryotes" et Eucaryotes) sur l'analyse des fragments
de l'ARN ribosomique 16S, ce qui fut confirmé dix ans plus tard
par l'analyse des séquences complètes d'ARN ribosomique
16S par léquipe dOlsen en 1987. De surcroît,
cette étude confirma la théorie de lorigine endosymbiotique
des mitochondries et des chloroplastes, ce qui acheva ce convaincre de
la nouvelle puissance dinvestigation fournie par les phylogénies
moléculaires.
L'explosion des données de séquences
d'ADN
Jusqu'aux environs de 1975, les techniques d'obtention des séquences
protéiques ou d'acides nucléiques étaient lourdes
et coûteuses, de telle sorte que les données de séquences
pouvant être utilisées à des fins phylogénétiques
restèrent en quantité faible jusqu'à la fin des années
1970.
L'introduction par Sanger et ses collègues, en 1977, du séquençage
utilisant les didéoxynucléotides terminateurs, puis la mise
au point par K. Mullis en 1984 de la technique d'amplification génique
dite "Polymerase Chain Reaction" ou PCR (il nest pas de
notre propos ici de détailler les divers procédés
biotechnologiques) provoquèrent une explosion des données
de séquences d'ADN disponibles à de telles fins.
Parallèlement, le séquençage direct de l'ARN ribosomique
fut rendu possible par léquipe de Bachellerie à Toulouse
dès 1983, ce qui permit un accès rapide à des séquences
ribosomiques sans passer par un clonage. Cet apport fut précieux
durant toute la décennie suivante, durant laquelle les appareils
à PCR autorisant des amplifications in vitro fiables nétaient
pas encore très répandus dans les laboratoires.
Ainsi, durant les années 1980, les techniques de séquençage
et, par conséquent, la masse de données de séquences
accumulées firent des progrès immenses. Les séquences
furent compilées par plusieurs banques de données internationales.
En 1990, GenBank (l'une des banques de données les plus connues
et les plus utilisées) compilait déjà 100 millions
de paires de bases et ce chiffre progresse de manière exponentielle.
On peut considérer que cette envolée est due à un
nouvel accès, de plus en plus facilité, par des laboratoires
toujours plus nombreux, aux techniques de séquençage de
l'ADN, molécule qui donne l'information structurale ultime de l'identité
génétique d'un organisme (d'où une fascination réductionniste
assez répandue).
Le développement de l'informatique
Mais les avancées de la phylogénie moléculaire furent
possibles également par le développement, dans la même
période, de l'informatique. Les caractères moléculaires
sont nombreux et facilement codables, donc propices à des traitements
rapides automatisés que ne pourrait faire un cerveau humain.
Lorsque les premières séquences exploitables à des
fins comparatives apparurent, les phénéticiens (voir plus
bas) avaient déjà proposé leurs méthodes de
taxinomie numérique (comme Sokal et Sneath dès 1963) et
les appliquaient à l'aide de programmes informatiques à
des données de natures diverses. Ce facteur eut son importance
dans le succès des phylogénies moléculaires. Les
vifs débats sur la légitimité des méthodes
employées, auxquels l'émergence de la cladistique ne fut
pas étrangère, dans les années 1970 et 1980 (phénétique
versus cladistique, mérites respectifs des méthodes de distances
et de celles de parcimonie, et, plus récemment, mérites
respectifs et fondements comparés des méthodes probabilistes
et de parcimonie, etc.) contribuèrent, avec le nombre croissant
des séquences, à augmenter le nombre de méthodes
et de programmes disponibles.
Aujourdhui, certaines pages de la toile abritent plusieurs dizaines
de programmes téléchargeables différents, ce qui
nest pas sans quelques effets pervers. En effet, pour certains débutants
plus préoccupés defficacité que de réflexion,
on peut toujours obtenir un arbre en appuyant sur le bouton. Reste à
savoir quelle philosophie et, surtout, quels artéfacts se cachent
derrière.
Le plus difficile aujourdhui pour lutilisateur darbre
reste bien linterprétation. Certains programmes ont été
des emblématiques, tel Hennig86 de J. Farris. Dans la même
mouvance cladistique, les descendants efficaces tels Nona (P. Goloboff)
ont progressé sur le temps de calcul et soigné leur interface
(Nona dans Winclada de K. Nixon). Le programme le plus utilisé
est sans doute le "Phylogenetic Analysis Using Parsimony" (PAUP)
de D. Swofford, qui est utilisable sur tout type de données, mais
qui, dans sa version 4, propose chacune des trois grandes méthodes
de traitement phylogénétique des données moléculaires.
Parmi elles, celle du maximum de vraisemblance de J. Felsenstein, approche
probabiliste développée dès 1981 et appelée,
selon certains, à se développer, et celles dinspiration
phénétique, abritant de nombreuses méthodes de distances
telles que celle de Fitch et Margoliash (1967) ou celle, plus utilisée
encore, de Saitou et Nei, "Neighbor Joining" (1987).
La progression des séquences et des programmes informatiques disponibles
a fait paraître, à partir de la fin des années 1980,
une foule d'études phylogénétiques dont certaines
eurent un retentissement médiatique parfois quelque peu excessif
("Eve africaine", le cochon dinde hors des rongeurs, etc.).
Cette profusion d'arbres montre que cette discipline était déjà
en pleine vitalité. En France, l'ambiance optimiste au sujet des
apports de la "phylogénie moléculaire" dans la
période 1987-1992 autorisait l'espoir de découvrir rapidement
de nouvelles relations de parenté à partir de séquences
sans que pour autant ces mêmes relations soient connues à
partir de données morphologiques. Un discours triomphaliste occultait
partiellement les difficultés liées à l'obtention
des données brutes (les séquences), mais surtout certains
problèmes liés à la reconstruction phylogénétique
appliquée aux caractères moléculaires, problèmes
qui étaient pourtant déjà perceptibles. Loptimisme
de lépoque devait vite s'accompagner de précautions.
 
|
 |