Page 32

genomique-environnementale

30 PROSPECTIVE GÉNOMIQUE ENVIRONNEMENTALE Qualité des annotations La prédiction de la structure des gènes reste l’un des pro-blèmes les plus importants et passionnants de la biolo-gie computationnelle (Brent 2008). Les approches basées sur l’exploitation des données extrinsèques ont considé-rablement augmenté la qualité des prédictions de novo. Néanmoins, ces données n’étant pas toujours disponibles, l’emploi d’algorithmes de prédiction ab initio utilisant les données intrinsèques de la séquence reste l’unique solution. Cependant, malgré des progrès conséquents, ces méthodes ne sont pas capables de produire un cata-logue in extenso de l’ensemble des gènes (Brent 2008). Afin d’améliorer la prédiction, une définition plus fine des règles définissant la présence ou l’absence d’un gène sur une portion d’ADN doit être envisagée. Pour illustrer ce propos, l’exemple de l’annotation du gé-nome des microsporidies sera choisi. En effet, ces orga-nismes, pour lesquels près de 1500 espèces réparties en 187 genres ont été décrites, sont des parasites capables d’infester des protozoaires et la plupart des organismes pluricellulaires (invertébrés et vertébrés). Les approches de génomique sont donc idéales pour une meilleure com-préhension de ces organismes retrouvés dans tout type d’environnement mais ne pouvant pas être isolés facile-ment. A l’heure actuelle, un nombre réduit de génomes a été en partie ou entièrement séquencé et annoté en utilisant des méthodes que l’on peut qualifier de généra-listes. Ces approches restent encore peu efficaces comme le montre par exemple la prédiction erronée de près de 30% des gènes du génome d’Encephalitozoon cuniculi. Ce sont des travaux exploitant conjointement les données intrinsèques et extrinsèques mais également les signaux de régulation de l’expression des gènes, qui ont permis l’élaboration d’une nouvelle méthode à la fois originale et innovante d’annotation des séquences de ces organismes (Figure 6E) (Peyretaillade et al. 2012) L’utilisation de cette méthode a permis d’assurer de ma-nière efficace la ré-annotation de génomes microsporidiens en identifiant des gènes non ou mal prédits. Pour exemple, citons l’identification de 387 gènes annotés au sein du génome de l’espèce Enterocytozoon bieneusi qui corres-pondent en réalité à des séquences d’espèces bactériennes appartenant au genre Pseudomonas ayant comme origine une contamination et non un transfert. Par ailleurs, cette approche s’est également montrée pertinente pour assurer la caractérisation de gènes n’ayant pas pu être identifiés en raison notamment de leur trop faible taille. En effet, bien que ces petits gènes puissent exercer des fonctions impor-tantes, leur identification reste une tâche ardue et relève le plus souvent du hasard. L’exploitation de l’ensemble des caractéristiques des séquences a également permis une ré-annotation pertinente des codons d’initiation de la traduc-tion. En effet, l’identification de ces codons qui permettent de définir la séquence exacte de chaque protéine repré-sente un autre challenge majeur de l’annotation des gènes. Pour conclure, l’amélioration des algorithmes d’annotation doit donc passer par l’analyse de grands fragments d’ADN ou de génomes constituant des données de référence. Aussi la constitution de bases de données de référence associées à des algorithmes dédiés performants assurera des annotations dynamiques expertisées propageant des données de qualité. FOCUS 6-3 Figure 6E. Annotation exper-tisée des séquences de microsporidies, pathogènes intracellulaires obligatoires. Visualisation des spores de microsporidies et du système d’invasion appelé tube polaire. Signaux de régulations utilisés pour la détection des CDS (Coding DNA Sequence) lors de l’annotation.


genomique-environnementale
To see the actual publication please follow the link above