Page 28

genomique-environnementale

La qualité des données issues des nouvelles techniques de séquençage est liée non seule-ment à la technologie utilisée mais également, dans certains cas, aux étapes amont ayant per-mis l’obtention du matériel génétique à séquen-cer. Ainsi, les algorithmes bioinformatiques doivent éliminer les régions non informatives biologiquement, détecter les régions de mau-vaise qualité, identifier les erreurs de séquen-çage ainsi que les séquences issues d’arté-facts de manipulation (Quince et al. 2011). Des séquences de mauvaise qualité peuvent en effet, compromettre les analyses ultérieures (assemblage*, annotation) mais également su-restimer une diversité non représentative des organismes étudiés ou des environnements explorés conduisant à des interprétations erro-nées. Au final, les séquences de qualité rete-nues, permettront de refléter le plus fidèlement possible l’information génétique initiale issue des échantillons et de mettre en place des traitements statistiques pour tester les hypo-thèses initialement posées (Focus 6-1). La qualité des affiliations est un verrou métho-dologique et scientifique pour appréhender la diversité des organismes. La diversité du monde vivant ne permet pas de caractériser les organismes sur de simples caractères phénotypiques. Ainsi, l’identification des organismes passe par l’analyse de gènes phylogénétiquement informatifs pouvant être isolés facilement et permettant d’établir des relations de parenté. Cette approche d’identi-fication des organismes par « étiquetage » est communément appelée barcoding (voir chap. VIII). Les parentés phylogénétiques ne sont pas toujours testées du fait notamment de la nécessité de capacités de calcul importantes pour la reconstruction des arbres. Cependant, les développements récents de méthodes ne nécessitant pas de recalcul complet des arbres (e.g. pplacer) devraient permettre d’améliorer la situation. Cette approche a entraîné une non-affiliation de nombreuses séquences ou une affiliation erronée par simple recherche de similarité de séquences pouvant par voie de conséquence se propager. L’utilisation de plusieurs marqueurs phylogénétiques et/ou de génomes complets ouvrent la voie d’une phylogénomique plus résolutive précisant les identifications et les parentés des organismes avec des applications récentes sur des don-nées environnementales (Chivian et al. 2013). Enfin, l’utilisation d’une nomenclature officielle définissant le nom des espèces est également essentielle même si les taxinomies évoluent régulièrement (Yarza et al. 2013). 26 PROSPECTIVE GÉNOMIQUE ENVIRONNEMENTALE Figure 6B. Qualité des données. L’explosion du séquençage nouvelle génération entraîne un déluge de données, qui doivent être traitées efficacement par des approches innovantes de bioinformatique, sous peine d’être submergé par l’information et rester aveugle devant l’extraordinaire diversité du monde vivant à la base du fonctionnement des écosystèmes.


genomique-environnementale
To see the actual publication please follow the link above