Page 29

genomique-environnementale

Question biologique Planification expérimentale Expériences/Séquençage Analyse « bas niveau » EDA*, analyse d’image, alignement, intégration méta-données Analyse « niveau supérieur » EDA*, normalisation, quantification expression, analyse différentielle, intégration méta-données Validation biologique et interprétation PROSPECTIVE DE L’INSTITUT ECOLOGIE ET ENVIRONNEMENT DU CNRS 27 Les technologies de séquençage à très haut débit sont des outils puissants pour explorer de nouvelles pistes de recherche dans de nombreux domaines de la bio-logie. Afin d’obtenir des résultats pertinents à partir de ces masses de données, des outils informatiques et statistiques adaptés sont nécessaires, mais une bonne réflexion préalable aux expériences reste indis-pensable (Figure 6C). Est présentée ici la recherche de régions d’intérêt (ou de rang taxinomique) diffé-rentiellement exprimées (ou différentiellement abon-dantes) entre plusieurs conditions à partir de données de comptage RNA-Seq (ou métagénomiques). Chaque étape, de la production au traitement des données, a un impact non négligeable sur les sui-vantes. Il est donc important d’explorer les données pour adapter la stratégie d’analyse statistique à la fois à la question biologique d’intérêt et aux données recueillies. La normalisation consiste à détecter les biais techniques et à les corriger en vue de rendre les échantillons comparables. Elle est propre à chaque technologie et à chaque plateforme. Cette étape est délicate car elle revient à une modification des don-nées brutes. Il est donc important qu’elle se limite au strict nécessaire. Certains biais peuvent être éli-minés par un plan d’expérience adapté, un protocole expérimental judicieusement choisi et un traitement bioinformatique efficace. Le biais principal est la dif-férence de profondeur de séquençage (nombre total de lectures alignées sur les différentes régions d’in-térêt) entre les échantillons. Dillies et al. (2013) ont montré que les méthodes basées sur une taille de banque efficace, définie à partir de régions d’intérêt peu variables d’un échantillon à l’autre, sont les plus adaptées. Elles sont efficaces même en cas de réper-toires d’ARNm exprimés très différemment. Si des biais de type échantillons spécifiques dus à la teneur en GC sont observés, une normalisation supplémen-taire peut s’avérer nécessaire. L’analyse différentielle consiste, quant à elle, à l’aide d’un test statistique, à déterminer les régions d’intérêt statistiquement signi-ficatives à un seuil choisi. Les méthodes spécifiques au RNA-Seq notamment DESeq (Anders et Huber 2010) ont été développées dans le cadre d’un faible nombre de répétitions (moins de 5) par condition. Soneson et Delorenzi (2013) ont montré que lorsque le nombre de répétitions augmente, ces méthodes ne sont plus forcément les plus puissantes. Pour tirer le maximum de conclusions pertinentes de ces expériences à haut débit, il est important d’intégrer dès le démarrage d’un projet les différents acteurs : biologistes, bioinformaticiens, statisticiens ; de planifier en amont les expériences et d’anticiper les biais possibles ; d’adapter les méthodes d’analyse aux questions possibles et d’interpréter ces données en connaissance de cause. FOCUS 6-1 Quelques règles de bonne conduite pour améliorer la qualité des résultats d’analyse différentielle à partir de données NGS Figure 6C. Procédure d’analyse des données NGS. *EDA : Exploratory Data Analysis


genomique-environnementale
To see the actual publication please follow the link above