Page 59

genomique-environnementale

de séquence). Mais le séquençage étant quan-titatif, l’utilisation majeure (par exemple le RNA-seq) est l’étude d’expression et la recherche de séquences (gènes, ARN, transcrits) montrant une variation d’expression ou d’épissage (Co-lombo et al. 2013). Les données RNAseq sont ainsi couramment utilisées pour comparer la variation transcriptionnelle entre variants phéno-typiques, et les pipelines* pour l’analyse sont nombreux. Les défis actuels concernent l’as-semblage des transcriptomes et la complexité des jeux de données (Gayral et al. 2013), néces-sitant temps et capacités de calcul importants dès que le nombre de réplicats biologiques ou techniques augmente. Le reséquençage (WGS) permet d’accéder à la variation génétique totale et devient abordable pour les espèces à génome petit ou moyen. La fraction séquencée ne reposant pas sur une référence, les données obtenues sont indé-pendantes de la distance génétique avec les taxons connus, ce qui est utile pour certaines approches comparatives. Par ailleurs, la prépa-ration des librairies ne nécessite pas d’étapes supplémentaires et leur passage sur machine est l’opération de routine des centres de sé-quençage, assurant un minimum de complica-tions et un gain de temps souvent conséquent. Les défis actuels concernent l’optimisation du rapport entre profondeur de séquençage et qualité du génotypage, certaines applications pouvant se satisfaire d’un séquençage plus superficiel (Davey et al. 2011, Buerkle et Gom-pert 2013) comme par exemple la cartogra-phie impliquant une diversité allélique réduite. Une alternative au reséquençage complet de génomes individuels visant à obtenir des don-nées de polymorphisme intrapopulationnel consiste à séquencer en aveugle un mélange d’individus issus d’une même population (Pool-seq). Cette stratégie permet de diminuer le coût d’obtention de données de polymor-phisme, et sous certaines conditions (nombre élevé d’individus assemblés), de minimiser la variance des estimateurs de fréquences alléliques. Cette approche semble particulière-ment performante pour identifier des régions génomiques fortement différenciées entre populations issues de milieux contrastés (Boi-tard et al. 2012). Une autre alternative au resé-quençage total concerne un séquençage ciblé qui permet d’augmenter la couverture sur des régions d’intérêt (Focus 9-1). La disposition d’un génome de référence (Focus 9-4) est un atout majeur dans la plupart des approches précédentes. Pour documenter la va-riation structurale entre génomes, la détection de points de rupture de synténie peut passer par l’analyse des discordances positionnelles des séquences par rapport à une référence. Les défis actuels concernent la disponibilité de gé-nomes assemblés, et leur qualité d’assemblage qui affecte la puissance de ces approches, notamment pour écarter les faux positifs. Pour des approches microévolutives comparatives, un génome de référence augmente considéra-blement la puissance des tests, permettant des approches par fenêtre glissante exploitant toute la continuité génomique le long des frag-ments conservés (scaffolds ou superscaffolds). Les NGS permettent aujourd’hui de générer des génomes eucaryotes complets de quelques centaines de mégabases, moyennant le séquen-çage profond (100X ou plus par Illumina 100bp) et l’emploi de librairies de fragments de tailles différentes pour optimiser l’assemblage (Zhan et al. 2011). L’assemblage est par ailleurs facilité par la disponibilité de ressources génomiques annexes et de matériel de départ homozygote. Outre la nécessité d’une couverture profonde, et donc un coût conséquent, les défis actuels pour les organismes non-modèles résident dans l’optimisation de l’assemblage, notamment la gestion bioinformatique de l’hétérozygotie et de la variation haplotypique lors de l’assemblage. 57


genomique-environnementale
To see the actual publication please follow the link above