Page 24

genomique-environnementale

25 ans, leur contenu est virtuellement identique : une séquence soumise à n’importe lequel des trois centres sera transmise avec un délai maxi-mal de 24 heures aux deux autres. La caractéristique principale de ces banques est qu’elles permettent d’accéder librement à la quasi-totalité des séquences biologiques obtenues par les laboratoires publics et pri-vés. Cet accès non limité a en grande partie contribué aux avancées importantes obtenues par la bioinformatique au cours de son exis-tence en tant que discipline scientifique. En effet, la question fondamentale en science de la reproductibilité des résultats a été facilitée par cette disponibilité immédiate et exhaustive des données. Figure 5A. Croissance exponentielle du contenu d’EMBL. Le volume des données soumises à ces trois collections a crû de façon exponentielle, avec un temps de doublement moyen de l’ordre de 18 mois (Figure 5A). La période 2000-2010 a même vu ce temps de doublement diminuer avec le séquençage de nombreux génomes ou transcriptomes, dont le premier génome hu-main (Venter et al. 2001). Cependant, depuis 2010, un changement de tendance assez sur-prenant s’opère puisque c’est un allongement de ce temps de doublement que l’on observe. Une première explication de ce phénomène inattendu tient au fait que les centres en charge de la maintenance des banques sont de moins en moins capables de supporter les charges financières que représentent l’achat continuel de capacités supplémentaires de stockage ainsi que la maintenance des infras-tructures associées. Un autre problème est que les volumétries de données produites sont désormais telles qu’il n’est plus possible de les transmettre en un temps raisonnable aux centres de saisie via le réseau. Une solution de plus en plus utilisée, pour qui veut voir ses séquences figurer dans les banques, est d’expédier un disque dur sur le-quel sont sauvegardées les séquences en ques-tion, puis de procéder au transfert sur place  ! D’une certaine façon, il s’agit là d’un retour aux pratiques pré-internet puisque, jusque vers la fin des années 1980, c’est par envoi postal de supports physiques (bandes magnétiques ou disquettes) que se transféraient les séquences. Enfin, la question de l’accès aux lectures* courtes, non annotées, est également un pro-blème d’importance. Du fait de la quantité de séquences disponibles, les centres ne pro-posent plus un accès direct aux entrées indivi-duelles, mais plutôt à des archives compressées pouvant contenir un grand nombre de lectures. La survie de ces archives a été remise plusieurs fois en question, ce service ayant déjà été sup-primé une fois puis rétabli à l’EBI. Dans ce contexte, de plus en plus de séquences ne sont tout simplement pas envoyées aux centres de saisie. Leur mise à disposition pour la communauté se fait par l’intermédiaire de banques de données locales mises en place dans le cadre de projets limités. La consé-quence est qu’il existe désormais, outre les collections généralistes précitées, une véritable pléthore de banques spécialisées, qu’elles soient dédiées à un organisme ou à une pro-blématique biologique particulière. La revue Nucleic Acids Research publie chaque année un numéro spécial consacré aux principales banques disponibles dans le monde. Dans son édition de janvier 2013, ce ne sont pas moins de 178 banques qui étaient recensées. Cepen-dant, ce catalogue est très loin d’être exhaustif et le nombre de banques spécialisées existant est probablement beaucoup plus élevé. En perspectives, du fait qu’une quantité crois-sante de séquences ne soient plus envoyées aux centres de saisie, les trois collections généralistes ne peuvent plus être considérées comme exhaustives. Or cette perte d’exhausti-vité a d’ores et déjà des répercussions sur cette reproductibilité facile des résultats qui était l’apanage de la bioinformatique. C’est dans le but de pallier ce problème, que l’EBI a lancé, 22 PROSPECTIVE GÉNOMIQUE ENVIRONNEMENTALE 1985 1990 1995 2000 2005 2010 6 7 8 9 10 11 12 La croissance exponentielle du contenu d'EMBL Année Log10 du nombre de nucléotides Temps de doublement observé : 18 mois


genomique-environnementale
To see the actual publication please follow the link above