Un groupe de statisticiens (Institut de Mathématiques de Toulouse) et de biologistes (INRA INSERM, CNRS) s’est structuré depuis 2003 à Toulouse autour de l’analyse des données post-génomiques.
Cette collaboration vise à trouver de nouvelles méthodes et applications pour l’exploitation des énormes masses de données complexes recueillies par les technologies haut-débit des biologistes. Elle a déjà permis de construire des outils permettant une meilleure interprétation des résultats en termes de relations entre les différents jeux de données.
Les technologies haut-débit bousculent les habitudes des biologistes nouvellement confrontés à un afflux massif de données et celles des statisticiens pour lesquels le déséquilibre entre un faible nombre d’observations (échantillons, patients…) et un très grand nombre de variables (gènes, protéines…) remettait en cause la plupart des méthodes classiques. Il est rapidement devenu évident que l’exploitation de ce type de données ne pouvait s’envisager que dans l’interaction entre les deux disciplines. Cette interaction se schématise par un circuit en boucle :
1) la biologie pose des questions,
2) la technologie permet d’acquérir des données,
3) la statistique analyse ces données et fournit des résultats
4-1) retour à la biologie avec des éléments de réponses issus de l’interprétation des résultats.
Dans le cadre de collaborations de ce type, la valorisation est souvent multiple et aborde les aspects méthodologiques, les applications biologiques ainsi que d’éventuels développements logiciels.
Il devient ainsi courant d’analyser simultanément des données transcriptomiques, protéomiques et /ou métabolomiques. Plusieurs approches ont été proposées pour mettre en évidence les interactions mutuelles entre deux jeux de données de grande dimension.
L’implémentation de ces méthodes ainsi que des méthodes de référence (Analyse Canonique et régression PLS) a conduit à la construction de librairies R (mixOmics). Un des atouts majeurs de ces outils réside dans la panoplie variée de représentations graphiques (réseaux, graphiques 2D et 3D, heatmap) permettant une meilleure interprétation des résultats en termes de relations entre les différents jeux de données.

Initialement, c’est une étude de nutrition ayant pour but d’étudier les relations entre expression génomique et concentration en acides gras hépatiques qui a motivé les développements méthodologiques. Plus tard, une nouvelle application de ces méthodologies visait à étudier les régulations traductionnelles en mettant en relation le transcriptome et le protéome par une approche intégrative chez Lactococcus Lactis, bactérie modèle dans l’étude de la fermentation dans les produits laitiers. Plus récemment, la mise en relation de données transcriptomiques et métaboliques a été ciblée dans le cadre d’une étude sur les impacts métaboliques et endocriniens de deux contaminants de la chaîne alimentaire : le bisphénol A et un phtalate (DEHP).

Contacts :
Philippe Besse
Sébastien Déjean
Pascal Martin
Site web :
http://math.univ-toulouse.fr/biostat
Laboratoires :
Institut de Mathématiques de Toulouse UMR CNRS 5219
http://www.math.univ-toulouse.fr
Unité de recherche en Pharmacologie Toxicologie (UPR INRA 66)
http://www.toulouse.inra.fr/pharmacologie_toxicologie
Références bibliographiques :
Lê Cao K. A., Rossouw D., Robert-Granié C., Besse P. (2008)
A sparse PLS for variable selection when integrating Omics data
Statistical Applications in Genetics and Molecular Biology, 7(1), article 35
Lê Cao K.-A., González I. and Déjean S. (2009)
integrOmics : an R package to unravel relationships between two omics data sets
Bioinformatics, 25(21):2855-2856.
NOTE : the package ’integrOmics’ has been renamed ’mixOmics’.
Eveillard A, Lasserre F, de Tayrac M, Polizzi A, Claus S, Canlet C, Mselli-Lakhal L, Gotardi G, Paris A, Guillou H, Martin PG, Pineau T. Identification of potential mechanisms of toxicity after di-(2-ethylhexyl)-phthalate (DEHP) adult exposure in the liver using a systems biology approach. Toxicol Appl Pharmacol. 2009 May 1 ;236(3):282-92.

Légende des images : Représentations des variables sous forme de réseau, sous forme de carte de double classification, en projection 3D à l’issue d’une analyse canonique régularisée sur les données d’une étude de nutrition ayant pour but d’étudier les relations entre expression génomique et concentration en acides gras hépatiques.

