Accueil du site > Mathématiques en interaction > Quelques exemples




Recherchez sur ce site


Intégration statistique de données biologiques à haut débit.

Un groupe de statisticiens (Institut de Mathématiques de Toulouse) et de biologistes (INRA INSERM, CNRS) s’est structuré depuis 2003 à Toulouse autour de l’analyse des données post-génomiques.

Cette collaboration vise à trouver de nouvelles méthodes et applications pour l’exploitation des énormes masses de données complexes recueillies par les technologies haut-débit des biologistes. Elle a déjà permis de construire des outils permettant une meilleure interprétation des résultats en termes de relations entre les différents jeux de données.

Les technologies haut-débit bousculent les habitudes des biologistes nouvellement confrontés à un afflux massif de données et celles des statisticiens pour lesquels le déséquilibre entre un faible nombre d’observations (échantillons, patients…) et un très grand nombre de variables (gènes, protéines…) remettait en cause la plupart des méthodes classiques. Il est rapidement devenu évident que l’exploitation de ce type de données ne pouvait s’envisager que dans l’interaction entre les deux disciplines. Cette interaction se schématise par un circuit en boucle :
- 1) la biologie pose des questions,
- 2) la technologie permet d’acquérir des données,
- 3) la statistique analyse ces données et fournit des résultats
- 4-1) retour à la biologie avec des éléments de réponses issus de l’interprétation des résultats.

Dans le cadre de collaborations de ce type, la valorisation est souvent multiple et aborde les aspects méthodologiques, les applications biologiques ainsi que d’éventuels développements logiciels.

Il devient ainsi courant d’analyser simultanément des données transcriptomiques, protéomiques et /ou métabolomiques. Plusieurs approches ont été proposées pour mettre en évidence les interactions mutuelles entre deux jeux de données de grande dimension.

L’implémentation de ces méthodes ainsi que des méthodes de référence (Analyse Canonique et régression PLS) a conduit à la construction de librairies R (mixOmics). Un des atouts majeurs de ces outils réside dans la panoplie variée de représentations graphiques (réseaux, graphiques 2D et 3D, heatmap) permettant une meilleure interprétation des résultats en termes de relations entre les différents jeux de données.

Initialement, c’est une étude de nutrition ayant pour but d’étudier les relations entre expression génomique et concentration en acides gras hépatiques qui a motivé les développements méthodologiques. Plus tard, une nouvelle application de ces méthodologies visait à étudier les régulations traductionnelles en mettant en relation le transcriptome et le protéome par une approche intégrative chez Lactococcus Lactis, bactérie modèle dans l’étude de la fermentation dans les produits laitiers. Plus récemment, la mise en relation de données transcriptomiques et métaboliques a été ciblée dans le cadre d’une étude sur les impacts métaboliques et endocriniens de deux contaminants de la chaîne alimentaire : le bisphénol A et un phtalate (DEHP).

Contacts :

- Philippe Besse
- Sébastien Déjean
- Pascal Martin

Site web :

http://math.univ-toulouse.fr/biostat

Laboratoires :

- Institut de Mathématiques de Toulouse UMR CNRS 5219 http://www.math.univ-toulouse.fr

- Unité de recherche en Pharmacologie Toxicologie (UPR INRA 66) http://www.toulouse.inra.fr/pharmacologie_toxicologie

Références bibliographiques :

- Lê Cao K. A., Rossouw D., Robert-Granié C., Besse P. (2008) A sparse PLS for variable selection when integrating Omics data Statistical Applications in Genetics and Molecular Biology, 7(1), article 35

- Lê Cao K.-A., González I. and Déjean S. (2009) integrOmics : an R package to unravel relationships between two omics data sets Bioinformatics, 25(21):2855-2856. NOTE : the package ’integrOmics’ has been renamed ’mixOmics’.

- Eveillard A, Lasserre F, de Tayrac M, Polizzi A, Claus S, Canlet C, Mselli-Lakhal L, Gotardi G, Paris A, Guillou H, Martin PG, Pineau T. Identification of potential mechanisms of toxicity after di-(2-ethylhexyl)-phthalate (DEHP) adult exposure in the liver using a systems biology approach. Toxicol Appl Pharmacol. 2009 May 1 ;236(3):282-92.

Légende des images : Représentations des variables sous forme de réseau, sous forme de carte de double classification, en projection 3D à l’issue d’une analyse canonique régularisée sur les données d’une étude de nutrition ayant pour but d’étudier les relations entre expression génomique et concentration en acides gras hépatiques.