Accueil du site > Vie de la recherche > Prix et distinctions




Recherchez sur ce site


Visualiser les réseaux multiplexes pour mieux comprendre la structure des groupes de données

Dans sa thèse, qui se situe dans le domaine des Big Data, Benjamin Renoust du Laboratoire Bordelais de Recherche en Informatique (LaBRI)(CNRS/Institut Polytechnique de Bordeaux/Université de Bordeaux) propose un outil qui permet de visualiser les groupes de données, et qui s’avère efficace même quand les interactions entre les individus sont multiples. Cette thèse « Analyse et visualisation de l’intrication d’arêtes dans les réseaux multiplex » a été récompensée par le prix spécial du jury IDEX pour son « fort potentiel pluridisciplinaire et de diffusion ».

Aujourd’hui tous les champs d’activité produisent massivement des données. C’est le traitement de l’ensemble de ces données qui constitue le principal défi posé par le Big Data. Les difficultés rencontrées sont multiples, et Benjamin Renoust se concentre dans sa thèse sur les difficultés créées par la variété des données. Ces données peuvent être en effet complètement hétérogènes et inclure, par exemple, des images, des zones géographiques, du contenu sémantique, etc.

Dans l’exploration de ces ensembles de données, la notion de groupe s’avère primordiale. Un groupe permet d’identifier des données qui partagent des caractéristiques communes, d’isoler des individus remarquables, de comparer entre eux de grands ensembles. Au final, c’est cette notion de groupe qui permet à un spécialiste de mieux analyser, avec du recul, les données de son domaine. Il est essentiel, pour le spécialiste d’un domaine, de pouvoir modéliser cette notion de groupe, et de chercher à mieux comprendre les liens tissés par les données d’un même groupe. C’est cette problématique de la notion de groupe qui sous-tend les travaux de la thèse de Benjamin Renoust. Celui-ci a adopté une approche originale, fondée sur des outils d’analyse de réseaux. En effet, pour pouvoir capturer la notion de groupe, il faut d’abord déterminer les interactions qui existent entre les individus du groupe, ce qui devient possible quand ce groupe est modélisé par un réseau.

Les réseaux sont des modèles très utiles : ce sont des objets de la théorie des graphes, qui peuvent être très complexes, mais ce sont aussi des objets très graphiques qui peuvent être dessinés et interprétés visuellement de manière intuitive, tout comme des plans de métro. Ils permettent à la fois d’avoir une vue d’ensemble sur un groupe et d’en observer les individus.

Malheureusement, lorsque les données deviennent plus complexes, et que les interactions entre individus se multiplient, ces réseaux, qu’on appelle alors réseaux multiplexes, peuvent présenter des multitudes de couches toutes intriquées entre elles, et il devient alors très difficile d’en faire l’analyse et la visualisation. Avant cette thèse, Il existait très peu de fondements théoriques qui sous-tendaient l’analyse de réseaux multiplexes, et il existait encore moins d’outils qui permettaient de visualiser ces réseaux. C’est seulement en combinant deux types d’outils, les outils fondamentaux qu’offre l’algèbre linéaire, notamment la théorie des matrices non-négatives, et les nouveaux outils de la toute jeune discipline qu’est la visualisation d’information, que Benjamin Renoust a pu relever le défi de l’analyse et de la visualisation de l’intrication d’arêtes dans les réseaux multiplexes.

Légende : Deux réseaux sont synchronisés par sélection afin d’explorer ce réseau multiplexe. Sans ce traitement, ce réseau aurait été composé de plusieurs dizaines de couches (vue de droite) entre les éléments (vue de gauche). La structure interne du réseau multiplexe ici apparaît comme la réunion de différentes composantes éparses. La sélection est enrichie d’indices numériques représentés par les couleurs du lasso.

Ces outils permettent ainsi de bien définir la notion de groupe, de travailler avec cette notion, et d’explorer le groupe à partir de ses individus. Les applications sont multiples, et on peut citer par exemple : la recherche de la sémantique commune à différentes brèves et nouvelles dans un évènement médiatique, ou la recherche d’expression de gènes à travers des ontologies.

Cette thèse a été financée via une convention CIFRE avec l’Institut National de l’Audiovisuel et le Laboratoire Bordelais de Recherche en Informatique (LaBRI CNRS UMR 5800) et l’Institut National de l’Audiovisuel. Les travaux ont été appliqués dans le cadre du projet OTMedia 2010CORD015 (du programme Contint de l’ANR), ainsi que par Inria Bordeaux Sud-Ouest, au travers du projet européen FP7 Emergence by Design (MD).