Accueil du site > Vie de la recherche > Actualités scientifiques




Recherchez sur ce site


La parole silencieuse

Permettre à une personne de parler sans qu’aucun son ne sorte de sa bouche. C’est le défi auquel tente de répondre Thomas Hueber, chargé de recherche CNRS au laboratoire Grenoble Image, Parole, Signal, Automatique (GIPSA-lab - CNRS/Grenoble INP/Université Joseph Fourier/Université Stendhal). Son objectif est de concevoir une « interface de communication en parole silencieuse » (silent speech interfaces), un dispositif permettant de communiquer oralement dans des situations où le silence est nécessaire, ou au contraire dans des environnements bruyants. Une application médicale dans le cadre de certaines pathologies du larynx est également envisagée.

Les travaux de recherche de Thomas Hueber portent sur le développement de nouvelles technologies vocales. Il travaille notamment sur un dispositif permettant à une personne de communiquer oralement, mais sans nécessité de vocaliser. En parole silencieuse, un locuteur bouge normalement ses lèvres, sa langue, sa mâchoire, mais il ne produit aucun son. L’objectif du système est de capturer un ensemble de signaux physiologiques liés à cette « articulation silencieuse », et de les convertir en temps réel en une voix de synthèse. Ces signaux peuvent par exemple être l’activité électrique des muscles impliqués dans les mouvements articulatoires, ou bien directement les mouvements eux-mêmes, que l’on peut visualiser avec des capteurs spécifiques. C’est notamment cette seconde approche que Thomas Hueber poursuit avec son collègue Bruce Denby (UPMC/Institut Langevin). Pour cela, ils utilisent un capteur ultrasonore placé sous la mâchoire du locuteur, et une caméra vidéo positionnée à proximité de la bouche. Cette association permet de suivre simultanément les mouvements des articulateurs internes (comme la langue) et externe (comme les lèvres).

Pour décoder ces signaux et les convertir en une voix de synthèse, les chercheurs s’appuient sur différentes techniques « d’apprentissage artificiel » (machine learning en anglais). Cette discipline regroupe un ensemble de méthodes mathématiques permettant de créer un modèle de façon automatique, à partir de l’analyse de données expérimentales. Les paramètres de ce modèle sont estimés sur un ensemble de phrases prononcées « normalement » (c’est-à-dire non-silencieusement) par l’utilisateur au moment de la calibration du système. Cette base d’apprentissage permet de mettre en regard les « causes » du son, à savoir l’activité articulatoire, avec ses « effets », à savoir le son. Si cette phase d’apprentissage réussit, alors le modèle devient capable de « prédire » l’effet, uniquement en observant la cause, ce qui est le but recherché ici.
Cependant, il est important de souligner que le problème du décodage de la parole silencieuse est un problème « mal posé », au sens mathématique du terme, c’est-à-dire un problème qui n’a pas de solution unique. En effet, la parole silencieuse étant caractérisée par l’absence de vibration des cordes vocales, il est a priori impossible de distinguer certains sons (phonèmes) comme [k] vs. [g] (comme vs. gomme). Une des solutions proposées pour tenter de lever ces ambiguïtés, est d’introduire dans la conversion des informations linguistiques a priori. Ces dernières prendront la forme d’une limitation sur le vocabulaire autorisé, et d’un « modèle de langage probabiliste », c’est-à-dire un modèle renseignant sur la probabilité d’occurrence d’une suite de mots dans une langue donnée. Par exemple, après la suite de mots « je mange une », le mot « pomme » est plus probable que le mot « table ».

À terme, les différents capteurs ainsi que les algorithmes de décodage et de reconstruction de la parole ont vocation à être embarqués sur un smartphone. Cela permettrait notamment de communiquer dans des lieux ou circonstances nécessitant de la discrétion (transports en commun, lieux publics, réunions), de la confidentialité (saisie d’informations bancaires, opérations de sécurité), ou au contraire dans des environnements extrêmement bruyants, dans lesquels l’exploitation d’une voix enregistrée à l’aide d’un microphone est très difficile (concerts, hélicoptères, hall de gare). Les chercheurs envisagent à terme également une application médicale, comme complément aux différentes voix de substitution aujourd’hui mises en place après l’ablation du larynx dans le cadre du traitement du cancer (laryngectomie).

Extrait d’un reportage sur la voix de Christelle Gambon

Les travaux de Thomas Hueber et de ses collègues sur ce sujet ont fait l’objet de plusieurs publications dans les revues et conférences internationales sur les technologies vocales [1], ainsi que d’un brevet [2]. En 2011, il a obtenu le Prix international Christian Benoît récompensant un jeune scientifique pour un travail prometteur dans le domaine de la communication parlée. En 2015, un article dont il est le co-auteur se voit décerner le best paper award par l’European Association for Signal Processing (EURASIP) [3].


[1] Hueber, T., Benaroya, E.L., Chollet, G., Denby, B., Dreyfus, G., Stone, M., (2010) "Development of a Silent Speech Interface Driven by Ultrasound and Optical Images of the Tongue and Lips", Speech Communication, 52(4), pp. 288-300.
Hueber, T., Bailly, G. (2015), "Statistical Conversion of Silent Articulation into Audible Speech using Full-Covariance HMM", Computer Speech & Language, ISSN 0885-2308, http://dx.doi.org/10.1016/j.csl.201…

[2] Patent No. WO/2011/032688

[3] Denby, B., Schultz, T., Honda, K., Hueber, T., Gilbert, J.M., Brumberg, J.S. (2010) "Silent speech interfaces", Speech Communication, 52(4), pp. 270-287.