Comment l'intelligence artificielle a rendu sa voix à une femme paralysée

🔄 Article mis à jour le 30 août 2023

Des chercheurs de l’UC San Francisco et de l’UC Berkeley ont développé une interface cerveau-ordinateur ( BCI ) qui a permis à une femme souffrant d’une paralysie sévère d’un AVC du tronc cérébral de parler à travers un avatar numérique.

Comment l'intelligence artificielle a rendu sa voix à une femme paralysée

C’est la première fois que l’on parvient à synthétiser des expressions vocales ou faciales en se basant sur les signaux émis par le cerveau. De plus, ce système est capable de convertir ces signaux en texte à une vitesse impressionnante, atteignant près de 80 mots par minute, une avancée significative par rapport aux technologies disponibles sur le marché.

Le Dr. Edward Chang, en charge de la chirurgie neurologique à l’UCSF, travaille depuis plus d’une décennie sur ce qu’on appelle l’interface informatique cérébrale, ou BCI. Il nourrit de grands espoirs quant à cette dernière percée en recherche, dont les résultats ont été publiés le 23 août 2023 dans la revue Nature. Il aspire à la création d’un système approuvé par la FDA qui permettra, dans un avenir proche, de générer la parole à partir des signaux émis par le cerveau.

Le Dr. Chang explique : « Notre objectif consiste à rétablir une forme de communication complète et naturelle, qui est fondamentalement la manière la plus instinctive pour nous d’interagir avec autrui. » Il ajoute que ces progrès nous rapprochent considérablement de rendre cette solution accessible aux patients.

Précédemment, l’équipe du Dr. Chang avait déjà réussi à décoder les signaux cérébraux en texte chez un homme ayant subi un AVC du tronc cérébral de nombreuses années auparavant. Cependant, l’étude actuelle représente un défi plus ambitieux : décoder les signaux cérébraux pour recréer la richesse de la parole ainsi que les mouvements du visage pendant une conversation.

Pour cela, le Dr. Chang a implanté un mince rectangle de 253 électrodes à la surface du cerveau d’une femme, ciblant des zones identifiées comme cruciales pour la parole. Ces électrodes ont intercepté les signaux cérébraux qui, en l’absence d’un accident vasculaire cérébral, auraient été dirigés vers les muscles de la langue, de la mâchoire, du larynx et du visage. Un câble, connecté à un port fixé sur sa tête, reliait ces électrodes à une batterie d’ordinateurs.

Pendant plusieurs semaines, la participante a travaillé en collaboration avec l’équipe pour entraîner les algorithmes d’intelligence artificielle du système à reconnaître les signaux cérébraux spécifiques à sa parole. Cette phase de formation a nécessité la répétition de nombreuses phrases tirées d’un vocabulaire de 1 024 mots couramment utilisés, jusqu’à ce que l’ordinateur parvienne à identifier les modèles d’activité cérébrale associés à ces sons.

Plutôt que d’enseigner à l’IA à reconnaître des mots entiers, les chercheurs ont développé un système capable de déchiffrer les mots en se basant sur les phonèmes, qui sont les unités de base de la parole, à l’instar des lettres qui forment les mots écrits. Par exemple, le mot « Bonjour » se compose de quatre phonèmes : « HH », « AH », « L » et « OW ».

Cette approche a permis à l’ordinateur d’apprendre seulement 39 phonèmes pour décoder n’importe quel mot en anglais, améliorant ainsi à la fois la précision et la vitesse du système, qui est désormais trois fois plus rapide.

Sean Metzger et Alex Silva, tous deux étudiants diplômés en bio-ingénierie à l’UC Berkeley et à l’UCSF, ont conçu le décodeur de texte en expliquant que « la précision, la rapidité et l’étendue du vocabulaire sont cruciales. C’est ce qui donne à l’utilisateur la possibilité de communiquer presque aussi rapidement que nous le faisons, permettant des conversations plus naturelles et réalistes. »

Pour recréer la voix, l’équipe a développé un algorithme de synthèse vocale personnalisé pour qu’elle ressemble à la voix originale de la patiente, en utilisant un enregistrement de sa voix lors de son mariage.

L’équipe a également donné vie à un avatar en utilisant un logiciel qui simule et anime les mouvements musculaires du visage. Ce logiciel a été développé par Speech Graphics, une entreprise spécialisée dans l’animation faciale basée sur l’IA. Les chercheurs ont mis en place des processus d’apprentissage automatique sur mesure pour que le logiciel puisse interpréter les signaux émis par le cerveau de la femme lorsqu’elle tentait de parler, les traduisant en mouvements du visage de l’avatar, incluant l’ouverture et la fermeture de la mâchoire, le mouvement des lèvres, la montée et la descente de la langue, ainsi que les expressions de bonheur, de tristesse et de surprise.

Un étudiant diplômé, Kaylo Littlejohn, collaborant avec le Dr. Chang et le Dr. Gopala Anumanchipalli, professeur de génie électrique et d’informatique à l’UC Berkeley, explique : « Nous rétablissons les liens entre le cerveau et les voies vocales qui ont été interrompus par l’AVC. Lorsque la patiente a utilisé ce système pour la première fois, en parlant et en contrôlant les mouvements du visage de l’avatar en tandem, j’ai su que cela aurait un impact réel. »

La prochaine étape cruciale pour l’équipe est de développer une version sans fil de ce système, permettant ainsi à l’utilisateur de se connecter à la BCI sans besoin d’une connexion physique.

Le co-premier auteur de l’étude, le Dr. David Moses, professeur adjoint en chirurgie neurologique, explique : « Donner aux individus la possibilité de contrôler leurs ordinateurs et téléphones de manière autonome grâce à cette technologie aurait un impact considérable sur leur indépendance et leurs interactions sociales.

Source : Science Daily / Université de Californie – San Francisco

Wassedo Stephane

Rédacteur web et spécialiste SEO avec plus de 7 ans d’expérience et 300+ articles publiés. Je transforme des recherches approfondies en contenus clairs et fiables pour vous aider à faire les meilleurs choix.
Ma méthode : sources officielles, avis consommateurs vérifiés, analyses comparatives. Mon engagement : transparence totale et informations à jour.

Post Views: 172