[Reportage] À l'Ircam, la voix transformée
Comment crée-t-on ou transforme-t-on une voix ? Réponse auprès des chercheurs de l’institut parisien de recherche acoustique, royaume des sons.
Sous la fontaine Niki de Saint Phalle, place Igor-Stravinsky, au cœur de Paris, des studios d’enregistrement et des salles de recherche.
Voilà ce que recèlent les sous-sols de l’Institut de recherche et coordination acoustique - musique (Ircam), créé en 1977. Dans l’un des bureaux, murs gris et plafond de néons, l’équipe du département analyse et synthèse des sons (CNRS et Sorbonne université) transforme et créé des voix. "Aujourd’hui, la synthèse vocale est moins une création ad hoc que la reconstruction d’une voix existante à laquelle nous faisons dire ce que nous souhaitons", explique Axel Roebel, le responsable de l’équipe.
Pour faire de la synthèse vocale, l’Ircam s’appuie sur la méthode dite concaténative : à l’aide d’une base de données de sons enregistrés et annotés, un algorithme conçoit une voix synthétique. La méthode donne de très bons résultats avec des bases contenant plusieurs heures d’enregistrement. "Pour rendre la synthèse vocale plus réaliste, nous faisons jouer le texte par un acteur qui adopte la prosodie, renvoyant à la courbe d’intonation et au débit de parole, de la voix voulue, explique Axel Roebel. Sinon les algorithmes créent une voix non contextualisée, qui a un caractère plat ou robotique."
En travaillant à la main sur un logiciel, les chercheurs de l'Ircam peuvent modifier la hauteur ou la résonance d'une voix.
Le chercheur lance un extrait de la série documentaire "Juger Pétain", qui reconstitue le procès de l’ex-maréchal, frappé d’indignité nationale en 1945. Sa voix est synthétique, les images d’archives étant muettes. Mais le spectateur n’y voit que du feu. L’Ircam a croisé la voix réelle de Pétain avec l’enregistrement d’un acteur reproduisant sa prosodie. Le studio de production a même ajouté la réverbération de la salle du procès. "Il ne faut que quelques jours à notre algorithme pour créer une voix, mais le résultat n’est pas toujours satisfaisant et les corrections manuelles peuvent prendre jusqu’à un mois", précise Axel Roebel. Un doctorant travaille sur les réseaux de neurones profonds pour améliorer la qualité du rendu et l’automatisation du processus.
L’Ircam collabore avec PSA, qui souhaite développer des assistants vocaux pour la voiture. "Beaucoup d’entreprises nous contactent parce qu’elles cherchent une voix de synthèse qui corresponde à leur image de marque", précise Nicolas Obin, installé dans le bureau mitoyen. En coopération avec l’institut de recherche en robotique Isir (CNRS, Sorbonne université) et avec des industriels, l’enseignant-chercheur multiplie les projets pour conférer aux voix artificielles des émotions et des "attitudes sociales", comme l’amabilité, la séduction ou l’autorité. L’enjeu : permettre l’adaptation du ton des machines à une situation d’interaction et au ton de l’interlocuteur humain.
La chambre anéchoïque, ou "sourde", est dénuée d'effets de salle car tous ses matériaux sont absorbants.
Un outil à utiliser avec prudence
Des recherches dont la portée interroge. Amazon, en contrôlant l’émotion de la voix d’Alexa, pourrait-il en faire un outil d’incitation à l’achat ? "Les machines actuelles n’ont pas d’intention particulière. Les rendre expressives est une manière de cacher les possibles intentions de leur concepteur, reconnaît Nicolas Obin. Même notre travail sur la voix de Pétain, lié à une production artistique, relève d’une reconstruction de l’histoire qui n’est pas si éloignée des deepfakes." À côté, le bureau de Thomas Hélie s’ouvre sur une vitrine exposant des cartilages du larynx en résine et un conduit vocal en silicone. Son équipe (S3AM) et lui explorent la production vocale en modélisant physiquement l’appareil vocal. Ces travaux pourraient aider à comprendre la fatigue de la voix, par exemple. Au niveau artistique, ils pourraient déboucher sur la création de robots chanteurs ou joueurs d’instruments à vent. En plus de nous parler, un robot nous jouera peut-être un jour du pipeau !