Théodor Lemerle, doctorant au sein de l'école doctorale EDITE (ED130) de Sorbonne Université, a effectué sa thèse intitulée « Synthèse vocale longue et expressive » au sein de l'équipe Analyse et Synthèse des Sons du laboratoire STMS (IRCAM, CNRS, Sorbonne Université, Ministère de la Culture) sous la direction d'Axel Roebel et Nicolas Obin. Ces travaux s'inscrivent dans le cadre du projet ANR EXOVOICES, mené en collaboration avec Lunii, le Laboratoire de Sciences Cognitives et Psycholinguistique (LSCP) et l'IRCAM. La soutenance aura lieu en anglais le 29 juin 2026 à 14h en salle Stravinsky. Elle sera enregistrée sur Youtube : https://youtube.com/live/Z8ZzRfT6MC0
Le jury sera composé de :
Ricard Marxer - Professeur des Universités, Université de Toulon - Rapporteur
Geoffroy Peeters - Professeur des Universités, Télécom Paris, IP Paris - Rapporteur
Gérard Biau - Professeur des Universités, Sorbonne Université - Examinateur
Simon King - Professor, University of Edinburgh - Examinateur
Berrak Sisman - Assistant Professor, Johns Hopkins University - Examinatrice
Alexandre Défossez - Chief Exploration Officer, Kyutai - Examinateur
Nicolas Obin - Maître de conférences, Sorbonne Université - Co-directeur de thèse
Axel Roebel - Directeur de recherche, Ircam - Directeur de thèse
Résumé
Cette thèse porte sur la synthèse vocale neuronale (text-to-speech, TTS), et plus spécifiquement sur son adaptation à la lecture expressive d'histoires. Elle s'inscrit dans le cadre du projet ANR EXOVOICES, mené en collaboration avec Lunii, le Laboratoire de Sciences Cognitives et Psycholinguistique (LSCP) et l'IRCAM. L'avènement des modèles génératifs à base de réseaux de neurones a permis des progrès spectaculaires en synthèse vocale, rendant possible la génération de voix difficilement distinguables de voix humaines. Ces avancées reposent toutefois sur des infrastructures de calcul toujours plus grandes et sur des bases de données d'entraînement toujours plus volumineuses, composées majoritairement d'énoncés courts. En conséquence, les systèmes actuels sont de plus en plus coûteux à reproduire et peinent à produire une narration longue, cohérente et expressive. Dans un premier temps, nous proposons un système de synthèse vocale permettant un conditionnement plus fin sur des attributs stylistiques et émotionnels, ainsi qu'une méthode permettant un contrôle localisé de ces attributs en l'absence de données d'entraînement annotées à cet effet. Dans un second temps, nous introduisons un codec neuronal de la parole conçu pour offrir une représentation adaptée à la génération, tout en restant reproductible sur du matériel courant. Enfin, nous proposons un modèle de synthèse vocale capable de synthèse continue sur des durées arbitrairement longues sans perte de stabilité ni de cohérence. Notre approche part d'une analyse empirique de l'attention dans les systèmes de synthèse neuronale classiques qui suggère une sous-utilisation du champ réceptif. Ce constat motive une stratégie de fenêtrage spécifique dont nous montrons qu'elle permet la généralisation de la synthèse au-delà de l'horizon d'entraînement ainsi que la stabilité de l'identité du locuteur et de la qualité de la synthèse. L'ensemble de ces travaux contribue à rendre la synthèse vocale expressive, contrôlable et mieux adaptée à la narration longue, tout en maintenant un coût de reproduction compatible avec des moyens typiques d'un laboratoire académique.