L'objectif du projet est de combler le manque actuel d'outils de post-production sonore à l'image liés à la voix, dans le contexte du cinéma, de la vidéo et de la production multimédia. Il vise à cet effet la mise en oeuvre d'un ensemble de techniques de synthèse et de traitement, s'attachant spécifiquement au caractère expressif des voix produites, à travers la combinaison de plusieurs méthodes telles que :
- transformation d'identité de voix : changement des caractéristiques de l'identité vocale à partir d'un enregistrement existant, modification du timbre de la voix,
- transformation de type et de nature de voix : passage d'une voix d'homme à une voix de femme ou d'enfant, etc.
- synthèse de voix expressive : modification de l'expression intrinsèque à une voix,
- synthèse à partir du texte : production d'une voix de synthèse à partir d'un document textuel,
- synthèse à partir de corpus d'acteurs et personnages : synthèse consistant à faire dire un texte à une voix existante, caractérisée à partir d'un corpus d'enregistrements.
Les applications prévues sont nombreuses et comprennent notamment le doublage au cinéma à partir de voix de synthèse, la création de voix de personnages pour les dessins animés, la synthèse de voix d'un acteur ou personnage existant à partir d'un texte inédit, la modification de l'expression ou de l'accent sous-jacents à une voix enregistrée, l'obtention de plusieurs identités vocales (personnages) à partir d'un seul comédien, la synthèse vocale dans le contexte des jeux à partir de systèmes de production générative de texte et de caractéristiques expressives liées au contexte de la narration, la production de commentaires sportifs multilingues en direct, etc.