Accueil
EVA

Titre :

App :

Model :

Id :

Fields :

EVA
Éditer

L'atelier du son

Détails du projet

Début: 1 octobre 2023
Fin: 31 janvier 2028
Programme: ANR
Liens: https://anr-eva.gitlabpages.inria.fr/

Participants

Coordinateur: Orange
Partenaires: Organizations :
App :
Model :
Id :
Fields :
Institut de Recherche en Informatique et Systèmes Aléatoires (IRISA)
Ircam
Laboratoire de Phonétique et Phonologie (LPP)
Laboratoire d'Informatique d'Avignon (LIA)
Éditer
Équipes: Teams :
App :
Model :
Id :
Fields :
Ircam - Recherche - Analyse et synthèse des sons
Éditer

Contenu :
Décrire une voix en quelques mots est une tâche arbitraire. Nous pouvons parler d'une voix « grave », « soufflée » ou « rauque », mais la caractérisation d'une voix nécessiterait un ensemble restreint d'attributs rigoureusement définis constituant une ontologie. Or, une telle grille de description n'existe pas. L'apprentissage automatique appliqué à la parole souffre de la même faiblesse : dans la plupart des tâches de traitement automatique, le locuteur est modélisé par des représentations globales abstraites aux caractéristiques pas ou peu explicites. Par exemple, l'identification automatique des locuteurs est généralement abordée via le paradigme des x-vectors, qui consiste à décrire la voix d'un locuteur par un embedding spécialement conçu pour cette tâche. Malgré leur bonne précision, les x-vectors sont généralement inadaptés pour détecter des similitudes entre différentes voix présentant des caractéristiques communes. Mêmes observations pour la génération de la parole : le contrôle de la synthèse vocale est généralement effectué en injectant le style ou l'identité du locuteur via des représentations non structurées. Ces représentations permettent de contourner la tâche de définition et d'apprentissage d'ontologies, mais elles permettent uniquement d'imiter un sous-ensemble des caractéristiques d'une voix (genre, fréquence fondamentale, rythme, intensité) sans en expliciter les attributs. Elles restent également limitées par leur incapacité à générer de nouvelles voix originales. L'objectif de ce projet est de déchiffrer les codes des voix humaines par l'apprentissage de représentations explicites et structurées des attributs de la voix. La réalisation de cet objectif aura un fort impact scientifique et technologique, dans au moins deux domaines d'application : premièrement, dans l'analyse de la parole, il permettra de comprendre l'enchevêtrement complexe des caractéristiques d'une voix humaine ; deuxièmement, pour la génération de voix, il alimentera une large gamme d'applications pour créer une voix avec les attributs souhaités, permettant la conception de ce que l'on appelle une personnalité vocale. L'ensemble des attributs sera défini par expertise humaine ou découvert à partir des données en utilisant des réseaux neuronaux légèrement ou non supervisés ou non supervisés. Il comprendra une description détaillée et explicite du timbre, de la qualité de la voix, de la phonation, des biais du locuteur tels que des prononciations spécifiques ou des troubles de la parole (par exemple zézaiement), des accents régionaux ou non natifs, et des éléments paralinguistiques tels que les émotions ou le style. Idéalement, chaque attribut pourrait être contrôlé dans la synthèse et la conversion par un degré d'intensité, ce qui permettrait de l'amplifier ou de l'effacer de la voix, dans le cadre d'une intégration structurée. Ces nouveaux attributs pourraient être définis par des experts ou par des algorithmes de réseaux neuronaux tels que le démêlage automatique de la voix ou des représentations auto-supervisées qui découvriraient automatiquement les attributs saillants dans des ensembles de données multilocuteurs. Les principaux résultats industriels attendus concernent différents cas d'utilisation de la transformation de la voix. Le premier est l'anonymisation de la voix : afin de permettre des enregistrements vocaux conformes à la RGPD, les systèmes de conversion vocale pourraient être configurés pour supprimer les attributs fortement associés à l'identité d'un locuteur, tandis que les autres attributs resteraient inchangés pour préserver l'intelligibilité, le naturel et l'expressivité de la voix manipulée ; le deuxième est la création de voix : de nouvelles voix pourraient être sculptées à partir d'un ensemble d'attributs souhaités, afin d'alimenter l'industrie de la création.

Décrire une voix en quelques mots est une tâche arbitraire. Nous pouvons parler d'une voix « grave », « soufflée » ou « rauque », mais la caractérisation d'une voix nécessiterait un ensemble restreint d'attributs rigoureusement définis constituant une ontologie. Or, une telle grille de description n'existe pas.

L'apprentissage automatique appliqué à la parole souffre de la même faiblesse : dans la plupart des tâches de traitement automatique, le locuteur est modélisé par des représentations globales abstraites aux caractéristiques pas ou peu explicites. Par exemple, l'identification automatique des locuteurs est généralement abordée via le paradigme des x-vectors, qui consiste à décrire la voix d'un locuteur par un embedding spécialement conçu pour cette tâche. Malgré leur bonne précision, les x-vectors sont généralement inadaptés pour détecter des similitudes entre différentes voix présentant des caractéristiques communes.

Mêmes observations pour la génération de la parole : le contrôle de la synthèse vocale est généralement effectué en injectant le style ou l'identité du locuteur via des représentations non structurées. Ces représentations permettent de contourner la tâche de définition et d'apprentissage d'ontologies, mais elles permettent uniquement d'imiter un sous-ensemble des caractéristiques d'une voix (genre, fréquence fondamentale, rythme, intensité) sans en expliciter les attributs. Elles restent également limitées par leur incapacité à générer de nouvelles voix originales.

L'objectif de ce projet est de déchiffrer les codes des voix humaines par l'apprentissage de représentations explicites et structurées des attributs de la voix. La réalisation de cet objectif aura un fort impact scientifique et technologique, dans au moins deux domaines d'application : premièrement, dans l'analyse de la parole, il permettra de comprendre l'enchevêtrement complexe des caractéristiques d'une voix humaine ; deuxièmement, pour la génération de voix, il alimentera une large gamme d'applications pour créer une voix avec les attributs souhaités, permettant la conception de ce que l'on appelle une personnalité vocale.

L'ensemble des attributs sera défini par expertise humaine ou découvert à partir des données en utilisant des réseaux neuronaux légèrement ou non supervisés ou non supervisés. Il comprendra une description détaillée et explicite du timbre, de la qualité de la voix, de la phonation, des biais du locuteur tels que des prononciations spécifiques ou des troubles de la parole (par exemple zézaiement), des accents régionaux ou non natifs, et des éléments paralinguistiques tels que les émotions ou le style. Idéalement, chaque attribut pourrait être contrôlé dans la synthèse et la conversion par un degré d'intensité, ce qui permettrait de l'amplifier ou de l'effacer de la voix, dans le cadre d'une intégration structurée. Ces nouveaux attributs pourraient être définis par des experts ou par des algorithmes de réseaux neuronaux tels que le démêlage automatique de la voix ou des représentations auto-supervisées qui découvriraient automatiquement les attributs saillants dans des ensembles de données multilocuteurs.

Les principaux résultats industriels attendus concernent différents cas d'utilisation de la transformation de la voix. Le premier est l'anonymisation de la voix : afin de permettre des enregistrements vocaux conformes à la RGPD, les systèmes de conversion vocale pourraient être configurés pour supprimer les attributs fortement associés à l'identité d'un locuteur, tandis que les autres attributs resteraient inchangés pour préserver l'intelligibilité, le naturel et l'expressivité de la voix manipulée ; le deuxième est la création de voix : de nouvelles voix pourraient être sculptées à partir d'un ensemble d'attributs souhaités, afin d'alimenter l'industrie de la création.

Éditer

Titre : App : Model : Id : Fields : EVA Éditer

Titre :

App :

Model :

Id :

Fields :

EVA
Éditer