Titre :

App :

Model :

Id :

Fields :

Soutenance HDR de Nicolas Obin
Éditer

De la représentation du signal à l’apprentissage de représentations : modélisation structurée de signaux de parole.

Éditer

Recherche
these

Début :

Fin :

Location :

mar 12 septembre 2023,
14h00
Ircam, salle Stravinsky

Éditer

Contenu :
Nicolas Obin a le plaisir de vous inviter à la soutenance de son Habilitation à Diriger des Recherches (HDR) qui aura lieu le Mardi 12 Septembre 2023 à 14h00, en salle Stravinsky à l'Ircam et sera aussi streamée sur YouTube au lien suivant : <a href=" https://youtube.com/live/GLDJfD-OTrY"> https://youtube.com/live/GLDJfD-OTrY</a> La présentation sera en français. L’accès à la soutenance sur place se fera dans la limite des places disponibles. <h5>Composition du jury</h5> <ul> <li style="text-align: left;">M. Thomas HUEBER, Directeur de recherche CNRS, GIPSA lab, Rapporteur</li> <li style="text-align: left;">M. Emmanuel VINCENT, Directeur de recherche INRIA, MultiSpeech, Rapporteur</li> <li style="text-align: left;">M. Bjorn SCHULLER, Professeur, Imperial College London, Rapporteur</li> <li style="text-align: left;">M. Gérard BIAU, Professeur, Sorbonne Université, Examinateur</li> <li style="text-align: left;">M. Jean-François BONASTRE, Directeur de Recherche INRIA, Défense et Sécurité, Examinateur</li> <li style="text-align: left;">Mme Catherine PELACHAUD, Directrice de recherche CNRS, ISIR, Examinatrice</li> <li style="text-align: left;">M. Axel ROEBEL, Directeur de recherche, IRCAM, Examinateur</li> <li style="text-align: left;">Mme Isabel TRANCOSO, Professeure, INESC - Université de Lisbonne, Examinatrice</li> <li style="text-align: left;">Mr Nicolas BECKER, Designer sonore et artiste, Membre Invité</li> </ul> <h5>Résumé </h5> "Cette habilitation présente mes dix dernières années de recherche sur la modélisation structurée de signaux de parole. La parole, en tant que langage oral, constitue le système de communication le plus élaboré observé à ce jour, caractérisée par une multidimensionnalité à la fois temporelle, paramétrique, et factorielle. Son étude mobilise de nombreux domaines scientifiques tels que le traitement du signal et de l'information, l’apprentissage machine, la linguistique, la psychologie, la sociologie ou l’anthropologie. Outre ses fonctions linguistiques, la parole révèle un grand nombre d'informations sur un individu, de nature biométrique (identité), physiologique (genre/âge, poids/taille, santé, etc...), psychologique (état émotionnel, attitude sociale, personnalité, etc...), stylistique (adaptation à l'audience et au canal de communication), et culturelle (origines géographiques, statut socioprofessionnel). Le problème principal de la modélisation de signaux de parole est que les facteurs de variabilité ne sont pas accessibles directement à l'observation mais sont intriqués de manière complexe et ambiguë dans le signal de parole. L'enjeu du traitement automatique de la parole consiste donc à pouvoir identifier et démêler les facteurs de variabilité dans les signaux de parole, en particulier par l'observation statistique de régularités sur des bases de données. Ma recherche s'est concentrée sur le problème de l'identification et de la modélisation des facteurs de variabilité liés à la stylistique et à l'expressivité de la communication parlée. J'ai en particulier exploré l'utilisation de l'apprentissage machine pour analyser, modéliser et générer des signaux de parole. L’enjeu principal de ma recherche est de résoudre, par apprentissage à partir d'un nombre limité de données, les ambiguïtés dans le signal de parole, en apprenant de manière structurée les représentations encodant de manière différenciée les informations associés aux facteurs de variabilité considérés (comme l'identité, le style, ou l'expressivité). Cette recherche s'articule autour de trois axes principaux : 1) la cognition, et les représentations mentales de la voix humaine et de leur similarité ; 2) la perception, et la capacité de l'être humain à séparer et localiser des sources sonores ; et enfin 3) la génération, ou comment créer ou manipuler l'identité ou l'expressivité de voix humaines réelles ou artificielles. J’exposerai la transition d'un paradigme signal à un paradigme apprentissage : ce phénomène s’est manifesté dans le domaine de la synthèse de la parole par une évolution en trois temps, depuis la synthèse par sélection d'unités, à la modélisation statistique multi-paramétrique, et à la génération neuronale à partir de représentations compressées et incomplètes. Ce changement de paradigme s'explique par les limitations des modèles de signaux traditionnels pour l'analyse et la synthèse de la parole — en particulier expressive ; et par la limitation historique liée à la dualité du modèle de signal et du modèle d'apprentissage en séparant les modèles de représentation des modèles d’apprentissage. L'apparition des réseaux de neurones profond a permis de dépasser cette dualité en apprenant les représentations au cours de l'apprentissage. La question des données est primordiale et conditionne l'ensemble des problèmes de l'apprentissage. A une extrémité du spectre, l'abondance des données contrebalance le manque de spécification de connaissances humaines dans les modèles d'apprentissage ; à l'autre extrémité du spectre, certains modèles — par exemple, physique — sont entièrement spécifiés par la connaissance humaine et n'ont pas besoin de données pour l'apprentissage. Entre ces deux pôles, il existe un intermédiaire entre la spécification de connaissances humaines et l'apprentissage machine à partir de données. Les conclusions principales de ma recherche soutiennent l’idée d’une nécessaire coopération entre les deux pôles de la connaissance humaine et de l’apprentissage machine, notamment par la formulation de modèles d’apprentissage structurés à partir de connaissances humaines. En l’occurrence, si la génération de la parole a désormais résolu en grande partie les problèmes de l’intelligibilité et de la naturalité, la parole résiste encore à la connaissance humaine et aux machines et de nouveaux défis s’ouvrent pour la recherche. Les problèmes des fonctions expressives et esthétique de la parole — et par prolongement naturel de l’interprétation —, de la multimodalité parole-geste des comportements humains, de la modélisation de la communication verbale et non verbale, située et en contexte, et plus largement des modèles d’apprentissages économes en ressources matérielle comme algorithmique, et respectueux des données personnelles sont autant de nouvelles voies à explorer. Cette habilitation sera accompagnée de nombreuses illustrations sonores issues de ma recherche et de ses applications créatives et artistiques."

Nicolas Obin a le plaisir de vous inviter à la soutenance de son Habilitation à Diriger des Recherches (HDR) qui aura lieu le Mardi 12 Septembre 2023 à 14h00, en salle Stravinsky à l'Ircam et sera aussi streamée sur YouTube au lien suivant : https://youtube.com/live/GLDJfD-OTrY

La présentation sera en français. L’accès à la soutenance sur place se fera dans la limite des places disponibles.

Composition du jury

M. Thomas HUEBER, Directeur de recherche CNRS, GIPSA lab, Rapporteur
M. Emmanuel VINCENT, Directeur de recherche INRIA, MultiSpeech, Rapporteur
M. Bjorn SCHULLER, Professeur, Imperial College London, Rapporteur
M. Gérard BIAU, Professeur, Sorbonne Université, Examinateur
M. Jean-François BONASTRE, Directeur de Recherche INRIA, Défense et Sécurité, Examinateur
Mme Catherine PELACHAUD, Directrice de recherche CNRS, ISIR, Examinatrice
M. Axel ROEBEL, Directeur de recherche, IRCAM, Examinateur
Mme Isabel TRANCOSO, Professeure, INESC - Université de Lisbonne, Examinatrice
Mr Nicolas BECKER, Designer sonore et artiste, Membre Invité

Résumé

"Cette habilitation présente mes dix dernières années de recherche sur la modélisation structurée de signaux de parole. La parole, en tant que langage oral, constitue le système de communication le plus élaboré observé à ce jour, caractérisée par une multidimensionnalité à la fois temporelle, paramétrique, et factorielle. Son étude mobilise de nombreux domaines scientifiques tels que le traitement du signal et de l'information, l’apprentissage machine, la linguistique, la psychologie, la sociologie ou l’anthropologie. Outre ses fonctions linguistiques, la parole révèle un grand nombre d'informations sur un individu, de nature biométrique (identité), physiologique (genre/âge, poids/taille, santé, etc...), psychologique (état émotionnel, attitude sociale, personnalité, etc...), stylistique (adaptation à l'audience et au canal de communication), et culturelle (origines géographiques, statut socioprofessionnel). Le problème principal de la modélisation de signaux de parole est que les facteurs de variabilité ne sont pas accessibles directement à l'observation mais sont intriqués de manière complexe et ambiguë dans le signal de parole. L'enjeu du traitement automatique de la parole consiste donc à pouvoir identifier et démêler les facteurs de variabilité dans les signaux de parole, en particulier par l'observation statistique de régularités sur des bases de données.

Ma recherche s'est concentrée sur le problème de l'identification et de la modélisation des facteurs de variabilité liés à la stylistique et à l'expressivité de la communication parlée. J'ai en particulier exploré l'utilisation de l'apprentissage machine pour analyser, modéliser et générer des signaux de parole. L’enjeu principal de ma recherche est de résoudre, par apprentissage à partir d'un nombre limité de données, les ambiguïtés dans le signal de parole, en apprenant de manière structurée les représentations encodant de manière différenciée les informations associés aux facteurs de variabilité considérés (comme l'identité, le style, ou l'expressivité). Cette recherche s'articule autour de trois axes principaux : 1) la cognition, et les représentations mentales de la voix humaine et de leur similarité ; 2) la perception, et la capacité de l'être humain à séparer et localiser des sources sonores ; et enfin 3) la génération, ou comment créer ou manipuler l'identité ou l'expressivité de voix humaines réelles ou artificielles. J’exposerai la transition d'un paradigme signal à un paradigme apprentissage : ce phénomène s’est manifesté dans le domaine de la synthèse de la parole par une évolution en trois temps, depuis la synthèse par sélection d'unités, à la modélisation statistique multi-paramétrique, et à la génération neuronale à partir de représentations compressées et incomplètes. Ce changement de paradigme s'explique par les limitations des modèles de signaux traditionnels pour l'analyse et la synthèse de la parole — en particulier expressive ; et par la limitation historique liée à la dualité du modèle de signal et du modèle d'apprentissage en séparant les modèles de représentation des modèles d’apprentissage. L'apparition des réseaux de neurones profond a permis de dépasser cette dualité en apprenant les représentations au cours de l'apprentissage.

La question des données est primordiale et conditionne l'ensemble des problèmes de l'apprentissage. A une extrémité du spectre, l'abondance des données contrebalance le manque de spécification de connaissances humaines dans les modèles d'apprentissage ; à l'autre extrémité du spectre, certains modèles — par exemple, physique — sont entièrement spécifiés par la connaissance humaine et n'ont pas besoin de données pour l'apprentissage. Entre ces deux pôles, il existe un intermédiaire entre la spécification de connaissances humaines et l'apprentissage machine à partir de données. Les conclusions principales de ma recherche soutiennent l’idée d’une nécessaire coopération entre les deux pôles de la connaissance humaine et de l’apprentissage machine, notamment par la formulation de modèles d’apprentissage structurés à partir de connaissances humaines. En l’occurrence, si la génération de la parole a désormais résolu en grande partie les problèmes de l’intelligibilité et de la naturalité, la parole résiste encore à la connaissance humaine et aux machines et de nouveaux défis s’ouvrent pour la recherche. Les problèmes des fonctions expressives et esthétique de la parole — et par prolongement naturel de l’interprétation —, de la multimodalité parole-geste des comportements humains, de la modélisation de la communication verbale et non verbale, située et en contexte, et plus largement des modèles d’apprentissages économes en ressources matérielle comme algorithmique, et respectueux des données personnelles sont autant de nouvelles voies à explorer.

Cette habilitation sera accompagnée de nombreuses illustrations sonores issues de ma recherche et de ses applications créatives et artistiques."

Éditer

Titre : App : Model : Id : Fields : Soutenance HDR de Nicolas Obin Éditer

Composition du jury

Résumé

Titre :

App :

Model :

Id :

Fields :

Soutenance HDR de Nicolas Obin
Éditer