GdR Isis 20 octobre 2022

  • Séminaires
L'Ircam accueille une seconde journée dans le cadre de l'action «Traitement du signal pour l'audio et l'écoute artificielle» du Gdr Isis, le jeudi 20 octobre 2022, dédiée «Voix», animée par les orateurs suivants :
  •      Yves Laprie
  •      Thomas Hueber
  •      Nathalie Henrich
  •      Axel Roebel
  •                Pour s'inscrire : http://intranet.gdr-isis.fr//index.php?page=inscription-a-une-reunion&idreunion=483

Invitation

Nous invitons également les doctorants et post-doctorants souhaitant présenter leur travaux relevant de l’audio de contacter Vincent Lostanlen (vincent dot lostanlen at ls2n dot fr) avant 1er Octobre. Leur présentation se fera avec le format suivant : une brève présentation de 3 minutes en plénière et un poster affiché durant la journée.

Comité d'organisation

  • Mathieu Lagrange (LS2N, CNRS)
  • Thomas Hélie (STMS, Ircam, CNRS)
  • Vincent Lostanlen (LS2N, CNRS)

Programme

09:30 - Accueil (Café)

10:00 - Introduction

10:15 - Yves Laprie : Prédiction de la forme géométrique du conduit vocal à partir de la suite de phonèmes à articuler

11:15 - Thomas Hueber : Modélisation acoustico-articulatoire : de technologies d'assistance à l'étude de mécanismes de développement de la parole

12:15 - Pause déjeuner

14:00 - Nathalie Henrich : De la théorie source-filtre aux interactions pneumo-phono-résonantielles : la complexité de la voix humaine

15:00 - Axel Roebel : Méthodes d'apprentissage profond pour le traitement de la voix

16:00 - Présentations par les doctorants

16:30 - Posters des doctorants (Café)

17:30 - Clôture

Résumés des contributions

Yves Laprie : Prédiction de la forme géométrique du conduit vocal à partir de la suite de phonèmes à articuler

Différentes approches ont été utilisées par le passé, en particulier celles reposant sur l'utilisation de modèles articulatoires. Yves Laprie fera un panorama de leurs enjeux et de leur difficultés. Il s'arrêtera ensuite sur l'utilisation de l'IRM dynamique dan la capture des gestes des articulateurs, mais les cinéIRM ne pouvant être exploités directement, la présentation ne retiendra que les outils de suivi automatique des articulateurs et leurs limites. Il abordera enfin, sur la prédiction de la forme géométrique du conduit vocal dans le plan médio-sagittal en fonction de la suite de phonèmes à articuler, la méthode par apprentissage profond.

Yves Laprie est Directeur de recherche au CNRS au LORIA de Nancy. Ses recherches portent sur la synthèse et la modélisation articulatoire, l'analyse de la parole et l'apprentissage du langage. Ces dernières années, il a  essentiellement travaillé sur l'exploitation de données IRM temps réel.

Thomas Hueber : Modélisation acoustico-articulatoire : de technologies d'assistance à l'étude de mécanismes de développement de la parole

La production de la parole est un processus moteur complexe impliquant plusieurs phénomènes physiologiques, tels que les activités neuronales, nerveuses et musculaires qui pilotent nos mouvements respiratoires, laryngés et articulatoires. La modélisation de la production de la parole, en particulier la relation entre les gestes articulatoires (langue, lèvres, mâchoire, vélum) et les réalisations acoustiques de la parole, est une question de recherche difficiler en constante évolution. D'un point de vue applicatif, ces modèles pourraient être intégrés dans des dispositifs d'assistance capables de rétablir la communication orale lorsqu'une partie de la chaîne de production de la parole est endommagée (synthèse articulatoire). Ils pourraient également aider à réhabiliter les troubles du son de la parole en utilisant une thérapie basée sur le biofeedback (et l'inversion articulatoire). D'un point de vue de recherche plus fondamentale, de tels modèles peuvent également être utilisés pour questionner les mécanismes cognitifs qui sous-tendent la perception de la parole et le contrôle moteur. Thomas Hueber exposera l'étude menée par son groupe : apprendre, sur des modèles acoustiques-articulatoires à partir de données du monde réel, en utilisant l'apprentissage automatique (pour lequel l'apprentissage profond n'a pas l'exclusivité). Pour cela, il se concentrera d'abord sur les diverses tentatives d'adaptation, pour tout nouveau locuteur, d'un modèle direct ou inverse pré-entraîné sur un locuteur de référence. Ensuite, il reviendra sur un travail récent concernant l'intégration de prieurs articulatoires dans l'espace latent d'un auto-encodeur variationnel, pour une application potentielle à l'amélioration de la parole. Enfin, il expliquera, nouvel axe de recherche, comment, par la modélisation et la stimulation, un enfant peut apprendre la cartographie inverse acoustique-articulatoire de manière auto-supervisée lors de la répétition de stimuli vocaux uniquement auditifs.

Thomas Hueber est Directeur de recherche au CNRS au GIPSA-Lab de Grenoble, responsable de l'équipe de recherche CRISSP (Cognotive Robotics, Interactive Systems, Speech Processing). Ses travaux portent sur le traitement automatique de la parole, avec un intérêt particulier pour les approches multimodales (audio-visuelles) et les signaux biologiques humains liés à la production de la parole (ex. : signaux articulatoires, musculaires et cérébraux).

Nathalie Henrich : De la théorie source-filtre aux interactions pneumo-phono-résonantielles : la complexité de la voix humaine

Depuis plus d’un demi-siècle, la théorie source-filtre reste au cœur de la modélisation, de l’analyse et de la synthèse de la voix humaine et de ses expressions, comme la parole et le chant. Cette théorie et ce qu'elle implique quant à la production vocale humaine feront l'objet de cette présentation. Enfin, Nathalie Henrich montrera comment la diversité des gestes phonatoires et articulatoires impose de repenser ce modèle en y incluant des niveaux d'interaction qu'elle détaillera.

Nathalie Henrich, scientifique passionnée par la voix humaine sous toutes ses formes d’expression, elle est Directrice de Recherche au CNRS dans l’INstitut des Sciences Humaines et Sociales (INSHS), Section Sciences du Langage. Ses projets de recherche portent sur la phonétique expérimentale et clinique de la parole et du chant, sur la caractérisation physiologique et physique des techniques vocales (chant lyrique, chant amplifié, chant du monde), ainsi que sur le développement de techniques expérimentales non invasives et d'avatars vocaux mécatroniques. Elle a coordonné la Journée Mondiale de la Voix en France (Avril 2022). En 2013, le CNRS lui a décerné la médaille de bronze pour ses travaux en vocologie.

Axel Roebel : Méthodes d'apprentissage profond pour le traitement de la voix : Vocodage neuronal pour la transformation de la voix

Depuis quelques années, la situation de la synthèse et du traitement de la parole est dominée par les méthodes basées sur les données et les réseaux neuronaux profonds. L'utilisation de quantités de données toujours plus grandes permet l'exploitation de paramètres encore plus nombreux. Cela conduit à des perfectionnements permanents. Malheureusement, la complexité croissante des calculs entrave l'application généralisée de ces modèles. La première partie de l'exposé sera centrée sur la recherche sur la transformation de la voix, efficace en termes de données et de calcul, à l'aide de réseaux neuronaux profons. Il présentera ensuite le WaveNet excité multibande, réseau neuronal profond intégrant un WaveNet dans un modèle classique de filtre de source. La discussion motivera la structure du modèle et les pertes d'entraînement. Les déficiences du modèle proposé conduiront à réfléchir brièvement aux perspectives, étant donné l'évolution rapide en matière de vocodage neuronal. La deuxième partie évoquera les recherches en cours sur les applications du vocodeur neuronal, le combinant avec des modèles dédiés à l'intensité, la hauteur, l'expressivité ou la transformation d'identité.

Axel Roebel est Directeur de recherche à l'Ircam et responsable de l'équipe Analyse/Synthèse. Ses activités de recherche sont centrées sur la synthèse et la transformation de la voix et de la musique, avec un fort accent sur les applications artistiques et industrielles. Après de nombreuses années de recherche sur divers algorithmes de traitement du signal, il s'est orienté vers des méthodes basées sur les données. 

En poursuivant votre navigation sur ce site, vous acceptez l'utilisation de cookies pour nous permettre de mesurer l'audience, et pour vous permettre de partager du contenu via les boutons de partage de réseaux sociaux. En savoir plus.