Soutenance de thèse de : Clément LE MOINE-VEILLON

Conversion Neuronale des Attitudes Sociales dans les Signaux de Parole

  • Recherche
  • these

La thèse "Conversion Neuronale des Attitudes Sociales dans les Signaux de Parole" réalisée par Clément Le Moine-Veillon est co-financée sur le projet MoVE “Modelisation of Voice Expressivity” par la région Île de France et le groupe automobile Stellantis. Elle est dirigée par Axel Roebel et encadrée par Nicolas Obin au sein de l’équipe analyse-synthèse des sons du laboratoire STMS (Ircam-CNRS-Sorbonne Université-Ministère de la Culture).

Clément Le Moine-Veillon soutiendra sa thèse le 27 février 2023 dans les locaux de l'Ircam à 15h. Ce sera aussi en direct sur  https://youtube.com/live/6ocHIjbDQuE

Jury :

Thomas Hueber, Chargé de recherche CNRS, GIPSA-lab Grenoble (rapporteur)
Damien Lolive, Professeur, IRISA, Université de Rennes 1 (rapporteur)
Berrak Sisman, Professeure Associée, Université du Texas
Catherine Pelachaud, Directrice de recherche CNRS, ISIR, Sorbonne Université
Carlos Busso, Professeur, Université du Texas
Jaime Lorenzo Trueba, Chercheur, Amazon

Résumé :

Lorsqu’ils communiquent vocalement, les humains transmettent un ensemble de signaux sociaux qui enrichissent considérablement le sens communiqué. Les attitudes sociales du locuteur - au coeur de ce processus - sont l’objet de cette recherche dont l’objectif est l’élaboration d’algorithmes neuronaux pour leur conversion. Nos principales contributions sont : la création d’une base de données en français pour les attitudes sociales de la parole ; la mise au jour de stratégies de production et de biais dans la perception des attitudes sociales ; l’élaboration d’un BWS-Net - algorithme mimant la perception humaine des attitudes sociales ; un premier algorithme de conversion basé sur une modélisation multi-échelle des contours de F0 ; un second algorithme de conversion basé sur le Transformer, appris sur des représentations mel-spectrogramme du signal de parole et conditionné linguistiquement par un module de reconnaissance de parole. Ces contributions sont détaillées dans la suite du résumé.

L’étape initiale de ce travail fut la création d’une base de données multi-locuteur en français - Att-HACK - constituée d’une trentaine d’heures de parole expressive dédiées à quatre attitudes sociales : l’amicalité, la distance, la dominance et la séduction. Cette base nous a fourni la matière pour comprendre comment ces attitudes sont communiquées vocalement. Premièrement, une analyse acoustique des données récoltées fondée sur une compréhension des mécanismes anatomiques de production de la parole a permis d’identifier des stratégies communes aux locuteurs français et de mettre au jour des profils prototypiques de production des attitudes. Deuxièmement, une étude basée sur une expérience Best-Worst-Scaling (BWS) menée sur une centaine de sujets, a permis d’évaluer la perception des attitudes produites dans Att-HACK, mettant en évidence des interactions significatives avec le contenu linguistique ou encore avec le genre du locuteur.

Après avoir montré l’existence d’invariants humainement perceptibles au sein de nos données, nous avons travaillé à l’élaboration d’algorithmes capables de capturer ces invariants à travers l’objectif - explicite ou implicite - de reconnaissance des attitudes. Nous avons notamment développé un BWS-Net - algorithme d’évaluation perceptive de l’attitude communiquée - entraîné à partir des jugements des participants à l’expérience BWS. Cet algorithme a permis d’étendre la validation d’Att-HACK aux données non testées, d’identifier notamment les sons pour lesquels l’attitude est mal communiquée et ainsi de fournir des données propres pour l’apprentissage de conversions.

L’intonation - représentée par les variations de fréquence fondamentale, ou F0 - s’est révélée centrale dans la communication des attitudes sociales investiguées lors des deux études mentionnées précédemment. Nous avons donc initialement cherché à convertir ce paramètre unique en modélisant ses variations à différentes échelles temporelles - de micro à macro prosodie - à l’aide d’une couche neuronale permettant l’apprentissage de représentations Continuous Wavelet Transform (CWT). Nous avons proposé un algorithme end-to-end au sein duquel la décomposition du signal de F0 et la conversion - via Dual-GAN - des représentations qui en découlent sont apprises conjointement par paires d’attitudes. Des mesures objectives ainsi qu’un test d’écoute subjectif ont permis de valider les performances de ce modèle pour deux locuteurs différents. Ces premiers résultats ont mis en évidence des difficultés inhérentes à l’emploi d’une représentation paramétrique du signal de parole (cohérence intrinsèque du signal converti, naturalité de la conversion) et nous ont conduits à opter pour une représentation complète, compacte et perceptivement pertinente du signal de parole pour l’apprentissage de conversions : le mel-spectrogramme.

Forts des enseignements de cette proposition initiale, nous avons travaillé au développement d’un algorithme plus ambitieux basé sur l’architecture Transformer, conditionné linguistiquement par un module de reconnaissance de parole et permettant l’apprentissage simultané des conversions entre les quatre attitudes d’Att-HACK. Des mesures objectives ainsi qu’un test d’écoute subjectif ont permis de valider les performances de ce modèle en conversion mono-locuteur. Des expériences en multi-locuteur ainsi qu’avec contrôle de l’intensité attitudinale basé sur l’incorporation d’un BWS-Net montrent de premiers résultats prometteurs.

En poursuivant votre navigation sur ce site, vous acceptez l'utilisation de cookies pour nous permettre de mesurer l'audience, et pour vous permettre de partager du contenu via les boutons de partage de réseaux sociaux. En savoir plus.