Soutenance de thèse de Mireille FARES

  • these

Mireille Fares, doctorante à Sorbonne Université financée par le Centre d'Intelligence Artificielle de la Sorbonne (SCAI), soutiendra sa thèse intitulée « Multimodal Expressive Gesturing With Style » réalisée au sein de l'équipe PIROS de l'ISIR et de l'équipe Analyse et Synthèse du son du laboratoire STMS sous la direction de Catherine Pelachaud (ISIR) et de Nicolas Obin (STMS).

Devant le jury composé de :
M. Thierry ARTIÈRES, Professeur, École Centrale Marseille, Rapporteur
Mme Chloé CLAVEL, Professeure, Institut Polytechnique de Paris, Examinatrice
M. Michael NEFF, Professeur, University of California, Rapporteur
M. Nicolas OBIN, Maître de Conférences, Sorbonne Université, Examinateur
Mme Catherine PELACHAUD, Professeure, Sorbonne Université, Examinatrice
M. Brian RAVENET, Maître de Conférences, Université Paris-Saclay, Examinateur
Mme Laure SOULIER, Maîtresse de Conférences, Sorbonne Université, Examinatrice

La communication humaine est essentiellement et intrinsèquement multimodale, elle englobe une gestalt de signaux multimodaux qui impliquent beaucoup plus que la parole. Principalement, les modes de communication verbale et non verbale sont inextricablement et conjointement entrelacés pour fournir le contenu sémantique et pragmatique du message et adapter le processus de communication. Ces signaux multimodaux échangés impliquent à la fois des canaux vocaux et visuels qui, lorsqu'ils sont combinés, rendent la communication plus expressive. Le mode vocal est caractérisé par des caractéristiques acoustiques - à savoir la prosodie - tandis que le mode visuel implique des expressions faciales, des gestes de la main et des gestes du corps. L'évolution de la communication virtuelle et en ligne a créé le besoin de générer une communication expressive pour les agents incarnés de type humain, y compris les agents conversationnels incarnés (ECA) et les robots sociaux. Un signal de communication crucial pour les ECAs qui peut transmettre un large éventail de messages est le mouvement visuel (visage et corps) qui accompagne la parole et son contenu sémantique. La génération de gestes appropriés et cohérents permet aux ECAs  d'articuler l'intention et le contenu du discours d'une manière expressive semblable à celle de l'homme.

Le thème central de la thèse est de tirer parti et de contrôler l'expressivité comportementale des ECA en modélisant le comportement multimodal complexe que les humains emploient lors de la communication. Concrètement, les objectfs de cette thèse sont doubles: (1) exploiter la prosodie de la parole, la prosodie visuelle et le langage dans le but de synthétiser des comportements expressifs et humains pour les ECAs ; (2) contrôler le style des gestes synthétisés de sorte que nous puissions les générer avec le style de n'importe quel locuteur. Avec ces motivations à l'esprit, nous proposons d'abord un modèle de synthèse des gestes du visage et de la tête sémantiquement conscient et axé sur la parole formé sur un corpus que nous avons collecté lors de conférences TEDx. Ensuite, nous proposons ZS-MSTM 1.0, une approche qui permet la synthèse de gestes stylisés du haut du corps, pilotés par le contenu du discours d'un locuteur source (audio et texte) et correspondant au style de tout locuteur cible, vu ou non par notre modèle. ZS-MSTM 1.0 est entrainé sur le corpus PATS qui comprend des données multimodales de locuteurs ayant un style de comportement différent, mais notre modèle ne se limite pas aux locuteurs PATS, et peut générer des gestes dans le style de n'importe quel locuteur nouvellement arrivé sans apprentissage supplémentaire, rendant notre approche zero-shot. Plus précisément, le style comportemental est modélisé sur la base des données multimodales des locuteurs - langage, gestes corporels et parole -, et indépendamment de l'identité du locuteur. Nous étendons également ce modèle et proposons ZS-MSTM 2.0, qui génère des gestes faciaux stylisés en plus des gestes du haut du corps. Nous avons entrainé ZS-MSTM 2.0 sur le corpus PATS, que nous avons étendu pour inclure des actes de dialogue et des repères faciaux 2D alignés avec les autres caractéristiques multimodales de cet ensemble de données (poses de corps 2D, langage et parole).

En poursuivant votre navigation sur ce site, vous acceptez l'utilisation de cookies pour nous permettre de mesurer l'audience, et pour vous permettre de partager du contenu via les boutons de partage de réseaux sociaux. En savoir plus.