Je suis Maître de Conférences à Sorbonne Université et chercheur dans l'équipe analyse et synthèse des sons au sein du laboratoire Sciences et Technologies de la Musique et du Son (Ircam, CNRS, Sorbonne Université). Ma formation est principalement axée sur les sciences mathématiques, informatique, et physique et je suis membre de la promotion 2005-2006 du Master 2 ATIAM (Acoustique, Traitement du signal, et Informatique Appliqué à la Musique) de l'Université Pierre et Marie Curie; et secondairement en musicologie avec un Master 2 en Arts, Philosophie, Esthétique de l'Université Vincennes Saint-Denis en 2006 sous la direction d'Ivanka Stoïanova. Je suis titulaire d'une thèse de doctorat en informatique et télécommunications intitulée : "MeLos : modélisation de la prosodie et du style pour la synthèse de la parole à partir du texte" (2011) sous la direction de Xavier Rodet, pour laquelle j'ai a obtenu le prix de la meilleure thèse de doctorat de La Fondation Des Treilles en 2011. En 2023, j'ai soutenu mon Habilitation à Diriger des Recherches (HDR) intitulée : "De la modélisation du signal à l'apprentissage de représentations : modélisation structurée de signaux de parole".
A la croisée du monde bio-sensible - en particulier sonore - et des théories formelles de l'information, de la communication et de la cognition, j'ai développé au fil des années un intérêt prononcé pour la modélisation du comportement et des interactions entre humains, animaux et robots. Mes activités de recherche s'articulent principalement autour de la modélisation générative de productions humaines complexes telles que la parole, le chant et la musique avec diverses applications dans la génération sonore et multimodale, les systèmes cyber-physiques humains et musicaux, et la création augmentée par les machines. Je suis un chercheur engagé dans les implications technologiques, créatives, et éthiques de mes recherches et en particulier sur l'impact de l'intelligence artificielle sur la création artistique, les métiers de la création, et les industries créatives et culturelles. Je suis également impliqué sur les thématiques de l'inclusion et de la souveraineté numérique, notamment pour favoriser la présence et la diversité des dialectes, des langues et des cultures dans le monde numérique.
Je suis responsable du Master en Ingénierie des Systèmes Intelligents (ISI) au sein duquel j'enseigne le traitement numérique du signal audio et l'apprentissage machine et de réseaux de neurones profonds, et suis également responsable de la formation professionnelle "Deep Learning par la Pratique" délivrée par Sorbonne Université, Je suis le fondateur de DeepVoice, Paris (depuis 2020) l'événement parisien sur les technologies vocales et l'intelligence artificielle, de SophIA (2021) : l'association étudiante de Sorbonne Université pour l'Intelligence Artificielle en collaboration avec le Centre d'Intelligence Artificielle de la Sorbonne (SCAI), et des Fast-Forward (2022) les rencontres informelles et expérimentales des sciences et technologies et du sound design au cinéma et à l'image animée.
Dans le cadre de mon engagement artistique à l'Ircam, je suis très impliqué dans la promotion des sciences et technologies numériques pour les arts, la culture et le patrimoine, avec de nombreuses collaborations avec des artistes de renom, tels que : Eric Rohmer, Philippe Parreno, Roman Polansky, Leos Carax, George Aperghis, ou Alexander Schubert.
Mon CV en ligne est disponible ici en pdf.

Éditer
Supervision de thèses de doctorat
Encadrement de thèse (en cours)
[ 2024-2027 ] Diego Andres Torres Guarrin, Conversion neuronale des attributs de la voix, projet ANR EVA, Ecole doctorale informatique, télécommunications et électronique (EDITE). Co-encadrement avec Axel Roebel (STMS).
[ 2023-2026 ] Téo Guichoux, Génération multimodale du comportement et transfert de style pour l’animation
d’un agent virtuel, bourse du ministère, Ecole doctorale informatique, télécommunications et électronique (EDITE). Co-encadrement avec Laure Soulier et Catherine Pelachaud (ISIR)
[ 2023-2026 ] Mathilde Abrassart, Conversion neuronale de la voix pour la création d’attaques à l’usurpation d’identité, projet ANR BRUEL, Ecole doctorale informatique, télécommunications et électronique (EDITE). Co-encadrement avec Axel Roebel (STMS).
[ 2023-2026 ] Théodor Lemerle, Expressive text-to-speech synthesis for virtual storytelling, projet ANR EXOVOICES, Ecole doctorale informatique, télécommunications et électronique (EDITE). Co-encadrement avec Axel Roebel (STMS).
Encadrement de thèse (soutenue)
[ 2019-2022 ] Clément Le Moine, Neural conversion of social attitudes in speech signals, en collaboration avec Stellantis, programme doctoral Ph2D/IDF, Ecole doctorale informatique, télécommunications et électronique (EDITE). Co-encadrement avec Axel Roebel (STMS). Thèse soutenue le 27 février 2023
[ 2019-2022 ] Mireille Fares, Multimodal expressive gesturing with style, programme doctoral AI @ Sorbonne Université, Ecole doctorale informatique, télécommunications et électronique (EDITE). Co-ecandrement avec Catherine Pelachaud (ISIR). Thèse soutenue le 15 février 2023
[ 2019-2022 ] Killian Martin, Cognitive control of Rooks’ vocalizations, ED 549 Santé, Sciences Biologiques et Chimie du Vivant, Université de Tours, 2019. Co-encadrement avec Valérie Dufour (CNRS). Thèse soutenue le 13 décembre 2022.
[ 2013-2016 ] Olivier Migliore, Analyser la prosodie musicale du punk, du rap et du ragga français (1977-1992)
à l’aide de l’outil informatique, co-encadrement avec Yvan Nommick, Ecole doctorale Langues, littératures,
cultures, civilisations, Université Montpellier 3. Participation à l'encadrement. Thèse soutenue le 13 décembre 2016.
L'IA au service du sonore ? UNESCO (2024)
Soirée "L'IA au service du sonore?"
18 janvier 2024
Organisée dans le cadre de la 21ème édition de la semaine du son

Soutenance d'habilitation à diriger des recherches
Nicolas Obin soutient son Habilitation à Diriger des Recherches (HDR) le 12 septembre 2023 à 14h - "De la représentation du signal à l’apprentissage de représentations : modélisation structurée de signaux de parole »
Composition du jury
• M. Thomas HUEBER, Directeur de recherche CNRS, GIPSA lab, Rapporteur
• M. Emmanuel VINCENT, Directeur de recherche INRIA, MultiSpeech, Rapporteur
• M. Bjorn SCHULLER, Professeur, Imperial College London, Rapporteur
• M. Gérard BIAU, Professeur, Sorbonne Université, Examinateur
• M. Jean-François BONASTRE, Directeur de Recherche INRIA, Défense et Sécurité, Examinateur
• Mme Catherine PELACHAUD, Directrice de recherche CNRS, ISIR, Examinatrice
• M. Axel ROEBEL, Directeur de recherche, IRCAM, Examinateur
• Mme Isabel TRANCOSO, Professeure, INESC - Université de Lisbonne, Examinatrice
• Mr Nicolas BECKER, Designer sonore et artiste, Membre Invité
Le texte de mon HDR est librement accessible sur HAL.
Deep Voice, Paris
Deep Voice, Paris est l’événement parisien dédié à la voix et à l’intelligence artificielle dont l’objectif est de réunir expertises scientifique et technique, innovation et entrepreneuriat.
Des ateliers techniques - “hands-on” - seront proposés aux participants pour développer leurs compétences dans les domaines du traitement de la parole et du langage naturel.
Des moments de rencontres et de réseautage en fin de journée faciliteront les rencontres et l’échange entre les participants en toute décontraction.
Deep Voice est un événement co-organisé par l’Ircam, Sorbonne Université, et SCAI dans le cadre du festival ManiFeste 2022.
