Nicolas Obin

Je suis Maître de Conférences à Sorbonne Université et chercheur dans l'équipe analyse et synthèse des sons au sein du laboratoire Sciences et Technologies de la Musique et du Son (Ircam, CNRS, Sorbonne Université).

Ma formation est principalement axée sur les sciences mathématiques, informatique, et physique : après un stage au CNMAT à l'Université de Bekerley, Califronie, je suis diplômé de la promotion 2005-2006 du Master 2 ATIAM (Acoustique, Traitement du signal, et Informatique Appliqué à la Musique) de l'Université Pierre et Marie Curie à Paris; et secondairement en musicologie avec un Master 2 en Arts, Philosophie, Esthétique de l'Université Vincennes Saint-Denis en 2006 sous la direction d'Ivanka Stoïanova. Je suis titulaire d'une thèse de doctorat en informatique et télécommunications intitulée : "MeLos : modélisation de la prosodie et du style pour la synthèse de la parole à partir du texte" (2011) sous la direction de Xavier Rodet, pour laquelle j'ai obtenu le prix de la meilleure thèse de doctorat de La Fondation Des Treilles en 2011. En 2023, j'ai soutenu mon Habilitation à Diriger des Recherches (HDR) intitulée : "De la modélisation du signal à l'apprentissage de représentations : modélisation structurée de signaux de parole".  Dans le cadre du cluster IA PostGenAI@Paris (France 2030, 2025-2029), je suis actuellement co-porteur du PAC AI-MADE, consacré au développement de modèles génératifs neuronaux de nouvelle génération pour la création sonore, centrés sur l’expressivité, l’efficacité et le contrôle. Le projet adopte une approche fondée sur les pratiques artistiques, plaçant les artistes au cœur du processus, de la conception des modèles jusqu’à leurs usages créatifs.

À l'intersection des sciences du vivant, du traitement du signal et de l’information, de l’apprentissage automatique et des pratiques créatives, mes travaux portent sur la modélisation des comportements et la communication entre humains, animaux et systèmes artificiels — en particulier à travers le son. Le son est au cœur de mes recherches. Je m’intéresse à la manière dont il articule signal et symbole, matière et sens, communication et création. Je développe des approches de modélisation générative de systèmes dynamiques complexes issus de comportements expressifs humains tels que la parole, le chant et la musique. J’étudie la manière dont ces systèmes peuvent être compris, simulés et étendus, et dont ils peuvent donner naissance à de nouvelles formes de génération sonore et multimodale. Ce travail s’inscrit dans le cadre des systèmes cyber-physiques humains et musicaux, ainsi que dans de nouvelles formes de création de plus en plus assistées et augmentées par l’intelligence artificielle.

Mes recherches portent sur les approches neuronales de la génération audio, avec un accent particulier sur la génération sonore intuitive, contrôlable et expressive. Je travaille sur des modèles autorégressifs et synchronisés dans le temps pour la génération audio, ainsi que sur l’apprentissage de représentations structurées dans des espaces latents. J’étudie des représentations interprétables du son afin de relier les caractéristiques du signal de bas niveau à des représentations perceptives et cognitives de haut niveau, ainsi que les capacités d’interpolation, d’adaptation et de maintien de la cohérence au sein de ces espaces latents. Ces travaux permettent des formes de génération personnalisables et interactives, pilotées par les utilisateurs et centrées sur les artistes. Enfin, mes travaux portent sur la génération efficace sous contraintes de ressources, notamment dans des contextes de calcul limité et dans des régimes de faible disponibilité de données, où les données de haute qualité sont rares. Dans l’ensemble, ces approches visent à permettre un contrôle fin et intuitif de la génération, tout en préservant l’alignement avec les dimensions perceptives, comportementales et expressives du son.

Au-delà de la recherche, je m’intéresse profondément aux implications technologiques, créatives et éthiques de ces systèmes. En particulier, je questionne la manière dont l’intelligence artificielle transforme la création artistique, les métiers de la création, ainsi que les industries culturelles et créatives. Mes recherches portent également sur les enjeux d’inclusion et de souveraineté numérique, avec une attention particulière portée à la préservation de la diversité des dialectes, des langues et des cultures dans les environnements numériques. Dans le cadre de ma pratique artistique à l’Ircam, je travaille à l’interface entre recherche et création, contribuant au développement et à la diffusion des sciences et technologies numériques pour les arts et la culture. Cet engagement s’appuie sur de nombreuses collaborations avec des artistes de renommée internationale issus de la musique, du cinéma et du sound design.

Fonctions actuelles : 


Actualités

  • Lundi 29 juin 2026 à 14h, Ircam -- Salle Stravinsky. Soutenance de thèse de Théodor Lemerle : Synthèse vocale longue et expressive 
  • Président de la commission Intelligence Artificielle-Base de Données (IA-BD), campagne d’attribution des contrats doctoraux 2026 de l'EDITE
  • Lundi 1 juin 2026 – Journée d’échange « La preuve scientifique et la voix », organisée par l’Association Francophone de la Communication Parlée, Palais de la Bourse – Lyon

Supervision de thèses de doctorat

Encadrement de thèse (en cours)

[ 2025-2028 ]  Anthony Gallien, Machine Learning for Acoustical In-Painting in Augmented Reality: Enhancing Immersive Audio Realism, École doctorale informatique, télécommunications et électronique (EDITE). Bourse doctorale du Sorbonne Cluster for Articial Intelligence (SCAI). Direction et co-encadrement avec Markus Noisternig et Benoit Alary (STMS, équipe EAC).

[ 2024-2027 ] Balthazar Bujard, Modèles de couplage entre signaux temporels pour le contrôle créatif de la synthèse sonore, École doctorale informatique, télécommunications et électronique (EDITE). Co-encadrement avec Frédéric Bevilacqua (Direction) et Jérôme Nika (STMS, équipe ISMM).

[ 2024-2027 ] Diego Andres Torres Guarrin, Conversion neuronale des attributs de la voix, projet ANR EVA, École doctorale informatique, télécommunications et électronique (EDITE). Direction et co-encadrement avec Axel Roebel (STMS).

[2023-2026] Téo Guichoux, Génération multimodale du comportement et transfert de style pour l’animation
d’un agent virtuel, bourse du ministère, École doctorale informatique, télécommunications et électronique (EDITE). Co-encadrement avec Laure Soulier (Direction) et Catherine Pelachaud (ISIR)

[ 2023-2026 ] Mathilde Abrassart, Conversion neuronale de la voix pour la création d’attaques à l’usurpation d’identité, projet ANR BRUEL, École doctorale informatique, télécommunications et électronique (EDITE). Co-direction avec Axel Roebel (Direction, STMS).

[ 2023-2026 ] Théodor Lemerle, Toward Expressive and Long-form Speech Synthesis, projet ANR EXOVOICES, École doctorale informatique, télécommunications et électronique (EDITE). Co-direction avec Axel Roebel (Direction, STMS).

Encadrement de thèse (soutenue)

[2017-2025] Lisa La Pietra, Fonction et approches de la vocalité lyrique et contemporaine aujourd’hui. L’interprétation vocale entre le Belcanto et les nouvelles technologies. Co-encadrement avec Antonio Lai (Direction, Université Vincennes -- Saint-Denis). École doctorale «Esthétique, sciences et technologies des arts» (EDESTA). Thèse soutenue le 9 décembre 2025.

[ 2019-2022 ] Clément Le Moine, Neural conversion of social attitudes in speech signals, en collaboration avec Stellantis, programme doctoral Ph2D/IDF, École doctorale informatique, télécommunications et électronique (EDITE).  Co-encadrement avec Axel Roebel (Direction, STMS). Thèse soutenue le 27 février 2023

[ 2019-2022 ] Mireille Fares, Multimodal expressive gesturing with style, programme doctoral AI @ Sorbonne Université, École doctorale informatique, télécommunications et électronique (EDITE). Co-encadrement avec Catherine Pelachaud (Direction, ISIR). Thèse soutenue le 15 février 2023

[ 2019-2022 ] Killian Martin, Cognitive control of Rooks’ vocalizations, ED 549 Santé, Sciences Biologiques et Chimie du Vivant, Université de Tours, 2019. Co-encadrement avec Valérie Dufour (Direction, CNRS). Thèse soutenue le 13 décembre 2022.

[ 2013-2016 ] Olivier Migliore, Analyser la prosodie musicale du punk, du rap et du ragga français (1977-1992)
à l’aide de l’outil informatique, co-encadrement avec Yvan Nommick (Direction), École doctorale Langues, littératures, cultures, civilisations, Université Montpellier 3. Participation à l'encadrement. Thèse soutenue le 13 décembre 2016.


Le projet TheVoice sélectionné pour les 20 ans de l'ANR

𝟮𝟬 𝗮𝗻𝘀 | 𝟮𝟬 𝘀𝗰𝗶𝗲𝗻𝘁𝗶𝗳𝗶𝗾𝘂𝗲𝘀 | 𝟮𝟬 𝗽𝗿𝗼𝗷𝗲𝘁𝘀 | 𝟮𝟬 𝗿𝗲𝗴𝗮𝗿𝗱𝘀 𝘀𝘂𝗿 𝗹𝗮 𝗿𝗲𝗰𝗵𝗲𝗿𝗰𝗵𝗲 Depuis 2005, l’Agence nationale de la recherche soutient la recherche dans toute sa diversité. En 20 ans, plus de 32 000 projets ont ainsi été financés par l’ANR. Et autant d’histoires et d’aventures scientifiques et humaines. La série de portraits #monANR revient sur ce que ces projets ont changé dans la vie des scientifiques, et sur l’impact de leurs recherches sur la société.


GRABUGE -- Groupe de Recherche sonore et Autres Bidouilles Utopiques, Géniales et Éphémères (2025)

G.R.A.B.U.G.E est un espace de rencontres, d’échanges, et d’expérimentation ouvert à tous les étudiants passionnés de son, de musique, de danse, de réalités mixtes, de machines et autres geekeries phoniques et sensibles ! Les principes de notre démarche : le bricolage, l’expérimentation, l’auto-organisation, la convivialité, et l’entraide. En un mot, un joyeux chaos organisé pour se réunir et faire de la musique avec des machines !

GRABUGE


Tribune : Pour une intelligence artificielle responsable au service d’une création musicale inventive et diverse (2024)


L'IA au service du sonore ? UNESCO (2024)

Soirée "L'IA au service du sonore?" 18 janvier 2024 Organisée dans le cadre de la 21ème édition de la semaine du son

Nicolas Obin, conférence de presse, UNESCO


Soutenance d'habilitation à diriger des recherches

Nicolas Obin soutient son Habilitation à Diriger des Recherches (HDR) le 12 septembre 2023 à 14h - "De la représentation du signal à l’apprentissage de représentations : modélisation structurée de signaux de parole »

Composition du jury

• M. Thomas HUEBER, Directeur de recherche CNRS, GIPSA lab, Rapporteur
• M. Emmanuel VINCENT, Directeur de recherche INRIA, MultiSpeech, Rapporteur
• M. Bjorn SCHULLER, Professeur, Imperial College London, Rapporteur
• M. Gérard BIAU, Professeur, Sorbonne Université, Examinateur
• M. Jean-François BONASTRE, Directeur de Recherche INRIA, Défense et Sécurité, Examinateur
• Mme Catherine PELACHAUD, Directrice de recherche CNRS, ISIR, Examinatrice
• M. Axel ROEBEL, Directeur de recherche, IRCAM, Examinateur
• Mme Isabel TRANCOSO, Professeure, INESC - Université de Lisbonne, Examinatrice
• Mr Nicolas BECKER, Designer sonore et artiste, Membre Invité

Le texte de mon HDR est librement accessible sur HAL.

Publications

En liaison avec

En poursuivant votre navigation sur ce site, vous acceptez l'utilisation de cookies pour nous permettre de mesurer l'audience, et pour vous permettre de partager du contenu via les boutons de partage de réseaux sociaux. En savoir plus.