Soutenance de thèse de : Antoine CAILLON

Apprentissage temporel hiérarchique pour la synthèse audio neuronale de la musique

  • Recherche
  • these

Doctorant de Sorbonne Université, Antoine CAILLON soutient sa thèse "Apprentissage temporel hiérarchique pour la synthèse audio neuronale de la musique"  menée dans l’équipe Représentations Musicales du laboratoire IRCAM STMS sous la direction de Jean Bresson et Philippe Esling.

La soutenance se fera en anglais et aura lieu à l'Ircam. Elle sera retransmise en direct sur  https://youtube.com/live/KS7REAEhyJQ

Jury 

Simon Colton - Rapporteur - Queen Mary University of London (Royaume-Uni)
Bob Sturm - Rapporteur - Royal institute of technology (Suède)
Michèle Sebag - Examinateur - Université Paris Saclay
Patrick Gallinari - Examinateur - Sorbonne Université
Mark Sandler - Examinateur - Queen Mary University of London (Royaume-Uni)
Jean Bresson - Directeur de thèse - Sorbonne Université   
Philippe Esling - Co-directeur de thèse et encadrant - Sorbonne Université

Résumé

Les récentes avancées en matière d'apprentissage profond proposent de nouvelles façons de construire des modèles répondant à une grande variété de tâches par l'optimisation d'un ensemble de paramètres basés sur la minimisation d'une fonction de coût. Parmi ces techniques, les modèles génératifs probabilistes ont permis des avancées impressionnantes dans la génération de textes, d'images et de sons. Cependant, la génération de signaux audio musicaux reste un problème difficile. Dans cette thèse, nous étudions comment une approche hiérarchique de la modélisation audio peut répondre à la tâche de modélisation du signal musical, tout en offrant différents niveaux de contrôle à l'utilisateur. Notre hypothèse principale est que l'extraction de différents niveaux de représentation d'un signal audio permet d'abstraire la complexité des niveaux inférieurs pour chaque étape de modélisation. Cela permettrait l’utilisation d'architectures légères, chacune modélisant une seule échelle audio. Nous commençons par aborder la modélisation du signal audio brut en proposant un modèle audio combinant des auto encodeurs variationnels et réseaux antagonistes, permettant une synthèse audio neuronale de haute qualité à 48kHz, tout en étant 20 fois plus rapide que le temps réel sur CPU. Ensuite, nous étudions comment les modèles autorégressifs peuvent être utilisés pour comprendre le comportement temporel de la représentation produite par ce modèle audio de bas niveau, en utilisant des signaux de conditionnement supplémentaires optionnels tels que des descripteurs acoustiques ou le tempo. Enfin, nous proposons une méthode pour utiliser tous les modèles proposés directement sur des flux audio, permettant leur utilisation dans des applications temps réel que nous avons développées au cours de cette thèse.

En poursuivant votre navigation sur ce site, vous acceptez l'utilisation de cookies pour nous permettre de mesurer l'audience, et pour vous permettre de partager du contenu via les boutons de partage de réseaux sociaux. En savoir plus.