Titre :

App :

Model :

Id :

Fields :

Soutenance de thèse de : Antoine CAILLON
Éditer

Apprentissage temporel hiérarchique pour la synthèse audio neuronale de la musique

Éditer

Recherche
these

Début :

Fin :

Location :

mar 21 février 2023,
09h00- 13h00
Ircam, salle Stravinsky

Éditer

Contenu :
Doctorant de Sorbonne Université, Antoine CAILLON soutient sa thèse "Apprentissage temporel hiérarchique pour la synthèse audio neuronale de la musique"  menée dans l’équipe Représentations Musicales du laboratoire IRCAM STMS sous la direction de Jean Bresson et Philippe Esling. La soutenance se fera en anglais et aura lieu à l'Ircam. Elle sera retransmise en direct sur <a href=" https://youtube.com/live/KS7REAEhyJQ"> https://youtube.com/live/KS7REAEhyJQ</a> Jury  Simon Colton - Rapporteur - Queen Mary University of London (Royaume-Uni) Bob Sturm - Rapporteur - Royal institute of technology (Suède) Michèle Sebag - Examinateur - Université Paris Saclay Patrick Gallinari - Examinateur - Sorbonne Université Mark Sandler - Examinateur - Queen Mary University of London (Royaume-Uni) Jean Bresson - Directeur de thèse - Sorbonne Université    Philippe Esling - Co-directeur de thèse et encadrant - Sorbonne Université Résumé Les récentes avancées en matière d'apprentissage profond proposent de nouvelles façons de construire des modèles répondant à une grande variété de tâches par l'optimisation d'un ensemble de paramètres basés sur la minimisation d'une fonction de coût. Parmi ces techniques, les modèles génératifs probabilistes ont permis des avancées impressionnantes dans la génération de textes, d'images et de sons. Cependant, la génération de signaux audio musicaux reste un problème difficile. Dans cette thèse, nous étudions comment une approche hiérarchique de la modélisation audio peut répondre à la tâche de modélisation du signal musical, tout en offrant différents niveaux de contrôle à l'utilisateur. Notre hypothèse principale est que l'extraction de différents niveaux de représentation d'un signal audio permet d'abstraire la complexité des niveaux inférieurs pour chaque étape de modélisation. Cela permettrait l’utilisation d'architectures légères, chacune modélisant une seule échelle audio. Nous commençons par aborder la modélisation du signal audio brut en proposant un modèle audio combinant des auto encodeurs variationnels et réseaux antagonistes, permettant une synthèse audio neuronale de haute qualité à 48kHz, tout en étant 20 fois plus rapide que le temps réel sur CPU. Ensuite, nous étudions comment les modèles autorégressifs peuvent être utilisés pour comprendre le comportement temporel de la représentation produite par ce modèle audio de bas niveau, en utilisant des signaux de conditionnement supplémentaires optionnels tels que des descripteurs acoustiques ou le tempo. Enfin, nous proposons une méthode pour utiliser tous les modèles proposés directement sur des flux audio, permettant leur utilisation dans des applications temps réel que nous avons développées au cours de cette thèse.

Doctorant de Sorbonne Université, Antoine CAILLON soutient sa thèse "Apprentissage temporel hiérarchique pour la synthèse audio neuronale de la musique" menée dans l’équipe Représentations Musicales du laboratoire IRCAM STMS sous la direction de Jean Bresson et Philippe Esling.

La soutenance se fera en anglais et aura lieu à l'Ircam. Elle sera retransmise en direct sur https://youtube.com/live/KS7REAEhyJQ

Jury

Simon Colton - Rapporteur - Queen Mary University of London (Royaume-Uni)
Bob Sturm - Rapporteur - Royal institute of technology (Suède)
Michèle Sebag - Examinateur - Université Paris Saclay
Patrick Gallinari - Examinateur - Sorbonne Université
Mark Sandler - Examinateur - Queen Mary University of London (Royaume-Uni)
Jean Bresson - Directeur de thèse - Sorbonne Université
Philippe Esling - Co-directeur de thèse et encadrant - Sorbonne Université

Résumé

Les récentes avancées en matière d'apprentissage profond proposent de nouvelles façons de construire des modèles répondant à une grande variété de tâches par l'optimisation d'un ensemble de paramètres basés sur la minimisation d'une fonction de coût. Parmi ces techniques, les modèles génératifs probabilistes ont permis des avancées impressionnantes dans la génération de textes, d'images et de sons. Cependant, la génération de signaux audio musicaux reste un problème difficile. Dans cette thèse, nous étudions comment une approche hiérarchique de la modélisation audio peut répondre à la tâche de modélisation du signal musical, tout en offrant différents niveaux de contrôle à l'utilisateur. Notre hypothèse principale est que l'extraction de différents niveaux de représentation d'un signal audio permet d'abstraire la complexité des niveaux inférieurs pour chaque étape de modélisation. Cela permettrait l’utilisation d'architectures légères, chacune modélisant une seule échelle audio. Nous commençons par aborder la modélisation du signal audio brut en proposant un modèle audio combinant des auto encodeurs variationnels et réseaux antagonistes, permettant une synthèse audio neuronale de haute qualité à 48kHz, tout en étant 20 fois plus rapide que le temps réel sur CPU. Ensuite, nous étudions comment les modèles autorégressifs peuvent être utilisés pour comprendre le comportement temporel de la représentation produite par ce modèle audio de bas niveau, en utilisant des signaux de conditionnement supplémentaires optionnels tels que des descripteurs acoustiques ou le tempo. Enfin, nous proposons une méthode pour utiliser tous les modèles proposés directement sur des flux audio, permettant leur utilisation dans des applications temps réel que nous avons développées au cours de cette thèse.

Éditer

Titre : App : Model : Id : Fields : Soutenance de thèse de : Antoine CAILLON Éditer

Titre :

App :

Model :

Id :

Fields :

Soutenance de thèse de : Antoine CAILLON
Éditer