Soutenance de thèse de Constance DOUWES

Sur l'impact environnemental des modèles génératifs profonds pour l'audio

  • Recherche
  • these

Constance DOUWESréalisé sa thèse "Sur l'impact environnemental des modèles génératifs profonds pour l'audio" au sein de l'équipe Représentations musicales du laboratoire STMS (Ircam-Sorbonne Université-CNRS-Ministère de la Culture) et de l'École doctorale Informatique, télécommunications et électronique de Paris.

La soutenance est prévue, en anglais, le vendredi 10 mars à 14h, à l'Ircam, devant le jury qui sera composé de : 

  • Nick Bryan-Kinns - Rapporteur - Queen Mary, University of London (UK)
  • Sébastien Loustau - Rapporteur - LMAP, Université de Pau et des Pays de l’Adour (FR)
  • Evripidis Bampis - Examinateur - LIP6, Sorbonne Université, CNRS (FR)
  • Peter Bryzgalov - Examinateur - Chiba Institute of Technology (JP)
  • Emma Strubell - Examinatrice - Carnegie Mellon University (US)
  • Geoffroy Peeters - Examinateur - LTCI, Telecom Paris (FR)
  • Jean-Pierre Briot - Directeur - LIP6, Sorbonne Université, CNRS (FR)
  • Philippe Esling - Encadrant - STMS, IRCAM, Sorbonne Université, CNRS (FR)

Présentation en direct sur la chaîne YouTube de l'Ircam https://youtube.com/live/yUAuQaN-ccQ

Résumé : Cette thèse étudie l'impact environnemental des modèles d'apprentissage profond pour la génération audio et vise à mettre le coût de calcul au cœur du processus d'évaluation. En particulier, nous nous concentrons sur différents types de modèles d'apprentissage profond spécialisés dans la synthèse audio de formes d'onde brutes. Ces modèles sont désormais un élément clé des systèmes audio modernes, et leur utilisation a considérablement augmenté ces dernières années. Leur flexibilité et leurs capacités de généralisation en font des outils puissants dans de nombreux contextes, de la synthèse de texte à la parole à la génération audio inconditionnelle. Cependant, ces avantages se font au prix de sessions d'entraînement coûteuses sur de grandes quantités de données, exploitées sur du matériel dédié à forte consommation d'énergie, ce qui entraîne d'importantes émissions de gaz à effet de serre. Les mesures que nous utilisons en tant que communauté scientifique pour évaluer nos travaux sont au cœur de ce problème. Actuellement, les chercheurs en apprentissage profond évaluent leurs travaux principalement sur la base des améliorations de la précision, de la log-vraisemblance, de la reconstruction ou des scores d'opinion, qui occultent tous le coût de calcul des modèles génératifs. Par conséquent, nous proposons d'utiliser une nouvelle méthodologie basée sur l'optimalité de Pareto pour aider la communauté à mieux évaluer leurs travaux tout en ramenant l'empreinte énergétique -- et in fine les émissions de carbone -- au même niveau d'intérêt que la qualité du son.

En poursuivant votre navigation sur ce site, vous acceptez l'utilisation de cookies pour nous permettre de mesurer l'audience, et pour vous permettre de partager du contenu via les boutons de partage de réseaux sociaux. En savoir plus.