Titre :

App :

Model :

Id :

Fields :

Soutenance de thèse d'Alice COHEN-HADRIA
Éditer

Recherche
these

Début :

Fin :

Location :

lun 28 octobre 2019,
14h30- 17h00
Ircam, salle Stravinsky

Contenu :
<div class=""> <div class=""> <div class=""> <div class=""><span class=""><b class="">Lundi  28  octobre  2019        <span class="Apple-tab-span"> </span>à  14H30</b></span></div> <div class=""><span class="">Ircam  - salle Stravinsky</span></div> <div class=""><span class=""> </span></div> <div class=""><span class=""><b class=""><span size="4"> </span></b></span></div> <div class=""><span class=""><b class="">Alice Cohen-Hadria</b> <span size="4">soutiendra en anglais sa thèse de doctorat réalisée au sein </span></span><span size="4">de l’équipe Analyse et synthèse des sons (STMS - CNRS/Ircam/Sorbonne Université), intitulée :</span></div> <div class=""><span class=""> </span></div> <div class=""> <div class=""><span class=""><b class="">"Music and Speech Description Estimation with Deep Learning »</b></span></div> <div class=""><span class=""> </span></div> <div class=""></div> </div> <div class=""><span class="">devant le jury composé de :</span></div> <div class=""></div> <div class="">rapporteurs :</div> <div class=""><span class="">- Emmanuel Vincent / INRIA Nancy<br class="">- Simon Dixon / Queen Mary University, Londres</span></div> <div class=""><span class=""><br class="">- Isabelle Bloch / Télécom Paris, Paris<br class="">- Jimena Royo Letelier / Deezer, Paris<br class="">- Carlos Agon / Université Paris VI, Paris<br class="">- Juan Pablo Bello / New York University, New York<br class="">- Axel Roebel / IRCAM, Paris<br class="">- Geoffroy Peeters / Télécom Paris, Paris</span></div> <div class=""><span class=""> </span></div> <span class=""><span><br class=""></span></span></div> <div class=""><span class=""><span>Abstract:</span></span></div> <div class=""><span class=""><span>In Music Information Retrieval (MIR) and voice processing, the use of machine learning tools has become in the last few years more and more standard. Especially, many state-of-the-art systems now rely on the use of Neural Networks.In this thesis, we propose a wide overview of four different MIR and voice processing tasks, using systems built with neural networks. More precisely,  we will use convolutional neural networks, an image designed class neural networks.<br class=""><br class="">The first task presented is music structure estimation. For this task, we will show how the choice of input representation can be critical, when using convolutional neural networks. <br class="">The second task is singing voice detection. We will present how to use a voice detection system to automatically align lyrics and audio tracks.With this alignment mechanism, we have created the largest synchronized audio and speech data set, called DALI. <br class="">Singing voice separation is the third task.<br class="">For this task, we will present a data augmentation strategy, a way to significantly increase the size of a training set.<br class="">Finally, we tackle voice anonymization. We will present an anonymization method that both obfuscate content and mask the speaker identity, while preserving the acoustic scene.</span></span></div> <div class=""><span class=""><span> </span></span></div> <div class=""><span class=""><span class=""><span>-=-=-=-=-=-=-=-=-=-=-=-=-=-=-=-=-=-=-=-=-=-=-</span></span></span></div> <div class=""><span class=""><span> </span></span></div> <div class=""><span class=""><span> </span></span></div> <div class=""><span class=""><span size="4">"Estimations de descriptions musicales et sonores par apprentissage profond »</span></span></div> <div class=""><span class=""><span> </span></span></div> <div class=""><span class=""><span>Résumé :</span></span></div> <div class=""><span class=""><span>En Music Information Retrieval (MIR, ou recherche d'information musicales) et en traitement de la parole, les outils d’apprentissage automatique deviennent de plus en plus standard.<br class="">En particulier, de nombreux systèmes état de l'art reposent désormais sur l'utilisation des réseaux de neurones.<br class=""><br class="">Nous présenterons le travail effectué pour résoudre quatre tâches de traitement de la musique ou de la parole, en utilisant de réseaux de neurones<br class="">Plus précisément, nous utiliserons des réseaux de neurones convolutionnels, dont l'utilisation a permis de nombreuses avancées notamment en traitement d'image.<br class=""><br class="">La première tâche présentée sera l'estimation de structure musicale. Pour cette tâche, nous montrerons à quel point le choix de la représentation en entrée des réseaux de neurones convolutionnels peut être critique pour l’estimation de structure.<br class="">La deuxième tâche présentée sera la détection de la voix chantée. Dans cette partie, nous expliquerons comment utiliser un modèle de détection de la voix afin d’aligner automatiquement des paroles et des pistes audio.<br class="">La séparation de voix chantée sera  la troisième tâche présentée. Pour cette tâche, nous présenterons une stratégie d’augmentation de données, un moyen d’augmenter considérablement la taille d’un ensemble d’entraînement.<br class="">Enfin, nous aborderons l'anonymisation vocale dans des enregistrements urbains. Nous présenterons une méthode d'anonymisation qui masque le contenu et floute l'identité du locuteur, tout en préservant la scène acoustique restante.</span></span></div> <h6><span class=""><span> </span></span></h6> </div> </div> <h6>La soutenance de la thèse est à écouter sur : <span> </span><a href="https://medias.ircam.fr/x96dd6f">https://medias.ircam.fr/x96dd6f</a></h6>

Lundi 28 octobre 2019 à 14H30

Ircam - salle Stravinsky

Alice Cohen-Hadria soutiendra en anglais sa thèse de doctorat réalisée au sein de l’équipe Analyse et synthèse des sons (STMS - CNRS/Ircam/Sorbonne Université), intitulée :

"Music and Speech Description Estimation with Deep Learning »

devant le jury composé de :

rapporteurs :

- Emmanuel Vincent / INRIA Nancy
- Simon Dixon / Queen Mary University, Londres

- Isabelle Bloch / Télécom Paris, Paris
- Jimena Royo Letelier / Deezer, Paris
- Carlos Agon / Université Paris VI, Paris
- Juan Pablo Bello / New York University, New York
- Axel Roebel / IRCAM, Paris
- Geoffroy Peeters / Télécom Paris, Paris

Abstract:

In Music Information Retrieval (MIR) and voice processing, the use of machine learning tools has become in the last few years more and more standard. Especially, many state-of-the-art systems now rely on the use of Neural Networks.In this thesis, we propose a wide overview of four different MIR and voice processing tasks, using systems built with neural networks. More precisely, we will use convolutional neural networks, an image designed class neural networks.

The first task presented is music structure estimation. For this task, we will show how the choice of input representation can be critical, when using convolutional neural networks.
The second task is singing voice detection. We will present how to use a voice detection system to automatically align lyrics and audio tracks.With this alignment mechanism, we have created the largest synchronized audio and speech data set, called DALI.
Singing voice separation is the third task.
For this task, we will present a data augmentation strategy, a way to significantly increase the size of a training set.
Finally, we tackle voice anonymization. We will present an anonymization method that both obfuscate content and mask the speaker identity, while preserving the acoustic scene.

-=-=-=-=-=-=-=-=-=-=-=-=-=-=-=-=-=-=-=-=-=-=-

"Estimations de descriptions musicales et sonores par apprentissage profond »

Résumé :

En Music Information Retrieval (MIR, ou recherche d'information musicales) et en traitement de la parole, les outils d’apprentissage automatique deviennent de plus en plus standard.
En particulier, de nombreux systèmes état de l'art reposent désormais sur l'utilisation des réseaux de neurones.

Nous présenterons le travail effectué pour résoudre quatre tâches de traitement de la musique ou de la parole, en utilisant de réseaux de neurones
Plus précisément, nous utiliserons des réseaux de neurones convolutionnels, dont l'utilisation a permis de nombreuses avancées notamment en traitement d'image.

La première tâche présentée sera l'estimation de structure musicale. Pour cette tâche, nous montrerons à quel point le choix de la représentation en entrée des réseaux de neurones convolutionnels peut être critique pour l’estimation de structure.
La deuxième tâche présentée sera la détection de la voix chantée. Dans cette partie, nous expliquerons comment utiliser un modèle de détection de la voix afin d’aligner automatiquement des paroles et des pistes audio.
La séparation de voix chantée sera la troisième tâche présentée. Pour cette tâche, nous présenterons une stratégie d’augmentation de données, un moyen d’augmenter considérablement la taille d’un ensemble d’entraînement.
Enfin, nous aborderons l'anonymisation vocale dans des enregistrements urbains. Nous présenterons une méthode d'anonymisation qui masque le contenu et floute l'identité du locuteur, tout en préservant la scène acoustique restante.

La soutenance de la thèse est à écouter sur : https://medias.ircam.fr/x96dd6f

Éditer

Titre : App : Model : Id : Fields : Soutenance de thèse d'Alice COHEN-HADRIA Éditer

La soutenance de la thèse est à écouter sur : https://medias.ircam.fr/x96dd6f

Titre :

App :

Model :

Id :

Fields :

Soutenance de thèse d'Alice COHEN-HADRIA
Éditer