MERCREDIS DE STMS - Sascha HORNAUER

  • Recherche
  • Séminaires

Sascha HORNAUER, ingénieur de recherche au CAOR de Mines Paritech, vient échanger autour des "3D-Scene Reconstruction based on Audio-Visual Data".

Ce séminaire s'est tenu en anglais.

Pour le (re)voir :

résumé :

Chercheur au Centre de robotique CAOR, Mines Paristech.
Après mon diplôme à l'Université d'Oldenburg, Allemagne, sur la gestion de trajectoires pour les navires autonomes, j'ai fait un postdoc à l'UC Berkeley (Computer Vision) sous la direction de Stella Yu. Là, je me suis orienté dans la recherche d’inclure le son afin de mieux résoudre les tâches typiques de la vision. Mes efforts portent maintenant sur l'utilisation du son pour la navigation robotique lorsque le capteur visuel est défaillant. Toujours à Berkeley, j'avais ajouté un microphone binaural et un capteur de profondeur RVB à un robot afin de recueillir un ensemble de données audiovisuelles. J'ai ensuite prédit des informations sur la profondeur approximative à partir d’un son stéréo en utilisant le principe d'écholocation.

Dans le but de développer un capteur sonore robuste, j'ai réalisé l'intérêt de disposer de réponses impulsionnelles géométriques correctes, qui ne sont pas seulement plausibles pour un être humain mais contiennent des informations spatiales précises. Avec ces RIRs, je pouvais rapidement prototyper des sons de sondage, comme les balayages de fréquence que les chauves-souris utilisent pour visualiser les pièces.
Générer des RIRs plausibles est un nouvel axe de recherche dans le domaine de la vision par ordinateur qui vise à améliorer, par exemple, les arrière-plans virtuels dans les logiciels de chat vidéo. L'utilisation d'images et de vidéos pour générer des RIRs visuellement fondés, qui sont également géométriquement plausibles et qui, idéalement, peuvent être générés pour chaque position individuelle au sein d'un même espace, sont, je pense, à la portée des méthodes actuelles et j'aimerais discuter de la façon de collaborer potentiellement sur ce sujet ou un sujet similaire, et aussi pour améliorer l'expérience dans les cas d'utilisation de la réalité augmentée.

quelques références d'articles :

Christensen, Jesper Haahr, Sascha Hornauer, and X. Yu Stella. "Batvision: Learning to see 3d spatial layout with two ears." 2020 IEEE International Conference on Robotics and Automation (ICRA). IEEE, 2020.
Christensen, Jesper Haahr, Sascha Hornauer, and Stella Yu. "BatVision with GCC-PHAT Features for Better Sound to Vision Predictions." Sight & Sound 2020 (2020).
Hornauer, Sascha, et al. "Unsupervised Discriminative Learning of Sounds for Audio Event Classification." ICASSP 2021-2021 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). IEEE, 2021.

En poursuivant votre navigation sur ce site, vous acceptez l'utilisation de cookies pour nous permettre de mesurer l'audience, et pour vous permettre de partager du contenu via les boutons de partage de réseaux sociaux. En savoir plus.