Master 2017 2018
Stages de la spécialité SAR
Développement d’un module de Détection / Classification back-end de type Deep Learning pour l’aide à la labellisation d’évènements acoustiques


Site : TOMS (Treatments, Observation and Statistical Methods) du Lab-STICC (CNRS, UMR 6285)
Lieu : ENSTA Bretagne - Pôle STIC/AP 2 rue François Verny 29806 Brest Cedex 9
Encadrant : Dorian Cazau (Lab-STICC, ENSTA Bretagne) : dorian.cazau@ensta-bretagne.fr Joseph Allemandou (JoalTech, Wikimedia Foundation) : joseph.allemandou@gmail.com Charles Vanwynsberghe (Lab-STICC, ENSTA Bretagne) : charles.vanwynsberghe@gmail.com
Dates :du 01/02/2018 au 31/07/2018 (flexible)
Rémunération :montant forfaitaire CNRS (550 euros par mois, soumis à ré-évaluation)
Mots-clés : Parcours ATIAM : Acoustique, Parcours ATIAM : Informatique musicale, Parcours ATIAM : Traitement du signal

Description

Contexte général :

De nos jours, les connaissances et les informations sur le milieu océanique demeurent largement sous-échantillonnées, et certaines zones sont encore peu étudiées (front polaire, abysses). Alors que les méthodes d’acquisition de données d’observation des Océans progressent rapidement (projet ARGO, satellite Sentinelle), des besoins critiques apparaissent sur le traitement de ces données et l’extraction d’informations utiles.

Pour répondre à ces besoins, notre projet vise à développer une plateforme informatique de services et d’expérimentations sur les données d’observation des océans. Nous nous intéressons en particulier à la mesure d’Acoustique Passive Sous-Marine (APSM), qui permet d’observer un spectre très large d’activités océaniques : anthropique (trafic maritime), biologique (mammifères marins) et géologique (conditions météorologiques à la surface de l’océan).

Prochainement déployée sur le supercalculateur Datarmor de l’IFREMER, les premiers services demandés à notre plateforme sont de

  • calculer des features (niveaux de pression acoustique) à partir de gros volume de données brutes d’acoustique (back-end, programmé en Scala / Python dans l’environnement Spark) ;
  • servir ces features en synchronisation avec d’autres données pré-stockées sur la plateforme, en réponse à des requêtes utilisatrices (middleware, programmé en node.js et Python, et utilisation du moteur de recherche ElasticSearch) ;
  • interagir avec ces features à travers une interface web, proposant des outils de labellisation d’évènements acoustiques (front-end, programmé en React).

Contexte stage :

La mesure APSM est par nature non-invasive, autonome sur le long terme, intégrative de nombreuses informations et hautement résolue en temps. Les séries temporelles générées sont ainsi très complexes et riches en information, et l’analyse de leur contenu passe le plus souvent par une identification « à la main » des évènements acoustiques issus des sources prédominantes, en leur assignant des labels. De plus, ces enregistrements acoustiques sont souvent parcimonieux, à savoir que de longues périodes de temps existent sans que la moindre source acoustique ne soit présente, rendant la labellisation manuelle d’autant plus fastidieuse.

Description stage :

L’objectif de ce stage consiste à implémenter un module de Détection / Classification (D/C) d’aide à la labellisation d’évènements acoustiques. Dans un premier temps, cette aide consistera en une pré-segmentation des enregistrements acoustiques pour en extraire des zones d’intérêt potentiels, basée sur de simples règles heuristiques sur le signal (e.g. variation harmonique et/ou énergétique). Dans un second temps, cette aide devra faire des suggestions de labels de sources présentes dans ces zones. Pour cela, des algorithmes de type Deep Learning devront être implémentés et testés comparativement. Au sein de notre plateforme, ces algorithmes dits de back-end seront de préférence implémentés en TensorFlow ou Keras dans l’environnement de traitement parallèle Spark. Ce stage s’intéressera ainsi à l’intégralité de la chaîne de traitements de notre plateforme, avec une exécution du module D / C en back-end qui servira au middleware les intervalles temporels de zone d’intérêt et les suggestions de labels.

Le stagiaire devra être en contact étroit avec les utilisateurs métier (e.g. chercheur en biologie marine) servis par cette aide pour cerner au mieux leurs besoins et collecter leurs retours d’expérience de l’outil. Par exemple, les outils développés devront s’inscrire dans des protocoles de labellisation manuelle existent pour la communication acoustique des grands mammifères.

Le stagiaire aura aussi en charge l’implémentation de codes d’apprentissage de ces algorithmes de Deep Learning à partir des données labellisées issus des différents labellisateurs. Différentes stratégies d’apprentissage en présence de labels incertains et/ou incomplets devront être proposées.

Enfin, si le stagiaire le souhaite, ses travaux pourront être valorisées par une soumission de son module D/C au challenge du workshop DCLDE. (http://sabiod.univ-tln.fr/DCLDE/) qui se tiendra à Paris en juin 2018.

Compétences requises :

  • expériences souhaitées en Deep Learning (modèle CNN, TensorFlow, Keras)
  • compétences et connaissances en programmation (python, Scala, node.js, java) et environnement Big Data (Spark, Hadoop, ElasticSearch) seraient un plus
  • bonne capacité pour le travail collaboratif

Bibliographie

Codes de Deep Learning : https://mabelvj.github.io/capstone_... https://github.com/TarinZ/whale-detector

Environnements Deep Learning : https://keras.io/ https://www.tensorflow.org/