Master 2013 2014
Stages de la spécialité SAR
Reconnaissance vocale de personnalités du paysage audiovisuel français


Lieu :Institut national de l'audiovisuel (Ina), département de la Recherche, Bry-sur-Marne
Encadrant : Félicien Vallet, Ingénieur de Recherche (Ina) : http://www.ina-expert.com/chercheurs/vallet-felicien Sylvain Meignier, Maître de Conférence (LIUM) : http://www-lium.univ-lemans.fr/~meignier/home.php
Dates :01/02/2014 au 31/07/2014
Rémunération :oui
Mots-clés : Parcours ATIAM : Acoustique, Parcours ATIAM : Traitement du signal

Description

Contexte :

Avec la prolifération de documents audiovisuels et numériques issus des productions télévisuelles, radiophoniques mais également amateur (via les sites internet de partage de type YouTube ou Dailymotion), les archivistes professionnels comme l’Institut national de l’audiovisuel (Ina) ont de plus en plus besoin d’outils d’indexation efficaces. En effet, les missions de ces archivistes étant de conserver mais également de documenter et valoriser les contenus, les besoins de méthodes de structuration automatique se font grandement ressentir.

Plus de cinq millions d’heures de télévision et radio sont conservées par l’Ina qui a également comme mission de valoriser ces archives. Cette valorisation peut prendre différentes formes. Ainsi, l’Ina propose près de quarante mille heures d’archives en ligne sur le site Ina.fr à destination du grand public. L’Ina a également comme mission la vente d’extraits d’archives aux professionnels du monde des média (réalisateurs TV, journalistes). Enfin, au titre du dépôt légal, cent vingt chaînes de télévision et radio sont captées de façon continue.

Se mêlent donc des missions à forte valeur patrimoniale et d’importants défis technologiques : problèmes de conservation et de dégradation des supports, numérisation massive pour sauvegarde, indexation des documents, captation en direct, etc.

Objectif :

Dans une perspective d’indexation automatique des contenus audiovisuels, les techniques de reconnaissance vocale peuvent être d’une grande utilité. La reconnaissance vocale est définie comme étant un processus de prise de décision utilisant des caractéristiques de la parole, afin de déterminer si une personne en particulier est à l’origine d’une énonciation. Cette prise de décision porte sur une éventuelle familiarité entre la voix cible et les voix de référence.

Lors de ce stage, on s’intéressera en particulier à l’identification vocale qui peut être définie comme un processus de comparaison entre une voix inconnue et un ensemble de voix appartenant à une population de référence. Il s’agit donc de comparer la voix incriminée aux voix de référence et de déterminer si cette voix a pu être produite par une des personnes appartenant à la base de données pertinente [1].

Récemment, un premier dictionnaire des voix de personnalités du paysage audiovisuel français (PAF) a été crée de façon automatisée à partir de données Ina [2]. Celui-ci comprend des interventions orales de plus de 4 000 personnalités (présentateurs, journalistes, hommes politiques, artistes, intellectuels, sportifs, etc.) passées à la TV au cours des deux dernières années.

L’objectif de ce stage sera de mesurer les performances obtenues pour la reconnaissance de locuteurs avec un système état de l’art (une histoire de l’évolution des techniques est proposée dans l’article [3]). Parmi les outils mis à contribution, nous utiliserons les outils LIUM_SpkDiarization (http://www-lium.univ-lemans.fr/diar...) mais surtout la plateforme de reconnaissance biométrique ALIZE (http://mistral.univ-avignon.fr/cont...). Une description de cette dernière est disponible dans l’article [5]. Les tutoriaux ALIZE illustrant différentes techniques de reconnaissance du locuteur serviront de point de départ du travail de ce stage.

Pré-requis :

Programmation : Java, C++, Matlab, (OS Linux / Windows). Connaissances : Traitement de la parole et du signal, Acoustique, Reconnaissance des formes, Statistique

Encadrement :

Le stage se déroulera dans les locaux de l’Ina (Bry-sur-Marne) sous la direction de Félicien Vallet, ingénieur de recherche. Un co-encadrement sera assuré par Sylvain Meignier, maître de conférences au LIUM (Laboratoire d’Informatique de l’Université du Maine, Le Mans).

Bibliographie

[1] IRISA, De la Reconnaissance automatique du locuteur à la signature vocale, http://interstices.info/jcms/c_9758....

[2] François Salmon, Félicien Vallet, An Effortless Way to Create Large-Scale Datasets for Famous Speakers, soumis à LREC 2014.

[3] Tomi Kinnunen and Haizhou Li, An Overview of Text-Independent Speaker Recognition : from Features to Supervectors, Speech Communication, 2009.

[4] Sylvain Meignier, Teva Merlin, LIUM_SpkDiarization : An Open Source Toolkit For Diarization, CMU SPUD Workshop, Dallas (Texas, USA), 2010 (http://lium3.univ-lemans.fr/diariza...).

[5] Eric Charton, Anthony Larcher, Christophe Lévy, Jean-François Bonastre, Mistral : open source biometric platform, ACM Symposium on Applied Computing, 2010.