Master 2015 2016
Stages de la spécialité SAR
Classification automatique du genre de films à partir d’informations multimodales


Site : Equipe SAMoVA
Lieu : Institut de Recherche en Informatique de Toulouse, Toulouse, France
Encadrant : Thomas Pellegrini email: thomas.pellegrini@irit.fr Site Web: www.irit.fr/~Thomas.Pellegrini/
Dates :du 01/02/2016 au 30/06/2016
Rémunération :554,50
Mots-clés : Parcours ATIAM : Informatique musicale, Parcours ATIAM : Traitement du signal

Description

Le sujet de ce stage porte sur la classification automatique du genre de films cinématographiques à partir d’informations multi-modales. Il s’agit d’une tâche de classification multi-label ou multi-classe puisque plusieurs genres sont généralement attribués à un film donné. Les données d’entrée du système de classification seront extraites des bandes annonces des films : audio (parole et musique) et vidéo. Des paramètres audio bas niveau seront la première source d’information. Les affiches des films seront très vraisemblablement utilisées pour compléter les informations de la modalité sonore. Enfin, des « tags » caractérisant l’émotion censée être générée par la musique de la bande annonce seront également utilisés comme paramètre d’entrée. L’originalité du sujet par rapport aux travaux de la littérature sur la détection de genre de vidéos repose sur l’usage de tags des émotions prédites par un système automatique basé sur l’audio.

Le défi scientifique du stage est double :

1. mettre en œuvre des techniques d’apprentissage dédiées à la classification multi-classe, 2. comparer une fusion en amont des modalités (simple concaténation des paramètres bas-niveau des diverses modalités, early fusion) à une fusion en aval (un classifieur par modalité et les scores finaux sont combinés, late fusion).

Les approches envisagées sont : un classifieur bayésien naïf comme système de base, et des réseaux de neurones éventuellement profonds (DNN) et/ou convolutionnels (CNN).

Ce sujet est directement lié à une compétition internationale qui aura probablement lieu en 2016 par notre équipe, au sein du Workshop annuel « MediaEval ». Une proposition est en cours et si elle est acceptée, le stagiaire aura un rôle important et participera activement à son bon déroulement (coordination des participants, constitution du corpus, extraction de paramètres, évaluation des soumissions des participants, etc.).

Bibliographie

vasic-Kos, M. ; Pobar, M. ; Mikec, L., "Movie posters classification into genres based on low-level features," in Information and Communication Technology, Electronics and Microelectronics (MIPRO), 2014 37th International Convention on , vol., no., pp.1198-1203, 26-30 May 2014

Rasheed, Z. ; Sheikh, Y. ; Shah, M., "On the use of computable features for film classification," in Circuits and Systems for Video Technology, IEEE Transactions on , vol.15, no.1, pp.52-64, Jan. 2005

Rasheed, Z. ; Shah, M., "Movie genre classification by exploiting audio-visual features of previews," in Pattern Recognition, 2002. Proceedings. 16th International Conference on , vol.2, no., pp.1086-1089 vol.2, 2002

Won-Dong Jang ; Chulwoo Lee ; Jae-Young Sim ; Chang-Su Kim, "Automatic Video Genre Classification Using Multiple SVM Votes," in Pattern Recognition (ICPR), 2014 22nd International Conference on , vol., no., pp.2655-2660, 24-28 Aug. 2014

[5] S. Stober, D.J. Cameron, J.A. Grahn, Does the beat go on ? : identifying rhythms from brain waves recorded after their auditory presentation, in Proc. Audio Mostly, 2014, Aalborg [6] I.J. Goodfellow et al, Generative Adversarial Networks, (submitted) URL : http://arxiv.org/abs/1406.2661