Master 2015 2016
Stages de la spécialité SAR
Musaicing multi-sources par NMF-Deconvolutive avec bases pré-apprise sur une collection musicale


Site : www.ircam.fr
Lieu : IRCAM - Equipe Analyse/Synthèse des sons
Encadrant : Geoffroy Peeters
Dates :01/03/2015 au 31/07/2015
Rémunération :554,4 Euro/mois + Ticket Repas
Mots-clés : Parcours ATIAM : Informatique musicale, Parcours ATIAM : Traitement du signal

Description

Ce stage se situe dans le contexte du music mosaicing (musaicing). Le musaicing [Zils, Pachet,2001] vise a reproduire un morceau de musique « cible » par concaténation temporelle de cours extraits audio (samples) issus d’une collection de morceaux. Ces extraits sont choisis pour avoir des propriétés acoustiques similaires (valeurs similaires de descripteurs audio) aux différents instants temporelles du morceau cible et ainsi reproduire le mieux possible l’évolution temporelle de ses propriétés acoustiques. Ce mode de synthèse est dit « concaténatif » [Schwarz 2006]. Cette synthèse est cependant limitée par le fait qu’un seul échantillon peut être utilisé à chaque instant. Ce stage se propose d’étudier une toute nouvelle méthode de synthèse appelée musaicing mutli-échantillons ou multi-sources. Nous proposons d’utiliser les méthodes de factorisation en matrice non-négative (NMF [Lee-1999]), plus précisément son extension à la déconvolution [Smaradgis-2004] pour permettre un musaicing multi-échantillon ou multi-source. Dans son utilisation habituelle, la NMF est utilisée pour séparer un signal audio musical en ses différentes sources. Une matrice de spectrogramme observée est ainsi décomposée itérativement comme le produit d’une matrice de vecteurs de bases (représentant les spectres des différentes sources) et d’une matrice de vecteurs d’activations (représentant l’utilisation de chacune des bases au cours du temps afin de reproduire le spectre cible). Dans ce cas, les bases et les activations sont issues du même spectrogramme observé. Récemment, [Drieger et al. 2015] ont proposé l’utilisation d’une NMF contrainte pour reproduire un morceau de musique en utilisant une collection d’échantillons (sons d’abeilles, ou sons de bruits de moteurs). Pour cela, les bases de la décomposition sont pré-défines par les sons d’échantillons et seules les activations sont apprises. Dans ce stage, nous proposons d’étendre cette méthode pour le musaicing. Pour cela, nous proposons de pré-apprendre les bases sur une collection de musique par NMF-Deconvolutive. Etant donné cet ensemble de templates de sources pré-appris, le musaicing multi-source consiste à apprendre les meilleures activations temporelles pour reproduire le morceau cible.

Bibliographie

D. D. Lee and H. S. Seung. Learning the parts of objects by non-negative matrix factorization. Nature, 401(6755):788–791, 1999.

J. Driedger, T. Pratzlich, and M. Meinard. Let it bee – towards nmf-inspired audio mosaicing. In Proc. of ISMIR (International Society for Music Information Retrieval), Malaga, Spain, 2015.

P. Smaragdis. Non-negative matrix factor deconvolution ; extraction of multiple sound sources from monophonic inputs. In Fifth International Conference, ICA 2004, Granada, Spain, 2004.

D. Schwarz, G. Beller, B. Verbrugghe, and B. S. Real-time corpus-based concatenative synthesis with catart. In Proc. of DAFx (International Conference on Digital Audio Effects), Montreal, Canada, 2006.

A. Zils and F. Pachet. Musical mosaicing. In Proc. of DAFx (International Conference on Digital Audio Effects), Limerick, Ireland, 2001.