Master 2013 2014
Stages de la spécialité SAR
Représentation adaptative et traitement temps-fréquence du son


Site :IRCAM - Equipe Analyse/Synthèse des Sons
Lieu :IRCAM - Equipe Analyse/Synthèse des Sons 1 place Igor Stravinsky 75004 Paris
Encadrant : Marco Liuni, Axel Roebel
Dates :du 01/03/2014 au 31/07/2014
Rémunération :430€
Mots-clés : Parcours ATIAM : Traitement du signal

Description

Introduction

Les techniques de traitement du son trouvent des applications dans un vaste domaine de recherches et de projets industriels : ces applications peuvent se focaliser sur des aspects liés à l’analyse, la synthèse, ou la transformation d’un son, ainsi qu’à leurs possibles combinaisons. La qualité des méthodes d’analyse du signal basées sur une transformée temps-fréquence est largement influencée par le système de fonctions utilisé pour la décomposition. Les méthodes qui se basent sur un seul repère de fonctions atomiques présentent d’importantes limites : un repère de Gabor [Grochenig, 2001] impose une résolution fixe pour tout le plan temps-fréquence, alors qu’un repère d’ondelettes [Mallat, 2009] implique une variation strictement déterminée de la résolution. De plus, les paramètres fondamentaux d’analyse doivent être fixés a priori,en fonction des caractéristiques du signal et de la représentation souhaitée. Des analyses avec une résolution non optimale déterminent la dégradation, et parfois la destruction partielle, de l’information sur le signal original, ce qui conditionne tout type de traitement ultérieur. Ce problème concerne une large partie des applications sur le signal, tant en image qu’en audio, et soulève également des questions d’ordre général d’un intérêt mathématique élevé.

Description du stage

Ce stage se concentre sur l’adaptation automatique de la résolution temps-fréquence pour l’analyse et la re-synthèse du son : la possibilité de choisir localement et automatiquement la résolution plus appropriée pour l’analyse permet de concevoir de nouvelles technologies de traitement du son, et d’améliorer la qualité des transformations possibles. Des travaux récents ont permis de définir des transformées temps-fréquence inversibles avec résolution variable en temps ou en fréquence, en exploitant le concept de repère de Gabor non-stationnaire [Balazs et al., 2011] : extension de la transformée de Fourier à court terme (TFCT) avec adaptation de la fenêtre en temps [Liuni et al., 2011, Balazs et al., 2011], transformée constant Q [Holighaus et al., 2013], transformée ERBlet [Necciari et al., 2013].

Le travail en [Liuni et al., 2013] introduit la possibilité d’étendre la TFCT avec un choix de la fenêtre qui peut varier en temps et en fréquence : cela permet d’obtenir analyses avec une très haute résolution des composantes locales, même en présence de signaux polyphoniques complexes. Les objectifs de ce stage se concentrent sur deux extensions principales de cette méthode :

* un travail plus théorique sur la mesure de concentration du spectrogramme utilisée, l’entropie de Rényi [Baraniuk et al., 2001], orienté à une généralisation de la procédure d’adaptation automatique ;

* un travail plus appliqué sur la définition de transformations adaptatives du son de haute qualité, en étendant les techniques du vocodeur de phase [Liuni and Roebel, 2013] dans le cadre des transformées basées sur les repères de Gabor non-stationnaires.

Pré requis

Bonne connaissance en analyse temps-fréquence ; bonne connaissance de Matlab ; des connaissances générales sur la transformation du signal sonore.

Contexte local

L’équipe ≪Analyse et Synthèse de Sons≫ de l’IRCAM poursuit des recherches portant sur l’analyse des signaux audio à des fins de transformation, de transcription et d’indexation. L’analyse et la transformation adaptative sont un des sujets centraux étudiés dans l’équipe. Plusieurs algorithmes pour la transformation du son ont été développés dans l’équipe : en particulier AudioSculpt, un des logiciels d’analyse et d’élaboration spectrale les plus appréciés par la communauté musicale, et SuperVP, une bibliothèque et un exécutable pour le traitement, la transformation et l’analyse des sons en temps différé et en temps réel.

Apports du stage

Contexte applicatif stimulant, mise en œuvre pratique d’algorithmes, recherche pour l’amélioration et extension des algorithmes, éventuellement collaboration avec des artistes, travail collaboratif au sein d’une équipe dynamique. Stage pouvant éventuellement déboucher sur une thèse de doctorat.

Bibliographie

[Balazs et al., 2011] Balazs, P., Dorfler, M., Jaillet, F., Hollighaus, N., and Velasco, G. (2011). Theory, implementation and applications of nonstationary Gabor frames. Journal of Computational and Applied Mathematics, 236(6):1481–1496.

[Baraniuk et al., 2001] Baraniuk, R., Flandrin, P., Janssen, A., and Michel, O. (2001). Measuring Time-Frequency Information Content Using the Rényi Entropies. IEEE Trans. Info. Theory, 47(4):1391–1409.

[Grochenig, 2001] Grochenig, K. (2001). Foundations of Time-Frequency Analysis. Birkhauser Boston.

[Holighaus et al., 2013] Holighaus, N., Dorfler, M., Velasco, G. A., and Grill, T. (2013). A framework for invertible, real-time constant-Q trans- forms. IEEE Trans. Audio Speech Lang. Process., 21(4):775 –785.

[Liuni et al., 2011] Liuni, M., Roebel, A., Romito, M., and Rodet, X. (2011). An entropy based method for local time-adaptation of the spectrogram. In Ystad, S., Aramaki, M., Kronland-Martinet, R., and Jensen, K., editors, Exploring Music Contents, volume 6684 of Lecture Notes in Computer Science, pages 60–75. Springer Berlin / Heidelberg.

[Liuni and Roebel, 2013] Liuni, M. and Roebel, A. (2013). Phase vocoder and beyond. Musica/Tecnologia, 7:73–89.

[Liuni et al., 2013] Liuni, M., Roebel, A., Matusiak, E., Romito, M., and Rodet, X. (2013). Automatic adaptation of the time-frequency resolution for sound analysis and re-synthesis. Audio, Speech, and Language Processing, IEEE Transactions on, 21(5):959–970.

[Mallat, 2009] Mallat, S. (2009). A Wavelet Tour of Signal Processing. The Sparse Way. Academic Press, 3rd edition edition.

[Necciari et al., 2013] Necciari, T., Balazs, P., Holighaus, N., and Sonder- gaard, P. (2013). The erblet transform : An auditory-based time-frequency representation with perfect reconstruction. In Acoustics, Speech and Signal Processing (ICASSP), 2013 IEEE International Conference on, pages 498–502. IEEE.