Passer à la navigation principale Passer à la recherche Passer au contenu principal

Music structure boundaries estimation using multiple self-similarity matrices as input depth of convolutional neural networks

Résultats de recherche: Contribution à une conférencePapierRevue par des pairs

Résumé

In this paper, we propose a new representation as input of a Convolutional Neural Network with the goal of estimating music structure boundaries. For this task, previous works used a network performing the late-fusion of a Mel-scaled log-magnitude spectrogram and a self-similarity-lag-matrix. We propose here to use the squaresubmatrices centered on the main diagonals of several self-similarity-matrices, each one representing a different audio descriptors. We propose to combine them using the depth of the input layer. We show that this representation improves the results over the use of the self-similarity-lag-matrix. We also show that using the depth of the input layer provide a convenient way for early fusion of audio representations.

langue originaleAnglais
Pages210-217
Nombre de pages8
étatPublié - 1 janv. 2017
Evénement3rd AES International Conference on Semantic Audio 2017 - Erlangen, Allemagne
Durée: 22 juin 201724 juin 2017

Une conférence

Une conférence3rd AES International Conference on Semantic Audio 2017
Pays/TerritoireAllemagne
La villeErlangen
période22/06/1724/06/17

Empreinte digitale

Examiner les sujets de recherche de « Music structure boundaries estimation using multiple self-similarity matrices as input depth of convolutional neural networks ». Ensemble, ils forment une empreinte digitale unique.

Contient cette citation