Classificação automática de música utilizando aprendizagem de padrões de votação

Shinohara, Vítor Yudi

Use este identificador para citar ou linkar para este item: http://repositorio.utfpr.edu.br/jspui/handle/1/6008

Título:	Classificação automática de música utilizando aprendizagem de padrões de votação
Título(s) alternativo(s):	Automatic classification of music using voting pattern learning
Autor(es):	Shinohara, Vítor Yudi
Orientador(es):	Hübner, Rodrigo
Palavras-chave:	Aprendizado do computador Música Redes neurais (Computação) Machine learning Music Neural networks (Computer science)
Data do documento:	21-Nov-2018
Editor:	Universidade Tecnológica Federal do Paraná
Câmpus:	Campo Mourao
Citação:	SHINOHARA, Vítor Yudi. Classificação automática de música utilizando aprendizagem de padrões de votação. 2018. 51 f. Trabalho de Conclusão de Curso (Graduação) – Universidade Tecnológica Federal do Paraná, Campo Mourão, 2018.
Resumo:	Pesquisas na área de Music Information Retrieval (MIR) tem proposto métodos de classificação automática de gêneros musicais usando aprendizagem de máquina. Neste contexto surgiram duas abordagens para representação de faixas de áudio: Single Vector Representation (SVR), compostas por apenas um vetor de características e Multiple Vector Representation (MVR), que usa múltiplos vetores na descrição. Para a classificação usando MVR, a faixa é dividida em trechos, denominados texturas, e todos as texturas são rotuladas com o gênero da faixa e apresentadas ao modelo na fase de treino. Para a classificação, cada textura é classificado independentemente, logo, deve se aplicar uma técnica de votação para atribuir um rótulo à faixa completa. As técnicas utilizadas para inferir um rótulo à faixa quando se tem apenas os votos de cada textura são limitadas à votação majoritária simples. Para o uso da votação majoritária ponderada é necessário uma distribuição de probabilidades de cada rótulo para cada textura, cujo custo computacional para estimar é usualmente elevado, e portanto nem sempre as probabilidades estão disponíveis. São propostos dois métodos de combinação de votos alternativos ao voto majoritário simples. Ambos métodos utilizam aprendizagem de padrões de votação onde apenas os votos de texturas são conhecidos, ao invés de distribuições de probabilidade. Os votos foram combinados de duas maneiras: Composição de um histograma de votos e composição de um vetor de sequência de votos. Os histogramas foram submetidos aos classificadores K-Vizinhos Mais Próximos (K-NN) e Máquina de Vetores de Suporte (SVM). Os vetores de sequência de votos foram submetidos aos classificadores Hidden Markov Model (HMM) e duas arquiteturas de redes neurais recorrentes. Foram computados a acurácia e o desvio padrão da acurácia da classificação em gêneros musicais obtidos pelos dois métodos propostos. O desempenho dos métodos propostos foram comparados com os resultados obtidos pelo voto majoritário simples. O teste estatístico T de Student foi usado para avaliar quais foram os ganhos estatisticamente significativos. Os resultados mostram que a aprendizagem de padrões de votação é relevante e pode trazer ganhos estatisticamente significativos em alguns conjuntos de dados.
Abstract:	Research in MIR have proposed many automatic genre classification systems using machine learning. In this context, two main approaches have been used to describe music tracks: Single Vector Representation (SVR), which uses a single vector, and Multiple Vector Representation (MVR), which uses multiple vectors. For training MVR models, the track is divided into auditory textures, which are all labeled with the ground truth and presented independently during training. When testing, each texture is classified independently, and then some voting scheme must be used to assign a final label to the entire track. When only the votes are available for each texture, the only option available to assign a final label to the track is majority voting. Other techniques which rely on class probabilities for each texture requires those probabilities to be computed by the classifier during prediction. These probabilities are costly to compute, thus are not always available. We present two novel voting schemes as alternatives to majority voting. Both methods use voting pattern learning where only the predicted class of each texture is known, not class probability distributions. The votes were combined in two different ways: a voting histogram and a vote sequence vector. The histograms were used as feature vectors for both K-Vizinhos Mais Próximos (K-NN) and Máquina de Vetores de Suporte (SVM) classifiers. The vote sequence vectors were used as inputs to sequence modelling with Hidden Markov Model (HMM) and two recurrent neural network architectures. The accuracy and accuracy standard deviation of the classification were computed for both proposed methods. The performance of both were compared to the results of the majority voting technique. Student’s T-Test was used to evaluate which gains were statistically significant. The results show that voting pattern learning is relevant and can provide statistically significant performance gains in some data sets.
URI:	http://repositorio.utfpr.edu.br/jspui/handle/1/6008
Aparece nas coleções:	CM - Ciência da Computação

Arquivos associados a este item:

Arquivo	Descrição	Tamanho	Formato
classificacaoautomaticamusica.pdf		1,27 MB	Adobe PDF	Visualizar/Abrir

Mostrar registro completo do item Recomendar este item Visualizar estatísticas