Use este identificador para citar ou linkar para este item: http://repositorio.utfpr.edu.br/jspui/handle/1/31261
Título: Classificação automática de categoria de cenas acústicas com redução de dimensionalidade baseada em projeções lineares e seleção de instâncias
Título(s) alternativo(s): Dimensionality reduction based on linear projections and instance selection for automatic acoustic scene category classification
Autor(es): Golom, Marcos Vinicius
Orientador(es): Foleiss, Juliano Henrique
Palavras-chave: Aprendizado do computador
Processamento de sinais
Análise de componentes principais
Machine learning
Signal processing
Principal components analysis
Data do documento: 30-Nov-2021
Editor: Universidade Tecnológica Federal do Paraná
Câmpus: Campo Mourao
Citação: GOLOM, Marcos Vinicius. Classificação automática de categoria de cenas acústicas com redução de dimensionalidade baseada em projeções lineares e seleção de instâncias. 2021. Trabalho de Conclusão de Curso (Bacharelado em Ciência da Computação) - Universidade Tecnológica Federal do Paraná, Campo Mourão, 2021.
Resumo: A classificação de cenas acústicas consiste na tarefa de reconhecer o ambiente que um áudio foi gravado a partir do seu sinal do áudio. A literatura mostra que métodos baseados em aprendizagem profunda apresentam ótimos resultados. Entretanto, esses métodos possuem custo computacional elevado, inviabilizando seu uso em dispositivos limitados. Para este trabalho foi utilizado o conjunto de dados disponibilizado pela DCASE para o desafio Low-Complexity Acoustic Scene Classification de 2020. Este desafio propõe um limite de 500kb para armazenar os parâmetros do modelo. Um baseline também foi publicado pelos organizadores do desafio e consiste em uma rede neural que obteve uma acurácia de 87,30%, com 450kb de parâmetros. Para lidar com esse limite foram utilizadas duas abordagens que visam reduzir o tamanho dos modelos para a tarefa de classificação de categorias de cenas acústicas. O objetivo principal deste trabalho foi realizar reduções de dimensionalidade focadas na otimização do custo na fase de predição. Na primeira abordagem avaliada, apenas as técnicas de redução de dimensionalidade PCA, RP, NMF foram usadas com os classificadores KNN (K-Nearest Neighbors) e SVM (Support Vector Machine). O melhor resultado que respeitou o limite de 500KB foi obtido com a técnica NMF com 16 componentes e o classificador SVM. O F1-Score alcançado foi de 86,64%, com 390KB. Na segunda abordagem avaliada, optou-se também por usar a técnica de seleção de instâncias, uma vez que os classificadores usados armazenam o modelo a partir de uma amostragem do conjunto de treinamento. Nesta abordagem, foram combinadas as técnicas de redução de dimensionalidade juntamente com a técnica de seleção de instâncias baseada em K-Means (KMEANSC). O melhor resultado que respeitou o limite de 500KB foi obtido com a técnica PCA com 32 componentes usando 15% do conjunto de treinamento, com o classificador SVM. O F1-score alcançado nesta situação foi de 87,84%, com 410KB.
Abstract: Acoustic scene classification consists of the task of recognizing the environment that an audio was recorded from its audio signal. The literature shows that deep learning-based methods provide excellent results. However, these methods have a high computational cost, making them unfeasible to use on limited devices. For this work we used the dataset provided by DCASE for the 2020 challenge Low-Complexity Acoustic Scene Classification. This challenge proposes a 500kb limit for storing model parameters. A baseline has also been published by the organizers of the challenge and consists of a neural network that achieved an accuracy of 87.30% with 450kb of parameters. To deal with this limit, two approaches were used that aim to reduce the size of the models for the task of classifying acoustic scene categories. The main goal of this work was to perform dimensionality reductions focused on cost optimization in the prediction phase. In the first approach evaluated, only the dimensionality reduction techniques PCA, RP, NMF were used with the KNN (K-Nearest Neighbors) and SVM (Support Vector Machine) classifiers. The best result that respected the 500KB limit was obtained with the NMF technique with 16 components and the SVM classifier. The F1-Score achieved was 86.64% with 390KB. In the second approach evaluated, it was also chosen to use the instance selection technique, since the classifiers used store the model from a sampling of the training set. In this approach, the dimensionality reduction techniques were combined together with the K-Means based instance selection technique (KMEANSC). The best result respecting the 500KB threshold was obtained with the PCA technique with 32 components using 15% of the training set, with the SVM classifier. The F1-score achieved in this situation was 87.84% with 410KB.
URI: http://repositorio.utfpr.edu.br/jspui/handle/1/31261
Aparece nas coleções:CM - Ciência da Computação

Arquivos associados a este item:
Arquivo Descrição TamanhoFormato 
classificacaocategoriascenasacusticas.pdf2,31 MBAdobe PDFThumbnail
Visualizar/Abrir


Este item está licenciada sob uma Licença Creative Commons Creative Commons