Use este identificador para citar ou linkar para este item: http://repositorio.utfpr.edu.br/jspui/handle/1/31683
Título: Comparativo visual e analítico de algoritmos de redução de dimensionalidade
Título(s) alternativo(s): Visual and analytical comparison of dimensionality reduction algorithms
Autor(es): Yokoyama, Matheus Felipin
Orientador(es): Casanova, Dalcimar
Palavras-chave: Aprendizado do computador
Estresse ocupacional
Algoritmos
Machine learning
Job stress
Algorithms
Data do documento: 22-Jun-2023
Editor: Universidade Tecnológica Federal do Paraná
Câmpus: Pato Branco
Citação: YOKOYAMA, Matheus Felipin. Comparativo visual e analítico de algoritmos de redução de dimensionalidade. 2023. Trabalho de Conclusão de Curso (Bacharelado em Engenharia de Computação) - Universidade Tecnológica Federal do Paraná, Pato Branco, 2023.
Resumo: Dados de alta dimensionalidade geralmente apresentam desafios quando se tratam de visualização e utilização em algoritmos de classificação. O processamento dos dados pode ser demorado e exigir grande poder computacional. Todavia, existem dados de baixa dimensionalidade que possuem estruturas utilizadas no campo conhecido como Manifold Learning. Para estudar as estruturas dos dados, bem como reduzir a entrada para classificadores, otimizar o tempo de processamento e diminuir a complexidade dos dados, existem algoritmos de redução de dimensionalidade. Neste trabalho, utilizou-se uma seleção de algoritmos como PCA, MDS, Isomap, LLE, Random Trees, t-SNE e Autoencoder para identificar a abordagem que melhor representava as informações de forma visual, verificando se a natureza dos dados era afetada por distorções que ocorriam no processo de redução de dimensionalidade e avaliou-se a qualidade dos resultados de acordo com a métrica Estresse de Kruskal. Para isso, fez-se o uso das bases de dados sintéticas como Rolo Suíço, Curva S, Hello, e bases reais como MNIST e Iris. Realizou-se a aplicação das mesmas nos algoritmos de redução de dimensionalidade. Os resultados deste trabalho demonstraram que, de acordo com o Estresse de Kruskal, os algoritmos obtiveram uma distorção, exceto PCA para a base Hello. Quanto à comparação visual, para as bases Rolo Suíço, Curva S, Hello e Iris, os algoritmos PCA e MDS resultaram em uma melhor visualização interpretativa, enquanto para MNIST, o t-SNE obteve esse resultado, diferentemente dos demais algoritmos para ambas as bases.
Abstract: High-dimensional data often pose challenges in terms of visualization and utilization in classification algorithms. Processing such data can be time-consuming and computationally demanding. However, there exist low-dimensional datasets that exhibit structures utilized in the field known as Manifold Learning. To study the structures of the data, as well as reduce the input for classifiers, optimize processing time, and decrease data complexity, dimensionality reduction algorithms are employed. In this work, a selection of algorithms including PCA, MDS, Isomap, LLE, Random Trees, t-SNE, and Autoencoder were used to identify the approach that best represented the information visually, while assessing whether the nature of the data was affected by distortions occurring during the dimensionality reduction process. Synthetic datasets such as Swiss Roll, S Curve, and Hello, as well as real datasets like MNIST and Iris, were utilized to apply these dimensionality reduction algorithms. The results of this study showed that, based on Kruskal Stress metric, the algorithms exhibited distortions, except for PCA on the Hello dataset. In terms of visual comparison, for Swiss Roll, S Curve, Hello, and Iris datasets, PCA and MDS algorithms yielded better interpretability, whereas t-SNE achieved superior results for MNIST, contrasting with other algorithms for both datasets.
URI: http://repositorio.utfpr.edu.br/jspui/handle/1/31683
Aparece nas coleções:PB - Engenharia de Computação

Arquivos associados a este item:
Arquivo Descrição TamanhoFormato 
comparativoalgoritmosreducadimensionalidade.pdf5,51 MBAdobe PDFThumbnail
Visualizar/Abrir


Este item está licenciada sob uma Licença Creative Commons Creative Commons