Use este identificador para citar ou linkar para este item: http://repositorio.utfpr.edu.br/jspui/handle/1/31682
Título: Comparação de tempo e resultado de algoritmos de agrupamento utilizando diferentes distâncias e bases de dados
Título(s) alternativo(s): Time and result comparison of clustering algorithms using several distances and databases
Autor(es): Cousseau, Gustavo
Orientador(es): Rodrigues, Érick Oliveira
Palavras-chave: Algorítmos computacionais
Análise por agrupamento
Aprendizado do computador
Computer algorithms
Cluster analysis
Machine learning
Data do documento: 20-Jun-2023
Editor: Universidade Tecnológica Federal do Paraná
Câmpus: Pato Branco
Citação: COUSSEAU, Gustavo. Comparação de tempo e resultado de algoritmos de agrupamento utilizando diferentes distâncias e bases de dados. 2023. Trabalho de Conclusão de Curso (Bacharelado em Engenharia de Computação) - Universidade Tecnológica Federal do Paraná, Pato Branco, 2023.
Resumo: Esse trabalho é uma pesquisa de análise dos algoritmos de aprendizado de máquina não supervisionados DBSCAN, K-Means e Mean-Shift utilizando as distâncias Canberra, Chebyshev, Euclidiana, Minkowski e Rodrigues com algumas bases de dados que estão contidas no repositório da UCI. Tem como objetivo, comparar a média dos tempos que cada algoritmo demora para processar onze bases de dados com dez distâncias diferentes. Ainda, comparar os agrupamentos obtidos pelo DBSCAN e Mean-Shift em relação ao K-means. Os resultados mostram que ao utilizar a quantidade e as posições dos agrupamentos obtidos no DBSCAN como entradas para o K-Means e os obtidos no Mean-Shift como entradas para o K-Means, derivam de agrupamentos diferentes mas com alguma igualdade entre os agrupamentos. No entanto, a igualdade é maior com a combinação dos resultados do Mean-Shift com o K-Means. As menores médias de tempo foram obtidas pelo algoritmo K-Means e as maiores pelo algoritmo Mean-Shift. E no geral, a distância Chebyshev foi responsável pelas menores médias de tempo em 3 dos 4 métodos. Para esses resultados, é necessário a escolha dos parâmetros de entrada adequados para gerar um número considerável de agrupamentos nos algoritmos DBSCAN e Mean-Shift.
Abstract: This work is a research analysis of unsupervised machine learning algorithms DBSCAN, K-Means and Mean-Shift using Canberra, Chebyshev, Euclidean, Minkowski and Rodrigues distances with some databases from the UCI repository. It aims to compare the average time that each algorithm takes to process eleven databases with ten different distances. In addition, compare the clusters obtained by DBSCAN and Mean-Shift in relation to K-Means. The results show that when using the number and positions of the clusters obtained in DBSCAN as inputs for K-Means and those obtained in Mean-Shift as inputs for K-means, derive from different clusters but with some equality. However, the equality is higher with the combination of Mean-Shift and K-means results. The lowest time averages were obtained by the K-Means algorithm and the highest by the Mean-Shift algorithm. And overall, the Chebyshev distance was responsible for the lowest time averages in 3 of the 4 methods. For these results, it is necessary to choose the appropriate input parameters to generate a considerable number of clusters in the DBSCAN and Mean-Shift algorithms.
URI: http://repositorio.utfpr.edu.br/jspui/handle/1/31682
Aparece nas coleções:PB - Engenharia de Computação

Arquivos associados a este item:
Arquivo Descrição TamanhoFormato 
comparacaoagrupamentodistancias.pdf877,83 kBAdobe PDFThumbnail
Visualizar/Abrir


Este item está licenciada sob uma Licença Creative Commons Creative Commons