Use este identificador para citar ou linkar para este item: http://repositorio.utfpr.edu.br/jspui/handle/1/29739
Título: Algoritmo para classificação multirrótulo baseado em biclusterização
Autor(es): Schmitke, Luiz Rafael
Orientador(es): Nievola, Julio Cesar
Palavras-chave: Algorítmos
Classificação
Rótulos
Solução de problemas
Aprendizado do computador
Algorithms
Classification
Labels
Problem solving
Machine learning
Data do documento: 1-Jun-2022
Editor: Pontifícia Universidade Católica do Paraná
Câmpus: Curitiba
Citação: SCHMITKE, Luiz Rafael. Algoritmo para classificação multirrótulo baseado em biclusterização. 2022. Tese (Doutorado em Informática) - Pontifícia Universidade Católica do Paraná, Curitiba, 2022.
Resumo: Dentre as abordagens utilizadas na aprendizagem de máquina, a classificação se destaca principalmente na sua forma monorrótulo. Embora essa seja comum, em alguns domínios a presença de mais de um rótulo é característica inerente dos dados, sendo assim faz-se necessário a utilização de abordagens para classificação multirrótulo. Duas estratégias são possíveis para alcançar a classificação multirrótulo, uma é transformar o problema multirrótulo em um ou mais problemas monorrótulo, ou adaptar um algoritmo monorrótulo para que este possa lidar com a multirrotularidade dos dados. Embora a transformação de problema seja eficaz, alguns algoritmos possuem problemas como, parâmetros fixos para determinar a quantidade de subproblemas monorrótulo e a manutenção dos relacionamentos pré-existentes entre rótulos não usam medidas de correlação ou coocorrência. Dentre as categorias existentes de algoritmos para trabalhar com a transformação de problema, foi escolhida a que permite fazer a transformação de um problema multirrótulo para n problemas binários, pois esta possui como característica o baixo de tempo de execução, o que permite o uso de algoritmos monorrótulo mais complexos na fase de classificação, como por exemplo, redes neurais e deep learning, mas, proporcionalmente, também apresentam baixo desempenho nas métricas multirrótulo. Desta forma, neste trabalho é apresentado o algoritmo BicbPT, o qual utiliza a técnica de biclusterização combinada com a transformação de problema multirrótulo-binário a fim de minimizar aqueles problemas e melhorar o desempenho nas métricas multirrótulo sem perder a característica do baixo tempo de execução desta categoria. Para a avaliação do algoritmo proposto foram realizadas comparações com os algoritmos BR, CC, ECC, RAkEL e LP utilizando os algoritmos monorrótulo SVM, C4.5 e Naive Bayes durante a fase de classificação nos n problemas binários e 12 conjuntos de dados de diferentes domínios e complexidades. Os experimentos realizados demonstram que o BicbPT obtém melhor desempenho nas métricas multirrótulo que os demais algoritmos multirrótulo-binário comparados, sendo similar somente ao ECC, mas neste o tempo de execução é até 10 vezes mais alto, o que torna o algoritmo proposto melhor. Também, o algoritmo proposto consegue manter tempo de execução similar aos algoritmos da categoria multirrótulo-binário. Ainda, ao comparar as duas versões implementadas do BicbPT foi possível perceber que a maneira com a qual os rótulos se influenciam permite melhorar a classificação multirrótulo, e não somente considerar a manutenção das relações nos n problemas transformados.
Abstract: Among the approaches used in machine learning, the classification stands out especially in its single label way. Although that is common, some domains have multiple labels that are such an intrinsic characteristic of the data, therefore it is necessary a multilabel classification approach. Two strategies are possible to get the multilabel classification, either to convert the multilabel problem into one or more single label problems, or to adapt a single label algorithm to deal with a multilabel data. Despite the fact that problem transformation is effective, some algorithms have issues, as fixed parameters to indicate the single label subproblem quantity and the maintenance of the preexistent relationship among the labels do not use correlation nor co-occurrence measures. Among the categories of algorithms to work with the problem transformation, it was chosen one that allows a transformation from a multilabel problem to n binary problems. That has a characteristic of having a low runtime, which allows to use more complex single label algorithms in the classification stage, like neural networks or deep learning, but it also shows a lower performance in multilabel metrics. Thus, this work shows the BicbPT algorithm that uses the biclustering and multilabel-binary problem transformation to minimize those problems and improve the multilabel metrics without losing the low execution time characteristic of this category. It was chosen the algorithms BR, CC, ECC, RAkEL and LP with SVM, C4.5 and Naïve Bayes to evaluate the proposed method and 12 datasets with distinct complexities and different domains. The experiments show that the BicbPT obtains better performance in the multilabel metrics than the multilabel-binary algorithms, being similar only to the ECC, but in this one the execution time is up to 10 times higher. The BicbPT also keeps the lower execution time, characteristic of the multilabel-binary category. Finally, comparing the two versions of the BicbPT is possible to realize that the way labels influence each other allows improving the multilabel classification, and not only considering the maintenance of relationships in the n transformed problems.
URI: http://repositorio.utfpr.edu.br/jspui/handle/1/29739
Aparece nas coleções:PCS - Teses

Arquivos associados a este item:
Arquivo Descrição TamanhoFormato 
algoritmoclassificacaomultirrotulobiclusterizacao.pdf1,9 MBAdobe PDFThumbnail
Visualizar/Abrir


Os itens no repositório estão protegidos por copyright, com todos os direitos reservados, salvo quando é indicado o contrário.