Comparando algoritimos multirrótulos aplicados em mineração de sentimentos

Dias, Andrey Naligatski

Use este identificador para citar ou linkar para este item: http://repositorio.utfpr.edu.br/jspui/handle/1/37310

Título:	Comparando algoritimos multirrótulos aplicados em mineração de sentimentos
Título(s) alternativo(s):	Comparing multilabels algorithms applied in sentiment mining
Autor(es):	Dias, Andrey Naligatski
Orientador(es):	Schmitke, Luiz Rafael
Palavras-chave:	Aprendizado do computador Inteligência artificial Classificação Emoções Machine learning Artificial intelligence Classification Emotions
Data do documento:	16-Mai-2024
Editor:	Universidade Tecnológica Federal do Paraná
Câmpus:	Ponta Grossa
Citação:	DIAS, Andrey Naligatski. Comparando algoritimos multirrótulos aplicados em mineração de sentimentos. 2024. Trabalho de Conclusão de Curso (Bacharel em Ciência da Computação) - Universidade Tecnológica Federal do Paraná, 2024.
Resumo:	O avanço da internet e o aumento do número de usuários nos últimos anos têm gerado um considerável aumento na quantidade de dados disponíveis. Esses dados se tornaram extremamente valiosos para grandes empresas globais, que os utilizam como base para algoritmos de Aprendizado de Máquina. Esses algoritmos são empregados tanto na análise das opiniões de seu público-alvo em relação à marca e aos produtos quanto em diversas atividades em suas plataformas, como operações de mecanismos de busca, recomendações de produtos, filtragem de spam e publicidade direcionada, entre outras. O principal objetivo deste estudo é comparar diferentes algoritmos de classificação multirrótulos que utilizam técnicas de transformação de problemas, incluindo Binary Relevance, Classifier Chains, Random k-Labelsets e Label Powerset. Esses algoritmos são aplicados a três bases de dados contendo sentimentos, sendo a primeira uma base de dados com tweets contendo 6179 dados em língua inglesa e 11 rótulos desbalanceados, a segunda com 5131 comentários a respeito de depressão em um subreddit e 8 rótulos balanceados, e uma terceira com 30000 comentários de subtópicos variados do Reddit e 27 rótulos desbalanceados. O propósito é aplicar métricas como Accuracy, Precision, Recall, F1-score e Precision at K para cada algoritmo, determinando seu desempenho em condições variadas, implementando tais algoritmos utilizando a linguagem de programação Python, com a biblioteca Scikit-Multilearn. Ao comparar os resultados, nota-se que o algoritmo Binary Relevance apresenta desempenho superior em relação aos demais quando treinado em um conjunto de dados com rótulos balanceados, destacando-se principalmente em Precision com um resultado aproximado de 75% e em Precision at K com 69%. Por outro lado, o algoritmo Classifier Chains apresenta desempenho consistente em todos os conjuntos de dados, notadamente pela sua Precision de 76%. Apesar de ter uma queda significativa de desempenho em um conjunto de dados desbalanceado, os algoritmos Random kLabelsets e Label Powerset demonstram um desempenho melhor, destacando-se especialmente em accuracy com resultados próximos de 31% em ambos, e em recall com cerca de 22% para ambos novamente.
Abstract:	The advancement of the internet and the increase in the number of users in recent years have led to a considerable rise in the amount of available data. This data has become extremely valuable for large global companies, which use it as the basis for Machine Learning algorithms. These algorithms are employed in analyzing their target audience's opinions regarding the brand and products, as well as in various activities on their platforms, such as search engine operations, product recommendations, spam filtering, and targeted advertising, among others. The main objective of this study is to compare different multi-label classification algorithms that use problem transformation techniques, including Binary Relevance, Classifier Chains, Random k-Labelsets, and Label Powerset. These algorithms are applied to three sentiment datasets: the first is a dataset with tweets containing 6179 entries in English and 11 unbalanced labels, the second with 5131 comments about depression on a subreddit and 8 balanced labels, and the third with 30,000 comments from various subtopics on Reddit and 27 unbalanced labels. The purpose is to apply metrics such as accuracy, precision, recall, f1-score, and precision at K for each algorithm, determining their performance under varied conditions, implementing these algorithms using the Python programming language and the Scikit-Multilearn library. When comparing the results, it is noted that the Binary Relevance algorithm performs superiorly compared to the others when trained on a dataset with balanced labels, standing out mainly in precision with an approximate result of 75% and in precision at K with 69%. On the other hand, the Classifier Chains algorithm shows consistent performance across all datasets, notably with its precision of 76%. Despite a significant drop in performance on an unbalanced dataset, the Random k-Labelsets and Label Powerset algorithms demonstrate better performance, particularly standing out in accuracy with results close to 31% for both and in recall with around 22% for both again.
URI:	http://repositorio.utfpr.edu.br/jspui/handle/1/37310
Aparece nas coleções:	PG - Ciência da Computação

Arquivos associados a este item:

Arquivo	Descrição	Tamanho	Formato
algoritmosmultirrotulosmineracaosentimentos.pdf		794,3 kB	Adobe PDF	Visualizar/Abrir

Mostrar registro completo do item Recomendar este item Visualizar estatísticas

Este item está licenciada sob uma Licença Creative Commons