Comparando algoritimos multirrótulos aplicados em mineração de sentimentos

Dias, Andrey Naligatski

Use este identificador para citar ou linkar para este item: http://repositorio.utfpr.edu.br/jspui/handle/1/37310

Registro completo de metadados

Campo DC	Valor	Idioma
dc.creator	Dias, Andrey Naligatski	-
dc.date.accessioned	2025-07-02T16:25:12Z	-
dc.date.available	2025-07-02T16:25:12Z	-
dc.date.issued	2024-05-16	-
dc.identifier.citation	DIAS, Andrey Naligatski. Comparando algoritimos multirrótulos aplicados em mineração de sentimentos. 2024. Trabalho de Conclusão de Curso (Bacharel em Ciência da Computação) - Universidade Tecnológica Federal do Paraná, 2024.	pt_BR
dc.identifier.uri	http://repositorio.utfpr.edu.br/jspui/handle/1/37310	-
dc.description.abstract	The advancement of the internet and the increase in the number of users in recent years have led to a considerable rise in the amount of available data. This data has become extremely valuable for large global companies, which use it as the basis for Machine Learning algorithms. These algorithms are employed in analyzing their target audience's opinions regarding the brand and products, as well as in various activities on their platforms, such as search engine operations, product recommendations, spam filtering, and targeted advertising, among others. The main objective of this study is to compare different multi-label classification algorithms that use problem transformation techniques, including Binary Relevance, Classifier Chains, Random k-Labelsets, and Label Powerset. These algorithms are applied to three sentiment datasets: the first is a dataset with tweets containing 6179 entries in English and 11 unbalanced labels, the second with 5131 comments about depression on a subreddit and 8 balanced labels, and the third with 30,000 comments from various subtopics on Reddit and 27 unbalanced labels. The purpose is to apply metrics such as accuracy, precision, recall, f1-score, and precision at K for each algorithm, determining their performance under varied conditions, implementing these algorithms using the Python programming language and the Scikit-Multilearn library. When comparing the results, it is noted that the Binary Relevance algorithm performs superiorly compared to the others when trained on a dataset with balanced labels, standing out mainly in precision with an approximate result of 75% and in precision at K with 69%. On the other hand, the Classifier Chains algorithm shows consistent performance across all datasets, notably with its precision of 76%. Despite a significant drop in performance on an unbalanced dataset, the Random k-Labelsets and Label Powerset algorithms demonstrate better performance, particularly standing out in accuracy with results close to 31% for both and in recall with around 22% for both again.	pt_BR
dc.language	por	pt_BR
dc.publisher	Universidade Tecnológica Federal do Paraná	pt_BR
dc.rights	openAccess	pt_BR
dc.rights.uri	http://creativecommons.org/licenses/by-sa/4.0/	pt_BR
dc.subject	Aprendizado do computador	pt_BR
dc.subject	Inteligência artificial	pt_BR
dc.subject	Classificação	pt_BR
dc.subject	Emoções	pt_BR
dc.subject	Machine learning	pt_BR
dc.subject	Artificial intelligence	pt_BR
dc.subject	Classification	pt_BR
dc.subject	Emotions	pt_BR
dc.title	Comparando algoritimos multirrótulos aplicados em mineração de sentimentos	pt_BR
dc.title.alternative	Comparing multilabels algorithms applied in sentiment mining	pt_BR
dc.type	bachelorThesis	pt_BR
dc.description.resumo	O avanço da internet e o aumento do número de usuários nos últimos anos têm gerado um considerável aumento na quantidade de dados disponíveis. Esses dados se tornaram extremamente valiosos para grandes empresas globais, que os utilizam como base para algoritmos de Aprendizado de Máquina. Esses algoritmos são empregados tanto na análise das opiniões de seu público-alvo em relação à marca e aos produtos quanto em diversas atividades em suas plataformas, como operações de mecanismos de busca, recomendações de produtos, filtragem de spam e publicidade direcionada, entre outras. O principal objetivo deste estudo é comparar diferentes algoritmos de classificação multirrótulos que utilizam técnicas de transformação de problemas, incluindo Binary Relevance, Classifier Chains, Random k-Labelsets e Label Powerset. Esses algoritmos são aplicados a três bases de dados contendo sentimentos, sendo a primeira uma base de dados com tweets contendo 6179 dados em língua inglesa e 11 rótulos desbalanceados, a segunda com 5131 comentários a respeito de depressão em um subreddit e 8 rótulos balanceados, e uma terceira com 30000 comentários de subtópicos variados do Reddit e 27 rótulos desbalanceados. O propósito é aplicar métricas como Accuracy, Precision, Recall, F1-score e Precision at K para cada algoritmo, determinando seu desempenho em condições variadas, implementando tais algoritmos utilizando a linguagem de programação Python, com a biblioteca Scikit-Multilearn. Ao comparar os resultados, nota-se que o algoritmo Binary Relevance apresenta desempenho superior em relação aos demais quando treinado em um conjunto de dados com rótulos balanceados, destacando-se principalmente em Precision com um resultado aproximado de 75% e em Precision at K com 69%. Por outro lado, o algoritmo Classifier Chains apresenta desempenho consistente em todos os conjuntos de dados, notadamente pela sua Precision de 76%. Apesar de ter uma queda significativa de desempenho em um conjunto de dados desbalanceado, os algoritmos Random kLabelsets e Label Powerset demonstram um desempenho melhor, destacando-se especialmente em accuracy com resultados próximos de 31% em ambos, e em recall com cerca de 22% para ambos novamente.	pt_BR
dc.degree.local	Ponta Grossa	pt_BR
dc.publisher.local	Ponta Grossa	pt_BR
dc.contributor.advisor1	Schmitke, Luiz Rafael	-
dc.contributor.referee1	Schmitke, Luiz Rafael	-
dc.contributor.referee2	Almeida, Simone de	-
dc.contributor.referee3	Borges, André Pinz	-
dc.publisher.country	Brasil	pt_BR
dc.publisher.department	Departamento Acadêmico de Informática	pt_BR
dc.publisher.program	Ciência da Computação	pt_BR
dc.publisher.initials	UTFPR	pt_BR
dc.subject.cnpq	CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO	pt_BR
Aparece nas coleções:	PG - Ciência da Computação

Arquivos associados a este item:

Arquivo	Descrição	Tamanho	Formato
algoritmosmultirrotulosmineracaosentimentos.pdf		794,3 kB	Adobe PDF	Visualizar/Abrir

Mostrar registro simples do item Recomendar este item Visualizar estatísticas

Este item está licenciada sob uma Licença Creative Commons