Use este identificador para citar ou linkar para este item: http://repositorio.utfpr.edu.br/jspui/handle/1/37310
Registro completo de metadados
Campo DCValorIdioma
dc.creatorDias, Andrey Naligatski-
dc.date.accessioned2025-07-02T16:25:12Z-
dc.date.available2025-07-02T16:25:12Z-
dc.date.issued2024-05-16-
dc.identifier.citationDIAS, Andrey Naligatski. Comparando algoritimos multirrótulos aplicados em mineração de sentimentos. 2024. Trabalho de Conclusão de Curso (Bacharel em Ciência da Computação) - Universidade Tecnológica Federal do Paraná, 2024.pt_BR
dc.identifier.urihttp://repositorio.utfpr.edu.br/jspui/handle/1/37310-
dc.description.abstractThe advancement of the internet and the increase in the number of users in recent years have led to a considerable rise in the amount of available data. This data has become extremely valuable for large global companies, which use it as the basis for Machine Learning algorithms. These algorithms are employed in analyzing their target audience's opinions regarding the brand and products, as well as in various activities on their platforms, such as search engine operations, product recommendations, spam filtering, and targeted advertising, among others. The main objective of this study is to compare different multi-label classification algorithms that use problem transformation techniques, including Binary Relevance, Classifier Chains, Random k-Labelsets, and Label Powerset. These algorithms are applied to three sentiment datasets: the first is a dataset with tweets containing 6179 entries in English and 11 unbalanced labels, the second with 5131 comments about depression on a subreddit and 8 balanced labels, and the third with 30,000 comments from various subtopics on Reddit and 27 unbalanced labels. The purpose is to apply metrics such as accuracy, precision, recall, f1-score, and precision at K for each algorithm, determining their performance under varied conditions, implementing these algorithms using the Python programming language and the Scikit-Multilearn library. When comparing the results, it is noted that the Binary Relevance algorithm performs superiorly compared to the others when trained on a dataset with balanced labels, standing out mainly in precision with an approximate result of 75% and in precision at K with 69%. On the other hand, the Classifier Chains algorithm shows consistent performance across all datasets, notably with its precision of 76%. Despite a significant drop in performance on an unbalanced dataset, the Random k-Labelsets and Label Powerset algorithms demonstrate better performance, particularly standing out in accuracy with results close to 31% for both and in recall with around 22% for both again.pt_BR
dc.languageporpt_BR
dc.publisherUniversidade Tecnológica Federal do Paranápt_BR
dc.rightsopenAccesspt_BR
dc.rights.urihttp://creativecommons.org/licenses/by-sa/4.0/pt_BR
dc.subjectAprendizado do computadorpt_BR
dc.subjectInteligência artificialpt_BR
dc.subjectClassificaçãopt_BR
dc.subjectEmoçõespt_BR
dc.subjectMachine learningpt_BR
dc.subjectArtificial intelligencept_BR
dc.subjectClassificationpt_BR
dc.subjectEmotionspt_BR
dc.titleComparando algoritimos multirrótulos aplicados em mineração de sentimentospt_BR
dc.title.alternativeComparing multilabels algorithms applied in sentiment miningpt_BR
dc.typebachelorThesispt_BR
dc.description.resumoO avanço da internet e o aumento do número de usuários nos últimos anos têm gerado um considerável aumento na quantidade de dados disponíveis. Esses dados se tornaram extremamente valiosos para grandes empresas globais, que os utilizam como base para algoritmos de Aprendizado de Máquina. Esses algoritmos são empregados tanto na análise das opiniões de seu público-alvo em relação à marca e aos produtos quanto em diversas atividades em suas plataformas, como operações de mecanismos de busca, recomendações de produtos, filtragem de spam e publicidade direcionada, entre outras. O principal objetivo deste estudo é comparar diferentes algoritmos de classificação multirrótulos que utilizam técnicas de transformação de problemas, incluindo Binary Relevance, Classifier Chains, Random k-Labelsets e Label Powerset. Esses algoritmos são aplicados a três bases de dados contendo sentimentos, sendo a primeira uma base de dados com tweets contendo 6179 dados em língua inglesa e 11 rótulos desbalanceados, a segunda com 5131 comentários a respeito de depressão em um subreddit e 8 rótulos balanceados, e uma terceira com 30000 comentários de subtópicos variados do Reddit e 27 rótulos desbalanceados. O propósito é aplicar métricas como Accuracy, Precision, Recall, F1-score e Precision at K para cada algoritmo, determinando seu desempenho em condições variadas, implementando tais algoritmos utilizando a linguagem de programação Python, com a biblioteca Scikit-Multilearn. Ao comparar os resultados, nota-se que o algoritmo Binary Relevance apresenta desempenho superior em relação aos demais quando treinado em um conjunto de dados com rótulos balanceados, destacando-se principalmente em Precision com um resultado aproximado de 75% e em Precision at K com 69%. Por outro lado, o algoritmo Classifier Chains apresenta desempenho consistente em todos os conjuntos de dados, notadamente pela sua Precision de 76%. Apesar de ter uma queda significativa de desempenho em um conjunto de dados desbalanceado, os algoritmos Random kLabelsets e Label Powerset demonstram um desempenho melhor, destacando-se especialmente em accuracy com resultados próximos de 31% em ambos, e em recall com cerca de 22% para ambos novamente.pt_BR
dc.degree.localPonta Grossapt_BR
dc.publisher.localPonta Grossapt_BR
dc.contributor.advisor1Schmitke, Luiz Rafael-
dc.contributor.referee1Schmitke, Luiz Rafael-
dc.contributor.referee2Almeida, Simone de-
dc.contributor.referee3Borges, André Pinz-
dc.publisher.countryBrasilpt_BR
dc.publisher.departmentDepartamento Acadêmico de Informáticapt_BR
dc.publisher.programCiência da Computaçãopt_BR
dc.publisher.initialsUTFPRpt_BR
dc.subject.cnpqCNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAOpt_BR
Aparece nas coleções:PG - Ciência da Computação

Arquivos associados a este item:
Arquivo Descrição TamanhoFormato 
algoritmosmultirrotulosmineracaosentimentos.pdf794,3 kBAdobe PDFThumbnail
Visualizar/Abrir


Este item está licenciada sob uma Licença Creative Commons Creative Commons