Estudo comparativo de modelos de análise de sentimento em postagens de redes sociais

Lima, João Pedro Flausino de

Use este identificador para citar ou linkar para este item: http://repositorio.utfpr.edu.br/jspui/handle/1/39940

Registro completo de metadados

Campo DC	Valor	Idioma
dc.creator	Lima, João Pedro Flausino de	-
dc.date.accessioned	2026-03-31T20:12:19Z	-
dc.date.available	2026-03-31T20:12:19Z	-
dc.date.issued	2025-11-17	-
dc.identifier.citation	LIMA, João Pedro Flausino de. Estudo comparativo de modelos de análise de sentimento em postagens de redes sociais. 2025. Trabalho de Conclusão de Curso (Bacharelado em Engenharia de Software) - Universidade Tecnológica Federal do Paraná, Cornélio Procópio, 2025.	pt_BR
dc.identifier.uri	http://repositorio.utfpr.edu.br/jspui/handle/1/39940	-
dc.description.abstract	This work presents a comprehensive comparative study of different sentiment analysis models applied to social media posts, using the SemEval dataset (2013-2017) as a benchmark. The research systematically investigates the performance of six distinct architectures: BERT, Ro- BERTA, BERTweet, ELECTRA, DistilBERT, and GPT-4.1-nano, evaluating the impact of pre- processing techniques and regularization strategies. The methodology implements a modular pipeline based on Object-Oriented Programming principles, facilitating reproducibility and ex- tensibility of experiments. Using 50,343 tweets for training and 12,285 for validation, balancing techniques (Random Oversampling), regularization (dropout of 0.435, weight decay of 0.12, la- bel smoothing), and stratified 5-fold cross-validation were applied. The best result was achieved by the BERTweet model with 74.0% accuracy and 73.90% F1-score, surpassing related work and demonstrating the importance of domain specialization, given its pre-training on 850 million tweets. All Transformer-based models showed superior performance compared to traditional ma- chine learning methods, with statistically significant differences validated by the Kruskal-Wallis test (p-value = 0.0002). The study identifies critical patterns such as overfitting after the first epochs and proposes mitigation strategies including adaptive early stopping. Main contributions include an integrated and modular framework following code best practices, the Sentiment- Predictor system with automatic computational resource detection, and empirical evidence that adequate selection of pre-trained models and regularization techniques are determinant for final performance in social media sentiment analysis.	pt_BR
dc.language	por	pt_BR
dc.publisher	Universidade Tecnológica Federal do Paraná	pt_BR
dc.rights	openAccess	pt_BR
dc.rights	Attribution 4.0 International	*
dc.rights.uri	http://creativecommons.org/licenses/by/4.0/	*
dc.subject	Processamento de linguagem natural (Computação)	pt_BR
dc.subject	Redes sociais	pt_BR
dc.subject	Aprendizado do computador	pt_BR
dc.subject	Natural language processing (Computer science)	pt_BR
dc.subject	Social networks	pt_BR
dc.subject	Machine learning	pt_BR
dc.title	Estudo comparativo de modelos de análise de sentimento em postagens de redes sociais	pt_BR
dc.title.alternative	Comparative study of sentiment analysis models in social media posts	pt_BR
dc.type	bachelorThesis	pt_BR
dc.description.resumo	Este trabalho apresenta um estudo comparativo abrangente de diferentes modelos de análise de sentimento aplicados a postagens de redes sociais, utilizando o dataset Semantic Evaluation (SemEval) (2013-2017) como benchmark. A pesquisa investiga sistematicamente o desempenho de seis arquiteturas distintas: Bidirectional Encoder Representations from Transformers (BERT), Robustly Optimized BERT Pretraining Approach (ROBERTA), BERT pre-trained for English Tweets (BERTweet), Efficiently Learning an Encoder that Classifies Token Replacements Accurately (ELECTRA), Distilled Bidirectional Encoder Representations from Transformers (DistilBERT) e Generated Pre-Trained (GPT)-4.1-nano, avaliando o impacto de técnicas de pré-processamento e estratégias de regularização. A metodologia implementa um pipeline modular baseado em princípios de Programação Orientada a Objetos, facilitando a reprodutibilidade e a extensibilidade dos experimentos. Utilizando 50.343 tweets para treinamento e 12.285 para validação, foram aplicadas técnicas de balanceamento (Random Oversampling), regularização (dropout de 0,435, weight decay de 0,12, label smoothing) e validação cruzada estratificada com 5 folds. O melhor resultado foi alcançado pelo modelo BERTweet com 74,0% de acurácia e 73,90% de F1-score, superando trabalhos relacionados e demonstrando a importância da especialização de domínio, dado seu pré-treinamento em 850 milhões de tweets. Todos os modelos baseados em Transformers apresentaram desempenho superior a métodos tradicionais de aprendizado de máquina, com diferenças estatisticamente significativas validadas pelo teste de Kruskal-Wallis (p-valor = 0,0002). O estudo identifica padrões críticos como o overfitting após as primeiras épocas e propõe estratégias de mitigação, incluindo early stopping adaptativo. As principais contribuições incluem um framework integrado e modular seguindo boas práticas de código, o sistema com detecção automática de recursos computacionais, e evidências empíricas de que a escolha adequada do modelo pré-treinado e técnicas de regularização são determinantes para o desempenho final em análise de sentimentos em mídias sociais.	pt_BR
dc.degree.local	Cornélio Procópio	pt_BR
dc.publisher.local	Cornelio Procopio	pt_BR
dc.contributor.advisor1	Leite, Sarah Negreiros de Carvalho	-
dc.contributor.referee1	Leite, Sarah Negreiros de Carvalho	-
dc.contributor.referee2	Silva, Adriane Carla Anastácio da	-
dc.contributor.referee3	Domingues, André Luís dos Santos	-
dc.publisher.country	Brasil	pt_BR
dc.publisher.program	Engenharia de Software	pt_BR
dc.publisher.initials	UTFPR	pt_BR
dc.subject.cnpq	CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO::METODOLOGIA E TECNICAS DA COMPUTACAO::ENGENHARIA DE SOFTWARE	pt_BR
Aparece nas coleções:	CP - Engenharia de Software

Arquivos associados a este item:

Arquivo	Descrição	Tamanho	Formato
modelosanalisesentimentoredes.pdf		562,89 kB	Adobe PDF	Visualizar/Abrir

Mostrar registro simples do item Recomendar este item Visualizar estatísticas

Este item está licenciada sob uma Licença Creative Commons