Estudo comparativo de modelos de análise de sentimento em postagens de redes sociais

Lima, João Pedro Flausino de

Use este identificador para citar ou linkar para este item: http://repositorio.utfpr.edu.br/jspui/handle/1/39940

Título:	Estudo comparativo de modelos de análise de sentimento em postagens de redes sociais
Título(s) alternativo(s):	Comparative study of sentiment analysis models in social media posts
Autor(es):	Lima, João Pedro Flausino de
Orientador(es):	Leite, Sarah Negreiros de Carvalho
Palavras-chave:	Processamento de linguagem natural (Computação) Redes sociais Aprendizado do computador Natural language processing (Computer science) Social networks Machine learning
Data do documento:	17-Nov-2025
Editor:	Universidade Tecnológica Federal do Paraná
Câmpus:	Cornelio Procopio
Citação:	LIMA, João Pedro Flausino de. Estudo comparativo de modelos de análise de sentimento em postagens de redes sociais. 2025. Trabalho de Conclusão de Curso (Bacharelado em Engenharia de Software) - Universidade Tecnológica Federal do Paraná, Cornélio Procópio, 2025.
Resumo:	Este trabalho apresenta um estudo comparativo abrangente de diferentes modelos de análise de sentimento aplicados a postagens de redes sociais, utilizando o dataset Semantic Evaluation (SemEval) (2013-2017) como benchmark. A pesquisa investiga sistematicamente o desempenho de seis arquiteturas distintas: Bidirectional Encoder Representations from Transformers (BERT), Robustly Optimized BERT Pretraining Approach (ROBERTA), BERT pre-trained for English Tweets (BERTweet), Efficiently Learning an Encoder that Classifies Token Replacements Accurately (ELECTRA), Distilled Bidirectional Encoder Representations from Transformers (DistilBERT) e Generated Pre-Trained (GPT)-4.1-nano, avaliando o impacto de técnicas de pré-processamento e estratégias de regularização. A metodologia implementa um pipeline modular baseado em princípios de Programação Orientada a Objetos, facilitando a reprodutibilidade e a extensibilidade dos experimentos. Utilizando 50.343 tweets para treinamento e 12.285 para validação, foram aplicadas técnicas de balanceamento (Random Oversampling), regularização (dropout de 0,435, weight decay de 0,12, label smoothing) e validação cruzada estratificada com 5 folds. O melhor resultado foi alcançado pelo modelo BERTweet com 74,0% de acurácia e 73,90% de F1-score, superando trabalhos relacionados e demonstrando a importância da especialização de domínio, dado seu pré-treinamento em 850 milhões de tweets. Todos os modelos baseados em Transformers apresentaram desempenho superior a métodos tradicionais de aprendizado de máquina, com diferenças estatisticamente significativas validadas pelo teste de Kruskal-Wallis (p-valor = 0,0002). O estudo identifica padrões críticos como o overfitting após as primeiras épocas e propõe estratégias de mitigação, incluindo early stopping adaptativo. As principais contribuições incluem um framework integrado e modular seguindo boas práticas de código, o sistema com detecção automática de recursos computacionais, e evidências empíricas de que a escolha adequada do modelo pré-treinado e técnicas de regularização são determinantes para o desempenho final em análise de sentimentos em mídias sociais.
Abstract:	This work presents a comprehensive comparative study of different sentiment analysis models applied to social media posts, using the SemEval dataset (2013-2017) as a benchmark. The research systematically investigates the performance of six distinct architectures: BERT, Ro- BERTA, BERTweet, ELECTRA, DistilBERT, and GPT-4.1-nano, evaluating the impact of pre- processing techniques and regularization strategies. The methodology implements a modular pipeline based on Object-Oriented Programming principles, facilitating reproducibility and ex- tensibility of experiments. Using 50,343 tweets for training and 12,285 for validation, balancing techniques (Random Oversampling), regularization (dropout of 0.435, weight decay of 0.12, la- bel smoothing), and stratified 5-fold cross-validation were applied. The best result was achieved by the BERTweet model with 74.0% accuracy and 73.90% F1-score, surpassing related work and demonstrating the importance of domain specialization, given its pre-training on 850 million tweets. All Transformer-based models showed superior performance compared to traditional ma- chine learning methods, with statistically significant differences validated by the Kruskal-Wallis test (p-value = 0.0002). The study identifies critical patterns such as overfitting after the first epochs and proposes mitigation strategies including adaptive early stopping. Main contributions include an integrated and modular framework following code best practices, the Sentiment- Predictor system with automatic computational resource detection, and empirical evidence that adequate selection of pre-trained models and regularization techniques are determinant for final performance in social media sentiment analysis.
URI:	http://repositorio.utfpr.edu.br/jspui/handle/1/39940
Aparece nas coleções:	CP - Engenharia de Software

Arquivos associados a este item:

Arquivo	Descrição	Tamanho	Formato
modelosanalisesentimentoredes.pdf		562,89 kB	Adobe PDF	Visualizar/Abrir

Mostrar registro completo do item Recomendar este item Visualizar estatísticas

Este item está licenciada sob uma Licença Creative Commons