Use este identificador para citar ou linkar para este item: http://repositorio.utfpr.edu.br/jspui/handle/1/39940
Registro completo de metadados
Campo DCValorIdioma
dc.creatorLima, João Pedro Flausino de-
dc.date.accessioned2026-03-31T20:12:19Z-
dc.date.available2026-03-31T20:12:19Z-
dc.date.issued2025-11-17-
dc.identifier.citationLIMA, João Pedro Flausino de. Estudo comparativo de modelos de análise de sentimento em postagens de redes sociais. 2025. Trabalho de Conclusão de Curso (Bacharelado em Engenharia de Software) - Universidade Tecnológica Federal do Paraná, Cornélio Procópio, 2025.pt_BR
dc.identifier.urihttp://repositorio.utfpr.edu.br/jspui/handle/1/39940-
dc.description.abstractThis work presents a comprehensive comparative study of different sentiment analysis models applied to social media posts, using the SemEval dataset (2013-2017) as a benchmark. The research systematically investigates the performance of six distinct architectures: BERT, Ro- BERTA, BERTweet, ELECTRA, DistilBERT, and GPT-4.1-nano, evaluating the impact of pre- processing techniques and regularization strategies. The methodology implements a modular pipeline based on Object-Oriented Programming principles, facilitating reproducibility and ex- tensibility of experiments. Using 50,343 tweets for training and 12,285 for validation, balancing techniques (Random Oversampling), regularization (dropout of 0.435, weight decay of 0.12, la- bel smoothing), and stratified 5-fold cross-validation were applied. The best result was achieved by the BERTweet model with 74.0% accuracy and 73.90% F1-score, surpassing related work and demonstrating the importance of domain specialization, given its pre-training on 850 million tweets. All Transformer-based models showed superior performance compared to traditional ma- chine learning methods, with statistically significant differences validated by the Kruskal-Wallis test (p-value = 0.0002). The study identifies critical patterns such as overfitting after the first epochs and proposes mitigation strategies including adaptive early stopping. Main contributions include an integrated and modular framework following code best practices, the Sentiment- Predictor system with automatic computational resource detection, and empirical evidence that adequate selection of pre-trained models and regularization techniques are determinant for final performance in social media sentiment analysis.pt_BR
dc.languageporpt_BR
dc.publisherUniversidade Tecnológica Federal do Paranápt_BR
dc.rightsopenAccesspt_BR
dc.rightsAttribution 4.0 International*
dc.rights.urihttp://creativecommons.org/licenses/by/4.0/*
dc.subjectProcessamento de linguagem natural (Computação)pt_BR
dc.subjectRedes sociaispt_BR
dc.subjectAprendizado do computadorpt_BR
dc.subjectNatural language processing (Computer science)pt_BR
dc.subjectSocial networkspt_BR
dc.subjectMachine learningpt_BR
dc.titleEstudo comparativo de modelos de análise de sentimento em postagens de redes sociaispt_BR
dc.title.alternativeComparative study of sentiment analysis models in social media postspt_BR
dc.typebachelorThesispt_BR
dc.description.resumoEste trabalho apresenta um estudo comparativo abrangente de diferentes modelos de análise de sentimento aplicados a postagens de redes sociais, utilizando o dataset Semantic Evaluation (SemEval) (2013-2017) como benchmark. A pesquisa investiga sistematicamente o desempenho de seis arquiteturas distintas: Bidirectional Encoder Representations from Transformers (BERT), Robustly Optimized BERT Pretraining Approach (ROBERTA), BERT pre-trained for English Tweets (BERTweet), Efficiently Learning an Encoder that Classifies Token Replacements Accurately (ELECTRA), Distilled Bidirectional Encoder Representations from Transformers (DistilBERT) e Generated Pre-Trained (GPT)-4.1-nano, avaliando o impacto de técnicas de pré-processamento e estratégias de regularização. A metodologia implementa um pipeline modular baseado em princípios de Programação Orientada a Objetos, facilitando a reprodutibilidade e a extensibilidade dos experimentos. Utilizando 50.343 tweets para treinamento e 12.285 para validação, foram aplicadas técnicas de balanceamento (Random Oversampling), regularização (dropout de 0,435, weight decay de 0,12, label smoothing) e validação cruzada estratificada com 5 folds. O melhor resultado foi alcançado pelo modelo BERTweet com 74,0% de acurácia e 73,90% de F1-score, superando trabalhos relacionados e demonstrando a importância da especialização de domínio, dado seu pré-treinamento em 850 milhões de tweets. Todos os modelos baseados em Transformers apresentaram desempenho superior a métodos tradicionais de aprendizado de máquina, com diferenças estatisticamente significativas validadas pelo teste de Kruskal-Wallis (p-valor = 0,0002). O estudo identifica padrões críticos como o overfitting após as primeiras épocas e propõe estratégias de mitigação, incluindo early stopping adaptativo. As principais contribuições incluem um framework integrado e modular seguindo boas práticas de código, o sistema com detecção automática de recursos computacionais, e evidências empíricas de que a escolha adequada do modelo pré-treinado e técnicas de regularização são determinantes para o desempenho final em análise de sentimentos em mídias sociais.pt_BR
dc.degree.localCornélio Procópiopt_BR
dc.publisher.localCornelio Procopiopt_BR
dc.contributor.advisor1Leite, Sarah Negreiros de Carvalho-
dc.contributor.referee1Leite, Sarah Negreiros de Carvalho-
dc.contributor.referee2Silva, Adriane Carla Anastácio da-
dc.contributor.referee3Domingues, André Luís dos Santos-
dc.publisher.countryBrasilpt_BR
dc.publisher.programEngenharia de Softwarept_BR
dc.publisher.initialsUTFPRpt_BR
dc.subject.cnpqCNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO::METODOLOGIA E TECNICAS DA COMPUTACAO::ENGENHARIA DE SOFTWAREpt_BR
Aparece nas coleções:CP - Engenharia de Software

Arquivos associados a este item:
Arquivo Descrição TamanhoFormato 
modelosanalisesentimentoredes.pdf562,89 kBAdobe PDFThumbnail
Visualizar/Abrir


Este item está licenciada sob uma Licença Creative Commons Creative Commons