Identificação de temas emergentes em notícias através de métodos não-supervisionados

Ávila Buitrón, Martín

Use este identificador para citar ou linkar para este item: http://repositorio.utfpr.edu.br/jspui/handle/1/40266

Título:	Identificação de temas emergentes em notícias através de métodos não-supervisionados
Título(s) alternativo(s):	Detection of emerging topics in news through unsupervised learning models
Autor(es):	Ávila Buitrón, Martín
Orientador(es):	Paetzold, Gustavo Henrique
Palavras-chave:	Processamento de linguagem natural (Computação) Aprendizado do computador Natural language processing (Computer science) Machine learning
Data do documento:	4-Dez-2025
Editor:	Universidade Tecnológica Federal do Paraná
Câmpus:	Toledo
Citação:	Ávila Buitrón, Martín. Identificação de temas emergentes em notícias através de métodos não-supervisionados. 2025.Trabalho de Conclusão de Curso (Engenharia da Computação) - Universidade Tecnológica Federal do Paraná, Toledo, 2025.
Resumo:	A Novelty Detection, ou detecção de novidade em documentos, é uma tarefa desafiadora e de grande relevância na atualidade. A literatura trata este problema sob distintas abordagens, utilizando aprendizado supervisionado, não supervisionado, autosupervisionado, entre outros. Este tema é especialmente significativo no campo do Processamento de Linguagem Natural, visto que o intuito é diferenciar textos que pertencem a um conjunto já conhecido daqueles que trazem informações inéditas ou emergentes. Neste trabalho, propõe-se investigar distintos métodos não supervisionados de detecção de novidade em um conjunto de dados de notícias, com o objetivo de compará-los com métodos supervisionados. Foram avaliados métodos como Local Outlier Factor, Isolation Forest e Elliptic Envelope, e uma abordagem moderna baseada na arquitetura RAG com modelos de linguagem de grande escala, comparando-os com baselines estabelecidos na literatura. As métricas utilizadas incluem precisão, recall, F1-score e acurácia. Os resultados demonstraram que o método LOF alcançou desempenho promissor, com F1 de 80,90% e acurácia de 85,80%, em comparação com os baselines do estado da arte.
Abstract:	Novelty Detection in documents is a challenging task of great relevance today. The literature addresses this problem through different approaches, using supervised learning, unsupervised learning, self-supervised learning, among others. This topic is especially significant in the field of Natural Language Processing, as the goal is to differentiate texts belonging to a known set from those bringing new or emerging information. In this work, we propose to investigate different unsupervised models for novelty detection in a news dataset, with the objective of comparing them with supervised models. Models such as Local Outlier Factor, Isolation Forest, and Elliptic Envelope were evaluated, along with a modern approach based on the RAG architecture with Large Language Models, comparing them with baselines established in the literature. The metrics used include precision, recall, F1-score, and accuracy. The results demonstrated that the Local Outlier Factor model achieved promising performance, with an F1 of 80.90% and accuracy of 85.80%, compared to state-of-the-art baselines.
URI:	http://repositorio.utfpr.edu.br/jspui/handle/1/40266
Aparece nas coleções:	TD - Engenharia de Computação

Arquivos associados a este item:

Arquivo	Descrição	Tamanho	Formato
identificacaotemasemergentesnoticias.pdf		2,27 MB	Adobe PDF	Visualizar/Abrir

Mostrar registro completo do item Recomendar este item Visualizar estatísticas

Este item está licenciada sob uma Licença Creative Commons