Use este identificador para citar ou linkar para este item: http://repositorio.utfpr.edu.br/jspui/handle/1/40266
Título: Identificação de temas emergentes em notícias através de métodos não-supervisionados
Título(s) alternativo(s): Detection of emerging topics in news through unsupervised learning models
Autor(es): Ávila Buitrón, Martín
Orientador(es): Paetzold, Gustavo Henrique
Palavras-chave: Processamento de linguagem natural (Computação)
Aprendizado do computador
Natural language processing (Computer science)
Machine learning
Data do documento: 4-Dez-2025
Editor: Universidade Tecnológica Federal do Paraná
Câmpus: Toledo
Citação: Ávila Buitrón, Martín. Identificação de temas emergentes em notícias através de métodos não-supervisionados. 2025.Trabalho de Conclusão de Curso (Engenharia da Computação) - Universidade Tecnológica Federal do Paraná, Toledo, 2025.
Resumo: A Novelty Detection, ou detecção de novidade em documentos, é uma tarefa desafiadora e de grande relevância na atualidade. A literatura trata este problema sob distintas abordagens, utilizando aprendizado supervisionado, não supervisionado, autosupervisionado, entre outros. Este tema é especialmente significativo no campo do Processamento de Linguagem Natural, visto que o intuito é diferenciar textos que pertencem a um conjunto já conhecido daqueles que trazem informações inéditas ou emergentes. Neste trabalho, propõe-se investigar distintos métodos não supervisionados de detecção de novidade em um conjunto de dados de notícias, com o objetivo de compará-los com métodos supervisionados. Foram avaliados métodos como Local Outlier Factor, Isolation Forest e Elliptic Envelope, e uma abordagem moderna baseada na arquitetura RAG com modelos de linguagem de grande escala, comparando-os com baselines estabelecidos na literatura. As métricas utilizadas incluem precisão, recall, F1-score e acurácia. Os resultados demonstraram que o método LOF alcançou desempenho promissor, com F1 de 80,90% e acurácia de 85,80%, em comparação com os baselines do estado da arte.
Abstract: Novelty Detection in documents is a challenging task of great relevance today. The literature addresses this problem through different approaches, using supervised learning, unsupervised learning, self-supervised learning, among others. This topic is especially significant in the field of Natural Language Processing, as the goal is to differentiate texts belonging to a known set from those bringing new or emerging information. In this work, we propose to investigate different unsupervised models for novelty detection in a news dataset, with the objective of comparing them with supervised models. Models such as Local Outlier Factor, Isolation Forest, and Elliptic Envelope were evaluated, along with a modern approach based on the RAG architecture with Large Language Models, comparing them with baselines established in the literature. The metrics used include precision, recall, F1-score, and accuracy. The results demonstrated that the Local Outlier Factor model achieved promising performance, with an F1 of 80.90% and accuracy of 85.80%, compared to state-of-the-art baselines.
URI: http://repositorio.utfpr.edu.br/jspui/handle/1/40266
Aparece nas coleções:TD - Engenharia de Computação

Arquivos associados a este item:
Arquivo Descrição TamanhoFormato 
identificacaotemasemergentesnoticias.pdf2,27 MBAdobe PDFVisualizar/Abrir


Este item está licenciada sob uma Licença Creative Commons Creative Commons