Use este identificador para citar ou linkar para este item:
http://repositorio.utfpr.edu.br/jspui/handle/1/40266| Título: | Identificação de temas emergentes em notícias através de métodos não-supervisionados |
| Título(s) alternativo(s): | Detection of emerging topics in news through unsupervised learning models |
| Autor(es): | Ávila Buitrón, Martín |
| Orientador(es): | Paetzold, Gustavo Henrique |
| Palavras-chave: | Processamento de linguagem natural (Computação) Aprendizado do computador Natural language processing (Computer science) Machine learning |
| Data do documento: | 4-Dez-2025 |
| Editor: | Universidade Tecnológica Federal do Paraná |
| Câmpus: | Toledo |
| Citação: | Ávila Buitrón, Martín. Identificação de temas emergentes em notícias através de métodos não-supervisionados. 2025.Trabalho de Conclusão de Curso (Engenharia da Computação) - Universidade Tecnológica Federal do Paraná, Toledo, 2025. |
| Resumo: | A Novelty Detection, ou detecção de novidade em documentos, é uma tarefa desafiadora e de grande relevância na atualidade. A literatura trata este problema sob distintas abordagens, utilizando aprendizado supervisionado, não supervisionado, autosupervisionado, entre outros. Este tema é especialmente significativo no campo do Processamento de Linguagem Natural, visto que o intuito é diferenciar textos que pertencem a um conjunto já conhecido daqueles que trazem informações inéditas ou emergentes. Neste trabalho, propõe-se investigar distintos métodos não supervisionados de detecção de novidade em um conjunto de dados de notícias, com o objetivo de compará-los com métodos supervisionados. Foram avaliados métodos como Local Outlier Factor, Isolation Forest e Elliptic Envelope, e uma abordagem moderna baseada na arquitetura RAG com modelos de linguagem de grande escala, comparando-os com baselines estabelecidos na literatura. As métricas utilizadas incluem precisão, recall, F1-score e acurácia. Os resultados demonstraram que o método LOF alcançou desempenho promissor, com F1 de 80,90% e acurácia de 85,80%, em comparação com os baselines do estado da arte. |
| Abstract: | Novelty Detection in documents is a challenging task of great relevance today. The literature addresses this problem through different approaches, using supervised learning, unsupervised learning, self-supervised learning, among others. This topic is especially significant in the field of Natural Language Processing, as the goal is to differentiate texts belonging to a known set from those bringing new or emerging information. In this work, we propose to investigate different unsupervised models for novelty detection in a news dataset, with the objective of comparing them with supervised models. Models such as Local Outlier Factor, Isolation Forest, and Elliptic Envelope were evaluated, along with a modern approach based on the RAG architecture with Large Language Models, comparing them with baselines established in the literature. The metrics used include precision, recall, F1-score, and accuracy. The results demonstrated that the Local Outlier Factor model achieved promising performance, with an F1 of 80.90% and accuracy of 85.80%, compared to state-of-the-art baselines. |
| URI: | http://repositorio.utfpr.edu.br/jspui/handle/1/40266 |
| Aparece nas coleções: | TD - Engenharia de Computação |
Arquivos associados a este item:
| Arquivo | Descrição | Tamanho | Formato | |
|---|---|---|---|---|
| identificacaotemasemergentesnoticias.pdf | 2,27 MB | Adobe PDF | Visualizar/Abrir |
Este item está licenciada sob uma Licença Creative Commons
