Use este identificador para citar ou linkar para este item: http://repositorio.utfpr.edu.br/jspui/handle/1/40058
Registro completo de metadados
Campo DCValorIdioma
dc.creatorMello, Gustavo José da Silveira-
dc.date.accessioned2026-04-08T21:44:33Z-
dc.date.available2026-04-08T21:44:33Z-
dc.date.issued2025-11-27-
dc.identifier.citationMELLO, Gustavo José da Silveira. Análise comparativa de técnicas de vetorização de texto na tarefa de classificação. 2025. Trabalho de Conclusão de Curso (Bacharelado em Engenharia da Computação) - Universidade Tecnológica Federal do Paraná, Cornélio Procópio, 2025.pt_BR
dc.identifier.urihttp://repositorio.utfpr.edu.br/jspui/handle/1/40058-
dc.description.abstractThe exponential growth of textual data in digital environments has driven the development of efficient techniques for automatic text classification. In this context, the appropriate choice of a vectorization technique is a determining factor for the performance of classification models. This work aims to analyze and compare the performance trends of different text vectorization approaches applied to the classification task, considering frequency-based methods such as Bag of Words and TF-IDF, models that explore se- mantic relations such as Word2Vec, Glove, and Doc2Vec, and recent transformer-based and deep learning techniques such as BERT, ALBERT, ROBERTA, E5, Instructor-XL, and GPT2. To this end, the IMDb Reviews and 20 Newsgroups textual datasets are used, along with natural language preprocessing techniques, covering distinct domains in order to ensure the generalization of the results and to allow an analysis of differences between datasets. The methodology involves the standardized application of each vector- ization technique to the preprocessed textual data, followed by the training of supervised classification models. The resulting vectors are used as input to traditional classification models, including Random Forest, LinearSVC, and Logistic Regression, enabling a uni- form comparative analysis among the different textual representations. The techniques are compared based on quantitative metrics, including primarily accuracy, F1-score, and processing time. The study aims to identify the advantages, trends, and limitations of each approach, considering factors such as predictive performance, computational complexity, and suitability to different types of textual data. The results are intended to support researchers and practitioners in selecting more effective textual representation methods for specific applications, promoting greater efficiency in automated text analysis systems, as well as mapping the aptitude of different approaches across the chosen datasets.pt_BR
dc.languageporpt_BR
dc.publisherUniversidade Tecnológica Federal do Paranápt_BR
dc.rightsopenAccesspt_BR
dc.rightsAttribution-NonCommercial-ShareAlike 4.0 International*
dc.rights.urihttp://creativecommons.org/licenses/by-nc-sa/4.0/*
dc.subjectClassificaçãopt_BR
dc.subjectTextospt_BR
dc.subjectProcessamento eletrônico de dadospt_BR
dc.subjectClassificationpt_BR
dc.subjectTextspt_BR
dc.subjectElectronic data processingpt_BR
dc.titleAnálise comparativa de técnicas de vetorização de texto na tarefa de classificaçãopt_BR
dc.title.alternativeComparative analysis of text vectorization techniques in text classification taskpt_BR
dc.typebachelorThesispt_BR
dc.description.resumoO crescimento exponencial de dados textuais em ambientes digitais tem impulsionado o desenvolvimento de técnicas eficientes para classificação automática de texto. Neste contexto, a escolha adequada da técnica de vetorização é um fator determinante para o desempenho dos modelos classificadores. Este trabalho tem como objetivo analisar e comparar a tendência do desempenho de diferentes abordagens de vetorização de texto aplicadas à tarefa de classificação, considerando métodos baseados em frequência, como Bag of Words e TF-IDF, modelos que exploram relações semânticas, como Word2Vec, GloVe e Doc2Vec, e técnicas recentes baseadas em transformadores e aprendizado profundo, como BERT, ALBERT, ROBERTA, E5, Instructor-XL e GPT2. Para isso, são utilizados os conjuntos de dados textuais IMDb Reviews e 20 Newsgroups, juntamente com técnicas de pré-processamento de linguagem natural, abrangendo domínios distintos com o intuito de garantir a generalização dos resultados e analisar-se a diferença também entre conjuntos. A metodologia envolve a aplicação padronizada de cada técnica de vetorização nos dados textuais pré-processados, seguida do treinamento de modelos de classificação supervisionada. Os vetores resultantes são utilizados como entrada para modelos de classificação tradicionais, incluindo Random Forest, LinearSVC e Logistic Regression, permitindo uma análise comparativa uniforme entre as diferentes representações textuais. As técnicas são comparadas com base em métricas quantitativas, incluindo principalmente acurácia e F1-score e tempo de processamento. Espera-se identificar as vantagens, tendências e limitações de cada abordagem, considerando fatores como desempenho preditivo, complexidade computacional e adequação ao tipo de dado textual. Os resultados obtidos visam auxiliar pesquisadores e profissionais da área na escolha de métodos de representação textual mais eficazes para aplicações específicas, promovendo maior eficiência em sistemas automatizados de análise de texto, além de mapear a aptidão de diferentes abordagens nas bases de dados escolhidas.pt_BR
dc.degree.localCornélio Procópiopt_BR
dc.publisher.localCornelio Procopiopt_BR
dc.contributor.advisor1Sanches, Danilo Sipoli-
dc.contributor.referee1Sanches, Danilo Sipoli-
dc.contributor.referee2Watanabe, Willian Massami-
dc.contributor.referee3Shishido, Henrique Yoshikazu-
dc.publisher.countryBrasilpt_BR
dc.publisher.programEngenharia da Computaçãopt_BR
dc.publisher.initialsUTFPRpt_BR
dc.subject.cnpqCNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAOpt_BR
Aparece nas coleções:CP - Engenharia da Computação

Arquivos associados a este item:
Arquivo Descrição TamanhoFormato 
analisecomparativavetorizadorestexto.pdf2,42 MBAdobe PDFThumbnail
Visualizar/Abrir


Este item está licenciada sob uma Licença Creative Commons Creative Commons