Análise comparativa de técnicas de vetorização de texto na tarefa de classificação

Mello, Gustavo José da Silveira

Use este identificador para citar ou linkar para este item: http://repositorio.utfpr.edu.br/jspui/handle/1/40058

Registro completo de metadados

Campo DC	Valor	Idioma
dc.creator	Mello, Gustavo José da Silveira	-
dc.date.accessioned	2026-04-08T21:44:33Z	-
dc.date.available	2026-04-08T21:44:33Z	-
dc.date.issued	2025-11-27	-
dc.identifier.citation	MELLO, Gustavo José da Silveira. Análise comparativa de técnicas de vetorização de texto na tarefa de classificação. 2025. Trabalho de Conclusão de Curso (Bacharelado em Engenharia da Computação) - Universidade Tecnológica Federal do Paraná, Cornélio Procópio, 2025.	pt_BR
dc.identifier.uri	http://repositorio.utfpr.edu.br/jspui/handle/1/40058	-
dc.description.abstract	The exponential growth of textual data in digital environments has driven the development of efficient techniques for automatic text classification. In this context, the appropriate choice of a vectorization technique is a determining factor for the performance of classification models. This work aims to analyze and compare the performance trends of different text vectorization approaches applied to the classification task, considering frequency-based methods such as Bag of Words and TF-IDF, models that explore se- mantic relations such as Word2Vec, Glove, and Doc2Vec, and recent transformer-based and deep learning techniques such as BERT, ALBERT, ROBERTA, E5, Instructor-XL, and GPT2. To this end, the IMDb Reviews and 20 Newsgroups textual datasets are used, along with natural language preprocessing techniques, covering distinct domains in order to ensure the generalization of the results and to allow an analysis of differences between datasets. The methodology involves the standardized application of each vector- ization technique to the preprocessed textual data, followed by the training of supervised classification models. The resulting vectors are used as input to traditional classification models, including Random Forest, LinearSVC, and Logistic Regression, enabling a uni- form comparative analysis among the different textual representations. The techniques are compared based on quantitative metrics, including primarily accuracy, F1-score, and processing time. The study aims to identify the advantages, trends, and limitations of each approach, considering factors such as predictive performance, computational complexity, and suitability to different types of textual data. The results are intended to support researchers and practitioners in selecting more effective textual representation methods for specific applications, promoting greater efficiency in automated text analysis systems, as well as mapping the aptitude of different approaches across the chosen datasets.	pt_BR
dc.language	por	pt_BR
dc.publisher	Universidade Tecnológica Federal do Paraná	pt_BR
dc.rights	openAccess	pt_BR
dc.rights	Attribution-NonCommercial-ShareAlike 4.0 International	*
dc.rights.uri	http://creativecommons.org/licenses/by-nc-sa/4.0/	*
dc.subject	Classificação	pt_BR
dc.subject	Textos	pt_BR
dc.subject	Processamento eletrônico de dados	pt_BR
dc.subject	Classification	pt_BR
dc.subject	Texts	pt_BR
dc.subject	Electronic data processing	pt_BR
dc.title	Análise comparativa de técnicas de vetorização de texto na tarefa de classificação	pt_BR
dc.title.alternative	Comparative analysis of text vectorization techniques in text classification task	pt_BR
dc.type	bachelorThesis	pt_BR
dc.description.resumo	O crescimento exponencial de dados textuais em ambientes digitais tem impulsionado o desenvolvimento de técnicas eficientes para classificação automática de texto. Neste contexto, a escolha adequada da técnica de vetorização é um fator determinante para o desempenho dos modelos classificadores. Este trabalho tem como objetivo analisar e comparar a tendência do desempenho de diferentes abordagens de vetorização de texto aplicadas à tarefa de classificação, considerando métodos baseados em frequência, como Bag of Words e TF-IDF, modelos que exploram relações semânticas, como Word2Vec, GloVe e Doc2Vec, e técnicas recentes baseadas em transformadores e aprendizado profundo, como BERT, ALBERT, ROBERTA, E5, Instructor-XL e GPT2. Para isso, são utilizados os conjuntos de dados textuais IMDb Reviews e 20 Newsgroups, juntamente com técnicas de pré-processamento de linguagem natural, abrangendo domínios distintos com o intuito de garantir a generalização dos resultados e analisar-se a diferença também entre conjuntos. A metodologia envolve a aplicação padronizada de cada técnica de vetorização nos dados textuais pré-processados, seguida do treinamento de modelos de classificação supervisionada. Os vetores resultantes são utilizados como entrada para modelos de classificação tradicionais, incluindo Random Forest, LinearSVC e Logistic Regression, permitindo uma análise comparativa uniforme entre as diferentes representações textuais. As técnicas são comparadas com base em métricas quantitativas, incluindo principalmente acurácia e F1-score e tempo de processamento. Espera-se identificar as vantagens, tendências e limitações de cada abordagem, considerando fatores como desempenho preditivo, complexidade computacional e adequação ao tipo de dado textual. Os resultados obtidos visam auxiliar pesquisadores e profissionais da área na escolha de métodos de representação textual mais eficazes para aplicações específicas, promovendo maior eficiência em sistemas automatizados de análise de texto, além de mapear a aptidão de diferentes abordagens nas bases de dados escolhidas.	pt_BR
dc.degree.local	Cornélio Procópio	pt_BR
dc.publisher.local	Cornelio Procopio	pt_BR
dc.contributor.advisor1	Sanches, Danilo Sipoli	-
dc.contributor.referee1	Sanches, Danilo Sipoli	-
dc.contributor.referee2	Watanabe, Willian Massami	-
dc.contributor.referee3	Shishido, Henrique Yoshikazu	-
dc.publisher.country	Brasil	pt_BR
dc.publisher.program	Engenharia da Computação	pt_BR
dc.publisher.initials	UTFPR	pt_BR
dc.subject.cnpq	CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO	pt_BR
Aparece nas coleções:	CP - Engenharia da Computação

Arquivos associados a este item:

Arquivo	Descrição	Tamanho	Formato
analisecomparativavetorizadorestexto.pdf		2,42 MB	Adobe PDF	Visualizar/Abrir

Mostrar registro simples do item Recomendar este item Visualizar estatísticas

Este item está licenciada sob uma Licença Creative Commons