Pipeline paraextração automática de informações em documentos fiscais utilizando técnicas de inteligência artificial

Müller, Thassiana Camilia Amorim

Use este identificador para citar ou linkar para este item: http://repositorio.utfpr.edu.br/jspui/handle/1/39110

Registro completo de metadados

Campo DC	Valor	Idioma
dc.creator	Müller, Thassiana Camilia Amorim	-
dc.date.accessioned	2025-12-17T11:39:06Z	-
dc.date.available	2025-12-17T11:39:06Z	-
dc.date.issued	2025-11-27	-
dc.identifier.citation	MÜLLER, Thassiana Camilia Amorim. Pipeline paraextração automática de informações em documentos fiscais utilizando técnicas de inteligência artificial. 2025. Trabalho de Conclusão de Curso (Bacharelado em Engenharia de Computação) - Universidade Tecnológica Federal do Paraná, Pato Branco, 2025.	pt_BR
dc.identifier.uri	http://repositorio.utfpr.edu.br/jspui/handle/1/39110	-
dc.description.abstract	The automatic extraction of information from fiscal documents, such as invoices and billing sta- tements, presents challenges due to layout variability and the lack of national standardization. In this context, this work proposes the development of a pipeline for automated document reading that combines Optical Character Recognition (OCR), Natural Language Processing (NLP), and spatial text features to locate and extract data without relying on individual mappings through rigid templates. The methodology included image preprocessing with the Hough Transform and Unsharp Masking for alignment and noise correction, followed by the identification of label des- criptors using approximate search algorithms (Fuzzy Matching) with sliding n-grams. To extract the values, a semantic approach based on the BERT model juridics/bertimbau-base-portuguese- sts-scale was used to infer the types of entities expected for each label descriptor. In addition, a Named Entity Recognition (NER) model with fine-tuning was applied to identify, within spatially coherent text blocks (candidates), the information that could correspond to these labels. The combination of these components resulted in a decision system that integrates positional, se- mantic, and logical aspects. The results showed that preprocessing reduced the Character Error Rate (CER) by up to 45.2% in degraded documents. Label identification achieved an F1-Score of 96.00%, while the BERT model obtained 90% accuracy in semantic classification, and the fine-tuned NER model increased the F1-Score from 0.04 (baseline) to 0.71. The proposed solu- tion proves to be a resilient architecture operable locally (on-premises), capable of adapting to the heterogeneity of Brazilian fiscal documents and optimizing the efficiency of data acquisition.	pt_BR
dc.language	por	pt_BR
dc.publisher	Universidade Tecnológica Federal do Paraná	pt_BR
dc.rights	openAccess	pt_BR
dc.rights.uri	http://creativecommons.org/licenses/by/4.0/	pt_BR
dc.subject	Documentos eletrônicos	pt_BR
dc.subject	Notas fiscais	pt_BR
dc.subject	Reconhecimento óptico de caracteres	pt_BR
dc.subject	Electronic records	pt_BR
dc.subject	Bills of sale	pt_BR
dc.subject	Optical character recognition	pt_BR
dc.title	Pipeline paraextração automática de informações em documentos fiscais utilizando técnicas de inteligência artificial	pt_BR
dc.title.alternative	Pipeline for automated information extraction from fiscal documents using artificial intelligence techniques	pt_BR
dc.type	bachelorThesis	pt_BR
dc.description.resumo	A extração automática de informações em documentos fiscais, como notas fiscais e faturas, apresenta desafios devido à variabilidade de layouts e à falta de padronização nacional. Neste contexto, este trabalho propõe o desenvolvimento de um pipeline para leitura automatizada de documentos que combina técnicas de Reconhecimento Óptico de Caracteres (OCR), Proces- samento de Linguagem Natural (NLP) e características espaciais dos textos para a localização e extração de dados sem a dependência de mapeamentos individuais através de templates rí- gidos. A metodologia abrangeu o pré-processamento de imagens com Transformada de Hough e Máscara de Nitidez (Unsharp Masking) para correção de alinhamento e ruído, seguido pela localização dos rótulos identificadores das informações via algoritmos de busca aproximada (Fuzzy Matching) com n-grams deslizantes. Para extrair os valores, utilizou-se uma abordagem semântica baseada no modelo BERT juridics/bertimbau-base-portuguese-sts-scale para inferir os tipos de entidades esperados por cada rótulo identificador. Além disso, aplicou-se um modelo de Reconhecimento de Entidades Nomeadas (NER) com fine-tuning para reconhecer entidades em blocos de texto espacialmente coerentes (candidatos) que pudessem representar as informações correspondentes a esses rótulos. A combinação desses componentes resultou em um sistema de decisão que integra aspectos posicionais, semânticos e lógicos. Os resulta- dos demonstraram que o pré-processamento reduziu a Taxa de Erro de Caracteres (CER) em até 45,2% em documentos degradados. A identificação de rótulos alcançou um F1-Score de 96,00%, enquanto o modelo BERT obteve 90% de acurácia na classificação semântica, e o modelo NER ajustado elevou o F1-Score de 0,04 (baseline) para 0,71. A solução proposta valida- se como uma arquitetura resiliente e operável localmente (on-premises), capaz de adaptar-se à heterogeneidade dos documentos fiscais nacionais e otimizar a eficiência na aquisição dos dados.	pt_BR
dc.degree.local	Pato Branco	pt_BR
dc.publisher.local	Pato Branco	pt_BR
dc.contributor.advisor1	Dal Molin, Viviane	-
dc.contributor.advisor-co1	Rodrigues, Érick Oliveira	-
dc.contributor.referee1	Fávero, Eliane Maria De Bortoli	-
dc.contributor.referee2	Oliva, Jefferson Tales	-
dc.contributor.referee3	Dal Molin, Viviane	-
dc.publisher.country	Brasil	pt_BR
dc.publisher.department	Departamento Acadêmico de Informática	pt_BR
dc.publisher.program	Engenharia de Computação	pt_BR
dc.publisher.initials	UTFPR	pt_BR
dc.subject.cnpq	CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO	pt_BR
Aparece nas coleções:	PB - Engenharia de Computação

Arquivos associados a este item:

Arquivo	Descrição	Tamanho	Formato
extracaoautomaticadocumentosfiscais.pdf		5,23 MB	Adobe PDF	Visualizar/Abrir

Mostrar registro simples do item Recomendar este item Visualizar estatísticas

Este item está licenciada sob uma Licença Creative Commons