Pipeline paraextração automática de informações em documentos fiscais utilizando técnicas de inteligência artificial

Müller, Thassiana Camilia Amorim

Use este identificador para citar ou linkar para este item: http://repositorio.utfpr.edu.br/jspui/handle/1/39110

Título:	Pipeline paraextração automática de informações em documentos fiscais utilizando técnicas de inteligência artificial
Título(s) alternativo(s):	Pipeline for automated information extraction from fiscal documents using artificial intelligence techniques
Autor(es):	Müller, Thassiana Camilia Amorim
Orientador(es):	Dal Molin, Viviane
Palavras-chave:	Documentos eletrônicos Notas fiscais Reconhecimento óptico de caracteres Electronic records Bills of sale Optical character recognition
Data do documento:	27-Nov-2025
Editor:	Universidade Tecnológica Federal do Paraná
Câmpus:	Pato Branco
Citação:	MÜLLER, Thassiana Camilia Amorim. Pipeline paraextração automática de informações em documentos fiscais utilizando técnicas de inteligência artificial. 2025. Trabalho de Conclusão de Curso (Bacharelado em Engenharia de Computação) - Universidade Tecnológica Federal do Paraná, Pato Branco, 2025.
Resumo:	A extração automática de informações em documentos fiscais, como notas fiscais e faturas, apresenta desafios devido à variabilidade de layouts e à falta de padronização nacional. Neste contexto, este trabalho propõe o desenvolvimento de um pipeline para leitura automatizada de documentos que combina técnicas de Reconhecimento Óptico de Caracteres (OCR), Proces- samento de Linguagem Natural (NLP) e características espaciais dos textos para a localização e extração de dados sem a dependência de mapeamentos individuais através de templates rí- gidos. A metodologia abrangeu o pré-processamento de imagens com Transformada de Hough e Máscara de Nitidez (Unsharp Masking) para correção de alinhamento e ruído, seguido pela localização dos rótulos identificadores das informações via algoritmos de busca aproximada (Fuzzy Matching) com n-grams deslizantes. Para extrair os valores, utilizou-se uma abordagem semântica baseada no modelo BERT juridics/bertimbau-base-portuguese-sts-scale para inferir os tipos de entidades esperados por cada rótulo identificador. Além disso, aplicou-se um modelo de Reconhecimento de Entidades Nomeadas (NER) com fine-tuning para reconhecer entidades em blocos de texto espacialmente coerentes (candidatos) que pudessem representar as informações correspondentes a esses rótulos. A combinação desses componentes resultou em um sistema de decisão que integra aspectos posicionais, semânticos e lógicos. Os resulta- dos demonstraram que o pré-processamento reduziu a Taxa de Erro de Caracteres (CER) em até 45,2% em documentos degradados. A identificação de rótulos alcançou um F1-Score de 96,00%, enquanto o modelo BERT obteve 90% de acurácia na classificação semântica, e o modelo NER ajustado elevou o F1-Score de 0,04 (baseline) para 0,71. A solução proposta valida- se como uma arquitetura resiliente e operável localmente (on-premises), capaz de adaptar-se à heterogeneidade dos documentos fiscais nacionais e otimizar a eficiência na aquisição dos dados.
Abstract:	The automatic extraction of information from fiscal documents, such as invoices and billing sta- tements, presents challenges due to layout variability and the lack of national standardization. In this context, this work proposes the development of a pipeline for automated document reading that combines Optical Character Recognition (OCR), Natural Language Processing (NLP), and spatial text features to locate and extract data without relying on individual mappings through rigid templates. The methodology included image preprocessing with the Hough Transform and Unsharp Masking for alignment and noise correction, followed by the identification of label des- criptors using approximate search algorithms (Fuzzy Matching) with sliding n-grams. To extract the values, a semantic approach based on the BERT model juridics/bertimbau-base-portuguese- sts-scale was used to infer the types of entities expected for each label descriptor. In addition, a Named Entity Recognition (NER) model with fine-tuning was applied to identify, within spatially coherent text blocks (candidates), the information that could correspond to these labels. The combination of these components resulted in a decision system that integrates positional, se- mantic, and logical aspects. The results showed that preprocessing reduced the Character Error Rate (CER) by up to 45.2% in degraded documents. Label identification achieved an F1-Score of 96.00%, while the BERT model obtained 90% accuracy in semantic classification, and the fine-tuned NER model increased the F1-Score from 0.04 (baseline) to 0.71. The proposed solu- tion proves to be a resilient architecture operable locally (on-premises), capable of adapting to the heterogeneity of Brazilian fiscal documents and optimizing the efficiency of data acquisition.
URI:	http://repositorio.utfpr.edu.br/jspui/handle/1/39110
Aparece nas coleções:	PB - Engenharia de Computação

Arquivos associados a este item:

Arquivo	Descrição	Tamanho	Formato
extracaoautomaticadocumentosfiscais.pdf		5,23 MB	Adobe PDF	Visualizar/Abrir

Mostrar registro completo do item Recomendar este item Visualizar estatísticas

Este item está licenciada sob uma Licença Creative Commons