Use este identificador para citar ou linkar para este item: http://repositorio.utfpr.edu.br/jspui/handle/1/39110
Registro completo de metadados
Campo DCValorIdioma
dc.creatorMüller, Thassiana Camilia Amorim-
dc.date.accessioned2025-12-17T11:39:06Z-
dc.date.available2025-12-17T11:39:06Z-
dc.date.issued2025-11-27-
dc.identifier.citationMÜLLER, Thassiana Camilia Amorim. Pipeline paraextração automática de informações em documentos fiscais utilizando técnicas de inteligência artificial. 2025. Trabalho de Conclusão de Curso (Bacharelado em Engenharia de Computação) - Universidade Tecnológica Federal do Paraná, Pato Branco, 2025.pt_BR
dc.identifier.urihttp://repositorio.utfpr.edu.br/jspui/handle/1/39110-
dc.description.abstractThe automatic extraction of information from fiscal documents, such as invoices and billing sta- tements, presents challenges due to layout variability and the lack of national standardization. In this context, this work proposes the development of a pipeline for automated document reading that combines Optical Character Recognition (OCR), Natural Language Processing (NLP), and spatial text features to locate and extract data without relying on individual mappings through rigid templates. The methodology included image preprocessing with the Hough Transform and Unsharp Masking for alignment and noise correction, followed by the identification of label des- criptors using approximate search algorithms (Fuzzy Matching) with sliding n-grams. To extract the values, a semantic approach based on the BERT model juridics/bertimbau-base-portuguese- sts-scale was used to infer the types of entities expected for each label descriptor. In addition, a Named Entity Recognition (NER) model with fine-tuning was applied to identify, within spatially coherent text blocks (candidates), the information that could correspond to these labels. The combination of these components resulted in a decision system that integrates positional, se- mantic, and logical aspects. The results showed that preprocessing reduced the Character Error Rate (CER) by up to 45.2% in degraded documents. Label identification achieved an F1-Score of 96.00%, while the BERT model obtained 90% accuracy in semantic classification, and the fine-tuned NER model increased the F1-Score from 0.04 (baseline) to 0.71. The proposed solu- tion proves to be a resilient architecture operable locally (on-premises), capable of adapting to the heterogeneity of Brazilian fiscal documents and optimizing the efficiency of data acquisition.pt_BR
dc.languageporpt_BR
dc.publisherUniversidade Tecnológica Federal do Paranápt_BR
dc.rightsopenAccesspt_BR
dc.rights.urihttp://creativecommons.org/licenses/by/4.0/pt_BR
dc.subjectDocumentos eletrônicospt_BR
dc.subjectNotas fiscaispt_BR
dc.subjectReconhecimento óptico de caracterespt_BR
dc.subjectElectronic recordspt_BR
dc.subjectBills of salept_BR
dc.subjectOptical character recognitionpt_BR
dc.titlePipeline paraextração automática de informações em documentos fiscais utilizando técnicas de inteligência artificialpt_BR
dc.title.alternativePipeline for automated information extraction from fiscal documents using artificial intelligence techniquespt_BR
dc.typebachelorThesispt_BR
dc.description.resumoA extração automática de informações em documentos fiscais, como notas fiscais e faturas, apresenta desafios devido à variabilidade de layouts e à falta de padronização nacional. Neste contexto, este trabalho propõe o desenvolvimento de um pipeline para leitura automatizada de documentos que combina técnicas de Reconhecimento Óptico de Caracteres (OCR), Proces- samento de Linguagem Natural (NLP) e características espaciais dos textos para a localização e extração de dados sem a dependência de mapeamentos individuais através de templates rí- gidos. A metodologia abrangeu o pré-processamento de imagens com Transformada de Hough e Máscara de Nitidez (Unsharp Masking) para correção de alinhamento e ruído, seguido pela localização dos rótulos identificadores das informações via algoritmos de busca aproximada (Fuzzy Matching) com n-grams deslizantes. Para extrair os valores, utilizou-se uma abordagem semântica baseada no modelo BERT juridics/bertimbau-base-portuguese-sts-scale para inferir os tipos de entidades esperados por cada rótulo identificador. Além disso, aplicou-se um modelo de Reconhecimento de Entidades Nomeadas (NER) com fine-tuning para reconhecer entidades em blocos de texto espacialmente coerentes (candidatos) que pudessem representar as informações correspondentes a esses rótulos. A combinação desses componentes resultou em um sistema de decisão que integra aspectos posicionais, semânticos e lógicos. Os resulta- dos demonstraram que o pré-processamento reduziu a Taxa de Erro de Caracteres (CER) em até 45,2% em documentos degradados. A identificação de rótulos alcançou um F1-Score de 96,00%, enquanto o modelo BERT obteve 90% de acurácia na classificação semântica, e o modelo NER ajustado elevou o F1-Score de 0,04 (baseline) para 0,71. A solução proposta valida- se como uma arquitetura resiliente e operável localmente (on-premises), capaz de adaptar-se à heterogeneidade dos documentos fiscais nacionais e otimizar a eficiência na aquisição dos dados.pt_BR
dc.degree.localPato Brancopt_BR
dc.publisher.localPato Brancopt_BR
dc.contributor.advisor1Dal Molin, Viviane-
dc.contributor.advisor-co1Rodrigues, Érick Oliveira-
dc.contributor.referee1Fávero, Eliane Maria De Bortoli-
dc.contributor.referee2Oliva, Jefferson Tales-
dc.contributor.referee3Dal Molin, Viviane-
dc.publisher.countryBrasilpt_BR
dc.publisher.departmentDepartamento Acadêmico de Informáticapt_BR
dc.publisher.programEngenharia de Computaçãopt_BR
dc.publisher.initialsUTFPRpt_BR
dc.subject.cnpqCNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAOpt_BR
Aparece nas coleções:PB - Engenharia de Computação

Arquivos associados a este item:
Arquivo Descrição TamanhoFormato 
extracaoautomaticadocumentosfiscais.pdf5,23 MBAdobe PDFThumbnail
Visualizar/Abrir


Este item está licenciada sob uma Licença Creative Commons Creative Commons