Use este identificador para citar ou linkar para este item: http://repositorio.utfpr.edu.br/jspui/handle/1/39255
Registro completo de metadados
Campo DCValorIdioma
dc.creatorBohaczk, João Paulo Abdala-
dc.date.accessioned2026-01-26T18:49:42Z-
dc.date.available2026-01-26T18:49:42Z-
dc.date.issued2025-12-03-
dc.identifier.citationBOHACZK, João Paulo Abdala. Reconhecimento óptico de caracteres para leitura de documentos em formato PDF. 2025. 40 f. Trabalho de Conclusão de Curso (Graduação) – Universidade Tecnológica Federal do Paraná, Guarapuava, 2025.pt_BR
dc.identifier.urihttp://repositorio.utfpr.edu.br/jspui/handle/1/39255-
dc.description.abstractGiven the inaccessibility of certain books and other texts published before the digital age, as well as the secondary treatment by the OCR community toward the processing of analyzed documents into digital text suitable for casual reading, the need is determined for a tool that, working with OCR, dedicates itself to the extraction of text from images or PDF files, aiming to facilitate the reading and dissemination of these texts. To achieve this objective, a comparative study was conducted between the OCR tools Paddle, Docling, and Tesseract, and the mLLM Gemini. A Python API was built to perform the OCR processing work and text formatting. This was integrated with a web interface developed using the PHP Laravel framework, with the aim of making the project available to the greatest number of people possible. The present work has both a scientific and experimental track, as well as a practical one, seeking to compare OCR tools and solve something that is often ignored by these tools: the proper formatting of the text for reading, also aiming to make the results of this research available as a tool that is easy for the community to use and access.pt_BR
dc.languageporpt_BR
dc.publisherUniversidade Tecnológica Federal do Paranápt_BR
dc.rightsopenAccesspt_BR
dc.rights.urihttp://creativecommons.org/licenses/by-sa/4.0/pt_BR
dc.subjectAprendizado do computadorpt_BR
dc.subjectPython (Linguagem de programação de computador)pt_BR
dc.subjectWorld Wide Web (Sistema de recuperação da informação)pt_BR
dc.subjectMachine learningpt_BR
dc.subjectPython (Computer program language)pt_BR
dc.subjectWorld Wide Web (Information Retrieval System)pt_BR
dc.titleReconhecimento óptico de caracteres para leitura de documentos em formato PDFpt_BR
dc.title.alternativeOptical character recognition for reading PDF documentspt_BR
dc.typebachelorThesispt_BR
dc.description.resumoDiante da inacessibilidade de determinados livros e outros textos publicados antes da era digital, bem como do tratamento secundário da comunidade de OCR para com o tratamento dos documentos analisados em texto digital próprio para a leitura casual, determina-se a necessidade de uma ferramenta que, trabalhando com OCR, dedique-se na extração de textos de imagens ou arquivos PDF, visando facilitar a leitura e disseminação desses textos. Para atingir esse objetivo foi realizado uma pesquisa comparativa entre ferramentas OCR Paddle, Docling e Tesseract e a mLLM Gemini. Foi construída uma API em Python para realizar o trabalho de processamento do OCR e a formatação do texto . Isso foi integrado por uma interface web desenvolvida com o framework PHP Laravel, com o objetivo de disponibilizar o projeto para a maior quantidade de pessoas possível. O presente trabalho possui tanto uma via científica e experimental como prática, buscando comparar as ferramentas OCR e solucionar algo que é, por muitas vezes, ignorado pelas ferramentas, a devida formatação do texto para leitura, também tendo como objetivo disponibilizar os resultados dessa pesquisa como uma ferramenta de fácil uso e acesso para a comunidade.pt_BR
dc.degree.localGuarapuavapt_BR
dc.publisher.localGuarapuavapt_BR
dc.contributor.advisor1Wiggers, Kelly Lais-
dc.contributor.referee1Wiggers, Kelly Lais-
dc.contributor.referee2Krynski, Eleandro Maschio-
dc.contributor.referee3Stange, Renata Luiza-
dc.publisher.countryBrasilpt_BR
dc.publisher.programTecnologia em Sistemas para Internetpt_BR
dc.publisher.initialsUTFPRpt_BR
dc.subject.cnpqCNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAOpt_BR
Aparece nas coleções:GP - Tecnologia em Sistemas para Internet

Arquivos associados a este item:
Arquivo Descrição TamanhoFormato 
detecçãodetextosaprendizadodemáquina.pdf6,51 MBAdobe PDFThumbnail
Visualizar/Abrir


Este item está licenciada sob uma Licença Creative Commons Creative Commons