Use este identificador para citar ou linkar para este item:
http://repositorio.utfpr.edu.br/jspui/handle/1/39255Registro completo de metadados
| Campo DC | Valor | Idioma |
|---|---|---|
| dc.creator | Bohaczk, João Paulo Abdala | - |
| dc.date.accessioned | 2026-01-26T18:49:42Z | - |
| dc.date.available | 2026-01-26T18:49:42Z | - |
| dc.date.issued | 2025-12-03 | - |
| dc.identifier.citation | BOHACZK, João Paulo Abdala. Reconhecimento óptico de caracteres para leitura de documentos em formato PDF. 2025. 40 f. Trabalho de Conclusão de Curso (Graduação) – Universidade Tecnológica Federal do Paraná, Guarapuava, 2025. | pt_BR |
| dc.identifier.uri | http://repositorio.utfpr.edu.br/jspui/handle/1/39255 | - |
| dc.description.abstract | Given the inaccessibility of certain books and other texts published before the digital age, as well as the secondary treatment by the OCR community toward the processing of analyzed documents into digital text suitable for casual reading, the need is determined for a tool that, working with OCR, dedicates itself to the extraction of text from images or PDF files, aiming to facilitate the reading and dissemination of these texts. To achieve this objective, a comparative study was conducted between the OCR tools Paddle, Docling, and Tesseract, and the mLLM Gemini. A Python API was built to perform the OCR processing work and text formatting. This was integrated with a web interface developed using the PHP Laravel framework, with the aim of making the project available to the greatest number of people possible. The present work has both a scientific and experimental track, as well as a practical one, seeking to compare OCR tools and solve something that is often ignored by these tools: the proper formatting of the text for reading, also aiming to make the results of this research available as a tool that is easy for the community to use and access. | pt_BR |
| dc.language | por | pt_BR |
| dc.publisher | Universidade Tecnológica Federal do Paraná | pt_BR |
| dc.rights | openAccess | pt_BR |
| dc.rights.uri | http://creativecommons.org/licenses/by-sa/4.0/ | pt_BR |
| dc.subject | Aprendizado do computador | pt_BR |
| dc.subject | Python (Linguagem de programação de computador) | pt_BR |
| dc.subject | World Wide Web (Sistema de recuperação da informação) | pt_BR |
| dc.subject | Machine learning | pt_BR |
| dc.subject | Python (Computer program language) | pt_BR |
| dc.subject | World Wide Web (Information Retrieval System) | pt_BR |
| dc.title | Reconhecimento óptico de caracteres para leitura de documentos em formato PDF | pt_BR |
| dc.title.alternative | Optical character recognition for reading PDF documents | pt_BR |
| dc.type | bachelorThesis | pt_BR |
| dc.description.resumo | Diante da inacessibilidade de determinados livros e outros textos publicados antes da era digital, bem como do tratamento secundário da comunidade de OCR para com o tratamento dos documentos analisados em texto digital próprio para a leitura casual, determina-se a necessidade de uma ferramenta que, trabalhando com OCR, dedique-se na extração de textos de imagens ou arquivos PDF, visando facilitar a leitura e disseminação desses textos. Para atingir esse objetivo foi realizado uma pesquisa comparativa entre ferramentas OCR Paddle, Docling e Tesseract e a mLLM Gemini. Foi construída uma API em Python para realizar o trabalho de processamento do OCR e a formatação do texto . Isso foi integrado por uma interface web desenvolvida com o framework PHP Laravel, com o objetivo de disponibilizar o projeto para a maior quantidade de pessoas possível. O presente trabalho possui tanto uma via científica e experimental como prática, buscando comparar as ferramentas OCR e solucionar algo que é, por muitas vezes, ignorado pelas ferramentas, a devida formatação do texto para leitura, também tendo como objetivo disponibilizar os resultados dessa pesquisa como uma ferramenta de fácil uso e acesso para a comunidade. | pt_BR |
| dc.degree.local | Guarapuava | pt_BR |
| dc.publisher.local | Guarapuava | pt_BR |
| dc.contributor.advisor1 | Wiggers, Kelly Lais | - |
| dc.contributor.referee1 | Wiggers, Kelly Lais | - |
| dc.contributor.referee2 | Krynski, Eleandro Maschio | - |
| dc.contributor.referee3 | Stange, Renata Luiza | - |
| dc.publisher.country | Brasil | pt_BR |
| dc.publisher.program | Tecnologia em Sistemas para Internet | pt_BR |
| dc.publisher.initials | UTFPR | pt_BR |
| dc.subject.cnpq | CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO | pt_BR |
| Aparece nas coleções: | GP - Tecnologia em Sistemas para Internet | |
Arquivos associados a este item:
| Arquivo | Descrição | Tamanho | Formato | |
|---|---|---|---|---|
| detecçãodetextosaprendizadodemáquina.pdf | 6,51 MB | Adobe PDF | ![]() Visualizar/Abrir |
Este item está licenciada sob uma Licença Creative Commons

