Dispositivo assistivo para leitura baseado em captura de imagem e reconhecimento óptico de caracteres

Maschietto Filho, Luiz Antonio

Use este identificador para citar ou linkar para este item: http://repositorio.utfpr.edu.br/jspui/handle/1/39108

Registro completo de metadados

Campo DC	Valor	Idioma
dc.creator	Maschietto Filho, Luiz Antonio	-
dc.date.accessioned	2025-12-17T11:34:59Z	-
dc.date.available	2025-12-17T11:34:59Z	-
dc.date.issued	2025-11-26	-
dc.identifier.citation	MASCHIETTO FILHO, Luiz Antonio. Dispositivo assistivo para leitura baseado em captura de imagem e reconhecimento óptico de caracteres. 2025. Trabalho de Conclusão de Curso (Bacharelado em Engenharia de Computação) - Universidade Tecnológica Federal do Paraná, Pato Branco, 2025.	pt_BR
dc.identifier.uri	http://repositorio.utfpr.edu.br/jspui/handle/1/39108	-
dc.description.abstract	This project introduces the development of an assistive device made for people with low vision or dyslexia, utilizing image capture, optical character recognition and text-to-speech in a low-cost portable system. The prototype connects two main modules: The MaixCam, responsible for the image capture and the processing of the OCR, and the ESP32-WROVER, which is in charge of the voice synthesis and the audio transmission to the user via Bluetooth. The communication between modules is made using Universal Asynchronous Receiver-Transmitter (UART) guaranteeing low energy consumption. The Image processing begins with a capture made by the device. To make this image adequate to the OCR it passes through a series of steps of pre-processing. First, the page area is identified analyzing contours and borders, fixing the perspective to align it as a frontal digitalization. After this all external contours and unwanted elements are removed from the background, maintaining only the relevant region of the text. The text is then separated in multiple segments based on the spaces in between the text blocks, generating horizontal cuts that represent different paragraphs. Thus, it is possible to run the OCR in each paragraph separately. Each paragraph is converted into text and sent to the ESP directly, so it can run the Text-To Speech (TTS). The results were that the OCR had two types of accuracy, 92.5% for semantic similarity and 6.25% for exact similarity, which reflects directly on the quality of the TTS. With these results in mind, an additional process of textual post-processing was considered, so that the first accuracy result would become more representative of the TTS’s quality but this process wasn’t possible due to the lack of libraries compatible with the MaixCam. In conclusion, despite the limitations found, this project presents contributions to the field of assistive technologies, introducing an embedded low-cost solution to the problem proposed, reinforcing the potential of automatic reading devices, providing autonomy and inclusion to people with visual impairments and reading disabilities.	pt_BR
dc.language	por	pt_BR
dc.publisher	Universidade Tecnológica Federal do Paraná	pt_BR
dc.rights	openAccess	pt_BR
dc.rights.uri	http://creativecommons.org/licenses/by/4.0/	pt_BR
dc.subject	quipamentos de autoajuda para pessoas com deficiência	pt_BR
dc.subject	Reconhecimento óptico de caracteres	pt_BR
dc.subject	Sistemas de processamento da fala	pt_BR
dc.subject	Processamento de imagens	pt_BR
dc.subject	Sistemas embarcados (Computadores)	pt_BR
dc.subject	Self-help devices for people with disabilities	pt_BR
dc.subject	Optical character recognition	pt_BR
dc.subject	Speech processing systems	pt_BR
dc.subject	Image processing	pt_BR
dc.subject	Embedded computer systems	pt_BR
dc.title	Dispositivo assistivo para leitura baseado em captura de imagem e reconhecimento óptico de caracteres	pt_BR
dc.title.alternative	Reading assistive device based on image capture and character optical recognizing	pt_BR
dc.type	bachelorThesis	pt_BR
dc.description.resumo	Este projeto apresenta o desenvolvimento de um dispositivo assistivo voltado para pessoas com baixa visão ou dislexia, combinando captura de imagem, reconhecimento óptico de caracteres (Optical Character Recognition - OCR) e síntese de voz em um sistema portátil e de baixo custo. A solução integra dois módulos principais: o MaixCam, responsável pela captura da imagem e processamento de OCR, e o ESP32-WROVER, encarregado da síntese de voz e da transmissão do áudio ao usuário via Bluetooth. A comunicação entre os módulos é realizada por Universal Asynchronous Receiver-Transmitter (UART), garantindo baixo consumo energético. O processamento da imagem no dispositivo inicia a partir de uma captura realizada pelo dispositivo. Para tornar essa imagem adequada ao OCR, aplica-se uma sequência de etapas de pré-processamento. Primeiro, identifica-se automaticamente a área da página analisando bordas e contornos, corrigindo sua perspectiva para alinhá-la como se fosse uma digitalização frontal. Em seguida, eliminam-se margens externas e elementos indesejados do fundo, mantendo apenas a região relevante do texto. Após isso, realiza-se um novo enquadramento, isolando de forma mais precisa o conteúdo textual útil. Por fim, o texto é separado em múltiplos segmentos com base nos espaços entre blocos textuais, gerando cortes horizontais que representam os diferentes parágrafos. Assim, é possível realizar o OCR em cada paragrafo separadamente. Em seguida cada parágrafo convertido em texto é enviado diretamente para o ESP que executa o text-to-speech (TTS). Os resultados demonstraram que o OCR atingiu dois tipos de acurácia: 92,5% para similaridade semântica e 6,25% para similaridade exata, que reflete diretamente na qualidade do TTS. Com base nesses resultados, considerou-se uma fase adicional de pós-processamento textual para que o primeiro teste de acurácia seja mais representativo da qualidade do TTS, entretanto, a implementação não foi possível por falta de disponibilidade de bibliotecas compatíveis com o MaixCam. Conclui-se que, apesar das limitações encontradas, este projeto apresenta contribuições para o campo de tecnologias assistivas introduzindo uma solução embarcada de baixo custo para o problema proposto, reforçando o potencial de dispositivos de leitura automatizada proporcionando maior autonomia e inclusão para pessoas com baixa visão ou dificuldades de leitura.	pt_BR
dc.degree.local	Pato Branco	pt_BR
dc.publisher.local	Pato Branco	pt_BR
dc.contributor.advisor1	Ascari, Soelaine Rodrigues	-
dc.contributor.advisor-co1	Denardin, Gustavo Weber	-
dc.contributor.referee1	Ascari, Soelaine Rodrigues	-
dc.contributor.referee2	Denardin, Gustavo Weber	-
dc.contributor.referee3	Fávero, Eliane Maria De Bortoli	-
dc.contributor.referee4	Guarneri, Giovanni Alfredo	-
dc.publisher.country	Brasil	pt_BR
dc.publisher.department	Departamento Acadêmico de Informática	pt_BR
dc.publisher.program	Engenharia de Computação	pt_BR
dc.publisher.initials	UTFPR	pt_BR
dc.subject.cnpq	CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO	pt_BR
Aparece nas coleções:	PB - Engenharia de Computação

Arquivos associados a este item:

Arquivo	Descrição	Tamanho	Formato
dispositivoassistivoembarcado.pdf		2,19 MB	Adobe PDF	Visualizar/Abrir

Mostrar registro simples do item Recomendar este item Visualizar estatísticas

Este item está licenciada sob uma Licença Creative Commons