Dispositivo assistivo para leitura baseado em captura de imagem e reconhecimento óptico de caracteres

Maschietto Filho, Luiz Antonio

Use este identificador para citar ou linkar para este item: http://repositorio.utfpr.edu.br/jspui/handle/1/39108

Título:	Dispositivo assistivo para leitura baseado em captura de imagem e reconhecimento óptico de caracteres
Título(s) alternativo(s):	Reading assistive device based on image capture and character optical recognizing
Autor(es):	Maschietto Filho, Luiz Antonio
Orientador(es):	Ascari, Soelaine Rodrigues
Palavras-chave:	quipamentos de autoajuda para pessoas com deficiência Reconhecimento óptico de caracteres Sistemas de processamento da fala Processamento de imagens Sistemas embarcados (Computadores) Self-help devices for people with disabilities Optical character recognition Speech processing systems Image processing Embedded computer systems
Data do documento:	26-Nov-2025
Editor:	Universidade Tecnológica Federal do Paraná
Câmpus:	Pato Branco
Citação:	MASCHIETTO FILHO, Luiz Antonio. Dispositivo assistivo para leitura baseado em captura de imagem e reconhecimento óptico de caracteres. 2025. Trabalho de Conclusão de Curso (Bacharelado em Engenharia de Computação) - Universidade Tecnológica Federal do Paraná, Pato Branco, 2025.
Resumo:	Este projeto apresenta o desenvolvimento de um dispositivo assistivo voltado para pessoas com baixa visão ou dislexia, combinando captura de imagem, reconhecimento óptico de caracteres (Optical Character Recognition - OCR) e síntese de voz em um sistema portátil e de baixo custo. A solução integra dois módulos principais: o MaixCam, responsável pela captura da imagem e processamento de OCR, e o ESP32-WROVER, encarregado da síntese de voz e da transmissão do áudio ao usuário via Bluetooth. A comunicação entre os módulos é realizada por Universal Asynchronous Receiver-Transmitter (UART), garantindo baixo consumo energético. O processamento da imagem no dispositivo inicia a partir de uma captura realizada pelo dispositivo. Para tornar essa imagem adequada ao OCR, aplica-se uma sequência de etapas de pré-processamento. Primeiro, identifica-se automaticamente a área da página analisando bordas e contornos, corrigindo sua perspectiva para alinhá-la como se fosse uma digitalização frontal. Em seguida, eliminam-se margens externas e elementos indesejados do fundo, mantendo apenas a região relevante do texto. Após isso, realiza-se um novo enquadramento, isolando de forma mais precisa o conteúdo textual útil. Por fim, o texto é separado em múltiplos segmentos com base nos espaços entre blocos textuais, gerando cortes horizontais que representam os diferentes parágrafos. Assim, é possível realizar o OCR em cada paragrafo separadamente. Em seguida cada parágrafo convertido em texto é enviado diretamente para o ESP que executa o text-to-speech (TTS). Os resultados demonstraram que o OCR atingiu dois tipos de acurácia: 92,5% para similaridade semântica e 6,25% para similaridade exata, que reflete diretamente na qualidade do TTS. Com base nesses resultados, considerou-se uma fase adicional de pós-processamento textual para que o primeiro teste de acurácia seja mais representativo da qualidade do TTS, entretanto, a implementação não foi possível por falta de disponibilidade de bibliotecas compatíveis com o MaixCam. Conclui-se que, apesar das limitações encontradas, este projeto apresenta contribuições para o campo de tecnologias assistivas introduzindo uma solução embarcada de baixo custo para o problema proposto, reforçando o potencial de dispositivos de leitura automatizada proporcionando maior autonomia e inclusão para pessoas com baixa visão ou dificuldades de leitura.
Abstract:	This project introduces the development of an assistive device made for people with low vision or dyslexia, utilizing image capture, optical character recognition and text-to-speech in a low-cost portable system. The prototype connects two main modules: The MaixCam, responsible for the image capture and the processing of the OCR, and the ESP32-WROVER, which is in charge of the voice synthesis and the audio transmission to the user via Bluetooth. The communication between modules is made using Universal Asynchronous Receiver-Transmitter (UART) guaranteeing low energy consumption. The Image processing begins with a capture made by the device. To make this image adequate to the OCR it passes through a series of steps of pre-processing. First, the page area is identified analyzing contours and borders, fixing the perspective to align it as a frontal digitalization. After this all external contours and unwanted elements are removed from the background, maintaining only the relevant region of the text. The text is then separated in multiple segments based on the spaces in between the text blocks, generating horizontal cuts that represent different paragraphs. Thus, it is possible to run the OCR in each paragraph separately. Each paragraph is converted into text and sent to the ESP directly, so it can run the Text-To Speech (TTS). The results were that the OCR had two types of accuracy, 92.5% for semantic similarity and 6.25% for exact similarity, which reflects directly on the quality of the TTS. With these results in mind, an additional process of textual post-processing was considered, so that the first accuracy result would become more representative of the TTS’s quality but this process wasn’t possible due to the lack of libraries compatible with the MaixCam. In conclusion, despite the limitations found, this project presents contributions to the field of assistive technologies, introducing an embedded low-cost solution to the problem proposed, reinforcing the potential of automatic reading devices, providing autonomy and inclusion to people with visual impairments and reading disabilities.
URI:	http://repositorio.utfpr.edu.br/jspui/handle/1/39108
Aparece nas coleções:	PB - Engenharia de Computação

Arquivos associados a este item:

Arquivo	Descrição	Tamanho	Formato
dispositivoassistivoembarcado.pdf		2,19 MB	Adobe PDF	Visualizar/Abrir

Mostrar registro completo do item Recomendar este item Visualizar estatísticas

Este item está licenciada sob uma Licença Creative Commons