Use este identificador para citar ou linkar para este item: http://repositorio.utfpr.edu.br/jspui/handle/1/39108
Registro completo de metadados
Campo DCValorIdioma
dc.creatorMaschietto Filho, Luiz Antonio-
dc.date.accessioned2025-12-17T11:34:59Z-
dc.date.available2025-12-17T11:34:59Z-
dc.date.issued2025-11-26-
dc.identifier.citationMASCHIETTO FILHO, Luiz Antonio. Dispositivo assistivo para leitura baseado em captura de imagem e reconhecimento óptico de caracteres. 2025. Trabalho de Conclusão de Curso (Bacharelado em Engenharia de Computação) - Universidade Tecnológica Federal do Paraná, Pato Branco, 2025.pt_BR
dc.identifier.urihttp://repositorio.utfpr.edu.br/jspui/handle/1/39108-
dc.description.abstractThis project introduces the development of an assistive device made for people with low vision or dyslexia, utilizing image capture, optical character recognition and text-to-speech in a low-cost portable system. The prototype connects two main modules: The MaixCam, responsible for the image capture and the processing of the OCR, and the ESP32-WROVER, which is in charge of the voice synthesis and the audio transmission to the user via Bluetooth. The communication between modules is made using Universal Asynchronous Receiver-Transmitter (UART) guaranteeing low energy consumption. The Image processing begins with a capture made by the device. To make this image adequate to the OCR it passes through a series of steps of pre-processing. First, the page area is identified analyzing contours and borders, fixing the perspective to align it as a frontal digitalization. After this all external contours and unwanted elements are removed from the background, maintaining only the relevant region of the text. The text is then separated in multiple segments based on the spaces in between the text blocks, generating horizontal cuts that represent different paragraphs. Thus, it is possible to run the OCR in each paragraph separately. Each paragraph is converted into text and sent to the ESP directly, so it can run the Text-To Speech (TTS). The results were that the OCR had two types of accuracy, 92.5% for semantic similarity and 6.25% for exact similarity, which reflects directly on the quality of the TTS. With these results in mind, an additional process of textual post-processing was considered, so that the first accuracy result would become more representative of the TTS’s quality but this process wasn’t possible due to the lack of libraries compatible with the MaixCam. In conclusion, despite the limitations found, this project presents contributions to the field of assistive technologies, introducing an embedded low-cost solution to the problem proposed, reinforcing the potential of automatic reading devices, providing autonomy and inclusion to people with visual impairments and reading disabilities.pt_BR
dc.languageporpt_BR
dc.publisherUniversidade Tecnológica Federal do Paranápt_BR
dc.rightsopenAccesspt_BR
dc.rights.urihttp://creativecommons.org/licenses/by/4.0/pt_BR
dc.subjectquipamentos de autoajuda para pessoas com deficiênciapt_BR
dc.subjectReconhecimento óptico de caracterespt_BR
dc.subjectSistemas de processamento da falapt_BR
dc.subjectProcessamento de imagenspt_BR
dc.subjectSistemas embarcados (Computadores)pt_BR
dc.subjectSelf-help devices for people with disabilitiespt_BR
dc.subjectOptical character recognitionpt_BR
dc.subjectSpeech processing systemspt_BR
dc.subjectImage processingpt_BR
dc.subjectEmbedded computer systemspt_BR
dc.titleDispositivo assistivo para leitura baseado em captura de imagem e reconhecimento óptico de caracterespt_BR
dc.title.alternativeReading assistive device based on image capture and character optical recognizingpt_BR
dc.typebachelorThesispt_BR
dc.description.resumoEste projeto apresenta o desenvolvimento de um dispositivo assistivo voltado para pessoas com baixa visão ou dislexia, combinando captura de imagem, reconhecimento óptico de caracteres (Optical Character Recognition - OCR) e síntese de voz em um sistema portátil e de baixo custo. A solução integra dois módulos principais: o MaixCam, responsável pela captura da imagem e processamento de OCR, e o ESP32-WROVER, encarregado da síntese de voz e da transmissão do áudio ao usuário via Bluetooth. A comunicação entre os módulos é realizada por Universal Asynchronous Receiver-Transmitter (UART), garantindo baixo consumo energético. O processamento da imagem no dispositivo inicia a partir de uma captura realizada pelo dispositivo. Para tornar essa imagem adequada ao OCR, aplica-se uma sequência de etapas de pré-processamento. Primeiro, identifica-se automaticamente a área da página analisando bordas e contornos, corrigindo sua perspectiva para alinhá-la como se fosse uma digitalização frontal. Em seguida, eliminam-se margens externas e elementos indesejados do fundo, mantendo apenas a região relevante do texto. Após isso, realiza-se um novo enquadramento, isolando de forma mais precisa o conteúdo textual útil. Por fim, o texto é separado em múltiplos segmentos com base nos espaços entre blocos textuais, gerando cortes horizontais que representam os diferentes parágrafos. Assim, é possível realizar o OCR em cada paragrafo separadamente. Em seguida cada parágrafo convertido em texto é enviado diretamente para o ESP que executa o text-to-speech (TTS). Os resultados demonstraram que o OCR atingiu dois tipos de acurácia: 92,5% para similaridade semântica e 6,25% para similaridade exata, que reflete diretamente na qualidade do TTS. Com base nesses resultados, considerou-se uma fase adicional de pós-processamento textual para que o primeiro teste de acurácia seja mais representativo da qualidade do TTS, entretanto, a implementação não foi possível por falta de disponibilidade de bibliotecas compatíveis com o MaixCam. Conclui-se que, apesar das limitações encontradas, este projeto apresenta contribuições para o campo de tecnologias assistivas introduzindo uma solução embarcada de baixo custo para o problema proposto, reforçando o potencial de dispositivos de leitura automatizada proporcionando maior autonomia e inclusão para pessoas com baixa visão ou dificuldades de leitura.pt_BR
dc.degree.localPato Brancopt_BR
dc.publisher.localPato Brancopt_BR
dc.contributor.advisor1Ascari, Soelaine Rodrigues-
dc.contributor.advisor-co1Denardin, Gustavo Weber-
dc.contributor.referee1Ascari, Soelaine Rodrigues-
dc.contributor.referee2Denardin, Gustavo Weber-
dc.contributor.referee3Fávero, Eliane Maria De Bortoli-
dc.contributor.referee4Guarneri, Giovanni Alfredo-
dc.publisher.countryBrasilpt_BR
dc.publisher.departmentDepartamento Acadêmico de Informáticapt_BR
dc.publisher.programEngenharia de Computaçãopt_BR
dc.publisher.initialsUTFPRpt_BR
dc.subject.cnpqCNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAOpt_BR
Aparece nas coleções:PB - Engenharia de Computação

Arquivos associados a este item:
Arquivo Descrição TamanhoFormato 
dispositivoassistivoembarcado.pdf2,19 MBAdobe PDFThumbnail
Visualizar/Abrir


Este item está licenciada sob uma Licença Creative Commons Creative Commons