Use este identificador para citar ou linkar para este item: http://repositorio.utfpr.edu.br/jspui/handle/1/32695
Título: Dispositivo de realidade aumentada para visualização de contexto sonoro para inclusão de indivíduos com perda auditiva
Título(s) alternativo(s): Augmented reality sound context visualization device for the hearing impaired
Autor(es): Silva, Fernando Argentino da
Reginaldo, Natan Schieck
Orientador(es): Nassu, Bogdan Tomoyuki
Palavras-chave: Realidade aumentada
Reconhecimento automático da voz
Sistemas de reconhecimento de padrões
Visão por computador
Pessoas com deficiência auditiva
Sistemas de processamento da fala
Augmented reality
Automatic speech recognition
Pattern recognition systems
Computer vision
Hearing impaired
Speech processing systems
Data do documento: 3-Mar-2022
Editor: Universidade Tecnológica Federal do Paraná
Câmpus: Curitiba
Citação: SILVA, Fernando Argentino; REGINALDO, Natan Schieck. Dispositivo de realidade aumentada para visualização de contexto sonoro para inclusão de indivíduos com perda auditiva. 2022. Trabalho de Conclusão de Curso (Bacharelado em Engenharia de Computação) - Universidade Tecnológica Federal do Paraná, Curitiba, 2022.
Resumo: Recentemente diversas tecnologias têm sido propostas para auxiliar a comunicação e melhorar a qualidade de vida de pessoas com perda auditiva. Soluções tradicionais de tecnologia assistiva se baseiam principalmente na transformação de informações de áudio, limitando-se à amplificação e/ou compressão de faixa dinâmica de som. No entanto, esta abordagem tem desempenho reduzido para situações com ruído competitivo, não atendendo às necessidades dos indivíduos que dependem desses dispositivos para atividades de socialização. Consequentemente, métodos alternativos têm sido explorados. Com o objetivo de melhorar as experiências de comunicação interpessoal para indivíduos com perda auditiva em situações complexas, uma plataforma de realidade aumentada (AR) é proposta, combinando várias tecnologias em um sistema que altera a percepção do ambiente, aprimorando-o em tempo real pela adição de informações relevantes. A plataforma foi realizada através da construção de um protótipo similar a um capacete ou óculos que possibilita a visualização de informações no campo de visão do usuário. O trabalho estabelece alguns objetivos principais, destacando-se a transcrição de diálogo em tempo real e determinação e visualização de potenciais fontes de som, promovendo assim uma conscientização sobre o contexto sonoro no qual o indivíduo está inserido. Para atingir as metas definidas, métodos de aprimoramento de áudio e supressão de ruído são empregados, beneficiados ainda pela utilização de elementos de visão computacional para reconhecimento de contexto de diálogo, número de interlocutores e foco da atenção do usuário, através de estimativa de pose. Finalmente, questões de usabilidade são consideradas buscando-se minimizar a intrusividade do dispositivo e permitindo seu uso móvel. Constatou-se que a plataforma construída tem capacidade de processamento adequada para a execução de algoritmos recentes de aprendizado de máquina, que foram aplicados para determinar o número de interlocutores e seu papel no contexto. Especificamente, uma abordagem bottom-up para estimativa de pose humana utilizando Deep Residual Learning (ResNet) e Part Affinity Fields (PAF) é considerada. Sua implementação mostrou-se satisfatória para a aplicação, estimando 17 pontos de interesse de pose humana em situações com múltiplos indivíduos, resiliente até mesmo a situações de oclusão severa, atingindo ainda tempo de inferência suficientemente baixo para permitir o processamento de até 10 quadros por segundo em tempo real na plataforma móvel Nvidia Jetson Nano utilizada. O desenvolvimento e decisões tomadas para a construção de um protótipo funcional são descritas. Nesse sentido, a viabilidade da plataforma desenvolvida é demonstrada, mostrando-se versátil e extensível, tendo potencial para servir como ponto de partida de soluções de tecnologia assistiva auditiva atuais e futuras.
Abstract: Recently, many technologies have been proposed to assist communication for people with hearing loss. Assistive technology solutions are mainly based on audio signal transformation, limited to amplification or dynamic range compression. However, this approach has poor effectiveness for situations where competing noise is present, preventing these individuals from socializing in these environments. This leads to alternative approaches being explored to improve these devices. With the intent to improve communication for hearing impaired individuals in complex situations, an Augmented Reality (AR) platform is proposed. This kind of platform combines many technologies in a system that changes the ambient perception, improving it by adding relevant information in real-time. The platform was implemented with the construction of a prototype similar to a helmet or eyeglasses which enables information visualization in the user’s field of view. This work establishes the following main objectives: highlighting the dialogue transcription in real-time and determination/visualization of potential sound sources, promoting a better ambient perception for the user. To reach these goals, methods to improve the audio signal and noise suppression have been implemented, aided by computer vision elements to recognize dialogue context, number of speakers, and user attention focus using pose estimation. Lastly, usability concerns have been considered, trying to minimize the device intrusiveness and also considering the need for mobility in order to make it viable to be used in real scenarios. In conclusion, the platform that was built has been verified as having enough processing capability to execute recent machine learning algorithms, which have been applied in computer vision tasks with the intent to determine the number of speakers and their roles in a given context. Specifically, a bottom-up approach has been used for the pose estimation task using Deep Residual Learning (ResNet) and Part Affinity Fields (PAF). Its implementation proved to be acceptable for the application, estimating 17 points of interest of human pose in situations with multiple individuals, being resilient even in circumstances where severe occlusion was present, reaching inference times low enough to allow a processing time of 10 frames per second in real-time in the Nvidia Jetson Nano platform. The development and decisions to build a working prototype are described. The viability of the developed platform is demonstrated, shown to be versatile and extensible, allowing it to be a starting point for future hearing assistance solutions.
URI: http://repositorio.utfpr.edu.br/jspui/handle/1/32695
Aparece nas coleções:CT - Engenharia de Computação

Arquivos associados a este item:
Arquivo Descrição TamanhoFormato 
realidade.pdf4,2 MBAdobe PDFThumbnail
Visualizar/Abrir


Este item está licenciada sob uma Licença Creative Commons Creative Commons