Use este identificador para citar ou linkar para este item:
http://repositorio.utfpr.edu.br/jspui/handle/1/37697
Título: | Leitura labial em vídeos com a utilização de aprendizado profundo |
Autor(es): | Resende, Gustavo Silva |
Orientador(es): | Oliveira, Claiton de |
Palavras-chave: | Surdos - Meios de comunicação Aprendizado do computador Aprendizado profundo Redes Neurais (Computação) Deaf - Means of communication Machine learning Deep learning (Machine learning) Neural networks (Computer science) |
Data do documento: | 14-Dez-2022 |
Editor: | Universidade Tecnológica Federal do Paraná |
Câmpus: | Cornelio Procopio |
Citação: | RESENDE, Gustavo Silva. Leitura labial em vídeos com a utilização de aprendizado profundo. 2022. Trabalho de Conclusão de Curso (Bacharelado em Engenharia de Computação) - Universidade Tecnológica Federal do Paraná, Cornélio Procópio, 2022. |
Resumo: | Nos últimos anos a evolução e popularização das técnicas de aprendizado de máquina permitiram com que algoritmos sofisticados de leitura labial automatizada fossem propostos. Para acompanhar tais algoritmos, datasets compostos por imagens preparadas para este fim foram criados, podendo conter imagens relacionadas a letras, dígitos, palavras ou frases ditas por um ou mais falantes. Com isso, o presente trabalho apresenta a construção de um dataset composto por imagens relacionadas a palavras sendo ditas por um único falante. Além disso, também foram utilizados modelos de aprendizado profundo baseados em redes neurais convolucionais para realizar leitura labial automatizada sobre esse dataset atingindo até 90,28% de acurácia. |
Abstract: | In recent years, the evolution and popularization of machine learning techniques have allowed sophisticated automated lip reading algorithms to be proposed. To accompany such algorithms, datasets composed of images prepared for this purpose were created, which may contain images related to letters, digits, words or phrases spoken by one or more speakers. Thus, the present work shows the construction of a dataset composed of images related to words being spoken by a single speaker. In addition, deep learning models based on convolutional neural networks was also used to perform automated lip reading on this dataset reaching up to 90.28% accuracy. |
URI: | http://repositorio.utfpr.edu.br/jspui/handle/1/37697 |
Aparece nas coleções: | CP - Engenharia da Computação |
Arquivos associados a este item:
Arquivo | Descrição | Tamanho | Formato | |
---|---|---|---|---|
leituralabialaprendizadoprofundo.pdf | 986,34 kB | Adobe PDF | ![]() Visualizar/Abrir |
Este item está licenciada sob uma Licença Creative Commons