Leitura labial em vídeos com a utilização de aprendizado profundo

Resende, Gustavo Silva

Use este identificador para citar ou linkar para este item: http://repositorio.utfpr.edu.br/jspui/handle/1/37697

Título:	Leitura labial em vídeos com a utilização de aprendizado profundo
Autor(es):	Resende, Gustavo Silva
Orientador(es):	Oliveira, Claiton de
Palavras-chave:	Surdos - Meios de comunicação Aprendizado do computador Aprendizado profundo Redes Neurais (Computação) Deaf - Means of communication Machine learning Deep learning (Machine learning) Neural networks (Computer science)
Data do documento:	14-Dez-2022
Editor:	Universidade Tecnológica Federal do Paraná
Câmpus:	Cornelio Procopio
Citação:	RESENDE, Gustavo Silva. Leitura labial em vídeos com a utilização de aprendizado profundo. 2022. Trabalho de Conclusão de Curso (Bacharelado em Engenharia de Computação) - Universidade Tecnológica Federal do Paraná, Cornélio Procópio, 2022.
Resumo:	Nos últimos anos a evolução e popularização das técnicas de aprendizado de máquina permitiram com que algoritmos sofisticados de leitura labial automatizada fossem propostos. Para acompanhar tais algoritmos, datasets compostos por imagens preparadas para este fim foram criados, podendo conter imagens relacionadas a letras, dígitos, palavras ou frases ditas por um ou mais falantes. Com isso, o presente trabalho apresenta a construção de um dataset composto por imagens relacionadas a palavras sendo ditas por um único falante. Além disso, também foram utilizados modelos de aprendizado profundo baseados em redes neurais convolucionais para realizar leitura labial automatizada sobre esse dataset atingindo até 90,28% de acurácia.
Abstract:	In recent years, the evolution and popularization of machine learning techniques have allowed sophisticated automated lip reading algorithms to be proposed. To accompany such algorithms, datasets composed of images prepared for this purpose were created, which may contain images related to letters, digits, words or phrases spoken by one or more speakers. Thus, the present work shows the construction of a dataset composed of images related to words being spoken by a single speaker. In addition, deep learning models based on convolutional neural networks was also used to perform automated lip reading on this dataset reaching up to 90.28% accuracy.
URI:	http://repositorio.utfpr.edu.br/jspui/handle/1/37697
Aparece nas coleções:	CP - Engenharia da Computação

Arquivos associados a este item:

Arquivo	Descrição	Tamanho	Formato
leituralabialaprendizadoprofundo.pdf		986,34 kB	Adobe PDF	Visualizar/Abrir

Mostrar registro completo do item Recomendar este item Visualizar estatísticas

Este item está licenciada sob uma Licença Creative Commons