Identificação de sinais em libras utilizando redes neurais: long short term memory

Lamoglia, Gabriel Roberto

Use este identificador para citar ou linkar para este item: http://repositorio.utfpr.edu.br/jspui/handle/1/36031

Registro completo de metadados

Campo DC	Valor	Idioma
dc.creator	Lamoglia, Gabriel Roberto	-
dc.date.accessioned	2025-02-24T14:14:21Z	-
dc.date.available	2025-02-24T14:14:21Z	-
dc.date.issued	2023-06-19	-
dc.identifier.citation	LAMOGLIA, Gabriel Roberto. Identificação de sinais em libras utilizando redes neurais: long short term memory. 2023. Trabalho de Conclusão de Curso (Engenharia Elétrica) - Universidade Tecnológica Federal do Paraná, Ponta Grossa, 2023.	pt_BR
dc.identifier.uri	http://repositorio.utfpr.edu.br/jspui/handle/1/36031	-
dc.description.abstract	The following document takes the Brazilian sign language (LIBRAS) as its main object of study. LIBRAS, despite being widely popularized today, has a relatively recent historical context and is currently still a paradigm for a large part of the Brazilian population. Using the advent of artificial intelligence, it is proposed the application of a recurrent neural network (RNN) of the Long-Short Term Memory (LSTM) type capable of identifying signals coming from an interlocutor through a simple camera and translating them. A database from the UFPE repository is taken as the starting point of the work, with 1364 expressions of LIBRAS and for each of the expressions, there are three (3) records in videos, totaling a database with 4089 records. Due to the current repository of the database having the domain partially corrupted, the records had to be obtained manually, in order to capture the records, an automated process by robot (RPA) was used. A total of 9.5% of the data were used, representing 130 expressions and 390 total records for work. During data augmentation, each video was subjected to format-specific filters, so that the records had a broader use of the database and in order to avoid concepts of overfitting. After obtaining the records and increasing the data used, the records were treated in such a way as to become numerical data, for this purpose the vídeos were read and the points of the body were mapped (using a CNN) during a specific interval of frames of the video, the interval for all videos was defined as 60 frames, in other words, for each of the 60 frames, the points of the body were captured and transformed into numerical sets to be subsequently submitted to LSTM. After mapping, the LSTM network was created and trained with the following arrangement of records: 70% of records for training (6461); 15% of records for validation (1384) and 15% for testing (1385); the LSTM network was able to obtain results in terms of precision, greater than 98%, errors smaller than 0.02%, considering the MAE; less than 0.06% considering MSE and less than 1% considering categorical cross-entropy. The practical tests were used with a cell phone camera in the form of a WebServer. In the tests, a limit was defined for the display of words on screen for real time, that is, if the network could not obtain an accuracy greater than 90% for the prediction of a given expression, the program would not be able to display any. Through the crude analysis of the practical tests, a precision of 47.2% of accuracy was confirmed. The work can add to the deaf-mute community and academic branches of this community.	pt_BR
dc.language	por	pt_BR
dc.publisher	Universidade Tecnológica Federal do Paraná	pt_BR
dc.rights	openAccess	pt_BR
dc.rights.uri	http://creativecommons.org/licenses/by-nc-nd/4.0/	pt_BR
dc.subject	Lingua brasileira de sinais	pt_BR
dc.subject	Inteligência artificial	pt_BR
dc.subject	Banco de dados	pt_BR
dc.subject	Brazilian sign language	pt_BR
dc.subject	Artificial intelligence	pt_BR
dc.subject	Data bases	pt_BR
dc.title	Identificação de sinais em libras utilizando redes neurais: long short term memory	pt_BR
dc.title.alternative	Identification of signs in libras using long short term memory neural networks	pt_BR
dc.type	bachelorThesis	pt_BR
dc.description.resumo	O seguinte documento, toma como objeto de estudo principal a linguagem brasileira de sinais (LIBRAS). A LIBRAS, apesar de amplamente popularizada atualmente, tem um contexto histórico relativamente recente e atualmente ainda é um paradigma para grande parte da população brasileira. Utilizando do advento da inteligência artificial, propõe-se a aplicação de uma rede neural recorrente (RNN) do tipo Long-Short Term Memory (LSTM) capaz de identificar sinais provenientes de um interlocutor através de uma câmera simples e traduzi-los. Toma-se como ponto de partida do trabalho, uma base de dados do repositório da UFPE, com 1364 expressões de LIBRAS e para cada uma das expressões, tem-se três (3) registros em vídeos, totalizando uma base de dados com 4089 registros. Devido ao repositório atual da base de dados ter o domínio parcialmente corrompido, os registros tiveram de ser obtidos manualmente, para captação dos registros, utilizou-se de um processo automatizado por robô (RPA). Foram utilizados um total de 9,5% dos dados, representando 130 expressões e 390 registros totais para trabalho. Durante o aumento de dados, cada vídeo foi submetido a filtros específicos de formato, para que os registros tivessem um aproveitamento mais amplo da base de dados e afim de evitar conceitos de ‘sobreajuste’ (overfitting). Com a obtenção dos registros e aumento de dados empregado, os registros foram tratados de maneira a tornarem-se dados numéricos, para tal liam-se os vídeos e mapeavam os pontos do corpo (utilizando de uma CNN) durante um intervalo específico de quadros (frames) do vídeo, o intervalo para todos os vídeos foi definido como sendo 60 frames, em outras palavras, para cada um dos 60 quadros eram captados os pontos do corpo e transformados em conjuntos numéricos para que posteriormente fossem submetidos a LSTM. Após o mapeamento, a rede LSTM foi criada e treinada com a seguinte disposição dos registros: 70% dos registros para treino (6461); 15% dos registros para validação (1384) e 15% para testes (1385); a rede LSTM conseguiu ter resultados quanto a precisão, maiores que 98%, erros menores que 0,02%, considerando o MAE; menores que 0,06% considerando MSE e menores que 1% considerando a entropia cruzada categórica. Os testes práticos foram utilizados com uma câmera de celular em forma de WebServer. Nos testes, um limite foi definido para exibição das palavras em tela para o tempo real, ou seja, se a rede não conseguisse obter uma precisão maior que 90% para a previsão de dada expressão, o programa não poderia exibir nenhuma. Através da analise bruta dos testes práticos, confirmou-se uma precisão de 47,2% de acurácia. O trabalho pode agregar para comunidade surda-muda e ramos acadêmicos dessa comunidade.	pt_BR
dc.degree.local	Ponta Grossa	pt_BR
dc.publisher.local	Ponta Grossa	pt_BR
dc.contributor.advisor1	Siqueira, Hugo Valadares	-
dc.contributor.referee1	Siqueira, Hugo Valadares	-
dc.contributor.referee2	Corrêa, Fernanda Cristina	-
dc.contributor.referee3	Tadano, Yara de Souza	-
dc.publisher.country	Brasil	pt_BR
dc.publisher.department	Departamento Acadêmico de Engenharia Elétrica	pt_BR
dc.publisher.program	Engenharia Elétrica	pt_BR
dc.publisher.initials	UTFPR	pt_BR
dc.subject.cnpq	CNPQ::ENGENHARIAS::ENGENHARIA ELETRICA	pt_BR
Aparece nas coleções:	PG - Engenharia Elétrica

Arquivos associados a este item:

Arquivo	Descrição	Tamanho	Formato
sinaislibrasredesneurais.pdf		979,54 kB	Adobe PDF	Visualizar/Abrir

Mostrar registro simples do item Recomendar este item Visualizar estatísticas

Este item está licenciada sob uma Licença Creative Commons