Use este identificador para citar ou linkar para este item:
http://repositorio.utfpr.edu.br/jspui/handle/1/36031
Registro completo de metadados
Campo DC | Valor | Idioma |
---|---|---|
dc.creator | Lamoglia, Gabriel Roberto | - |
dc.date.accessioned | 2025-02-24T14:14:21Z | - |
dc.date.available | 2025-02-24T14:14:21Z | - |
dc.date.issued | 2023-06-19 | - |
dc.identifier.citation | LAMOGLIA, Gabriel Roberto. Identificação de sinais em libras utilizando redes neurais: long short term memory. 2023. Trabalho de Conclusão de Curso (Engenharia Elétrica) - Universidade Tecnológica Federal do Paraná, Ponta Grossa, 2023. | pt_BR |
dc.identifier.uri | http://repositorio.utfpr.edu.br/jspui/handle/1/36031 | - |
dc.description.abstract | The following document takes the Brazilian sign language (LIBRAS) as its main object of study. LIBRAS, despite being widely popularized today, has a relatively recent historical context and is currently still a paradigm for a large part of the Brazilian population. Using the advent of artificial intelligence, it is proposed the application of a recurrent neural network (RNN) of the Long-Short Term Memory (LSTM) type capable of identifying signals coming from an interlocutor through a simple camera and translating them. A database from the UFPE repository is taken as the starting point of the work, with 1364 expressions of LIBRAS and for each of the expressions, there are three (3) records in videos, totaling a database with 4089 records. Due to the current repository of the database having the domain partially corrupted, the records had to be obtained manually, in order to capture the records, an automated process by robot (RPA) was used. A total of 9.5% of the data were used, representing 130 expressions and 390 total records for work. During data augmentation, each video was subjected to format-specific filters, so that the records had a broader use of the database and in order to avoid concepts of overfitting. After obtaining the records and increasing the data used, the records were treated in such a way as to become numerical data, for this purpose the vídeos were read and the points of the body were mapped (using a CNN) during a specific interval of frames of the video, the interval for all videos was defined as 60 frames, in other words, for each of the 60 frames, the points of the body were captured and transformed into numerical sets to be subsequently submitted to LSTM. After mapping, the LSTM network was created and trained with the following arrangement of records: 70% of records for training (6461); 15% of records for validation (1384) and 15% for testing (1385); the LSTM network was able to obtain results in terms of precision, greater than 98%, errors smaller than 0.02%, considering the MAE; less than 0.06% considering MSE and less than 1% considering categorical cross-entropy. The practical tests were used with a cell phone camera in the form of a WebServer. In the tests, a limit was defined for the display of words on screen for real time, that is, if the network could not obtain an accuracy greater than 90% for the prediction of a given expression, the program would not be able to display any. Through the crude analysis of the practical tests, a precision of 47.2% of accuracy was confirmed. The work can add to the deaf-mute community and academic branches of this community. | pt_BR |
dc.language | por | pt_BR |
dc.publisher | Universidade Tecnológica Federal do Paraná | pt_BR |
dc.rights | openAccess | pt_BR |
dc.rights.uri | http://creativecommons.org/licenses/by-nc-nd/4.0/ | pt_BR |
dc.subject | Lingua brasileira de sinais | pt_BR |
dc.subject | Inteligência artificial | pt_BR |
dc.subject | Banco de dados | pt_BR |
dc.subject | Brazilian sign language | pt_BR |
dc.subject | Artificial intelligence | pt_BR |
dc.subject | Data bases | pt_BR |
dc.title | Identificação de sinais em libras utilizando redes neurais: long short term memory | pt_BR |
dc.title.alternative | Identification of signs in libras using long short term memory neural networks | pt_BR |
dc.type | bachelorThesis | pt_BR |
dc.description.resumo | O seguinte documento, toma como objeto de estudo principal a linguagem brasileira de sinais (LIBRAS). A LIBRAS, apesar de amplamente popularizada atualmente, tem um contexto histórico relativamente recente e atualmente ainda é um paradigma para grande parte da população brasileira. Utilizando do advento da inteligência artificial, propõe-se a aplicação de uma rede neural recorrente (RNN) do tipo Long-Short Term Memory (LSTM) capaz de identificar sinais provenientes de um interlocutor através de uma câmera simples e traduzi-los. Toma-se como ponto de partida do trabalho, uma base de dados do repositório da UFPE, com 1364 expressões de LIBRAS e para cada uma das expressões, tem-se três (3) registros em vídeos, totalizando uma base de dados com 4089 registros. Devido ao repositório atual da base de dados ter o domínio parcialmente corrompido, os registros tiveram de ser obtidos manualmente, para captação dos registros, utilizou-se de um processo automatizado por robô (RPA). Foram utilizados um total de 9,5% dos dados, representando 130 expressões e 390 registros totais para trabalho. Durante o aumento de dados, cada vídeo foi submetido a filtros específicos de formato, para que os registros tivessem um aproveitamento mais amplo da base de dados e afim de evitar conceitos de ‘sobreajuste’ (overfitting). Com a obtenção dos registros e aumento de dados empregado, os registros foram tratados de maneira a tornarem-se dados numéricos, para tal liam-se os vídeos e mapeavam os pontos do corpo (utilizando de uma CNN) durante um intervalo específico de quadros (frames) do vídeo, o intervalo para todos os vídeos foi definido como sendo 60 frames, em outras palavras, para cada um dos 60 quadros eram captados os pontos do corpo e transformados em conjuntos numéricos para que posteriormente fossem submetidos a LSTM. Após o mapeamento, a rede LSTM foi criada e treinada com a seguinte disposição dos registros: 70% dos registros para treino (6461); 15% dos registros para validação (1384) e 15% para testes (1385); a rede LSTM conseguiu ter resultados quanto a precisão, maiores que 98%, erros menores que 0,02%, considerando o MAE; menores que 0,06% considerando MSE e menores que 1% considerando a entropia cruzada categórica. Os testes práticos foram utilizados com uma câmera de celular em forma de WebServer. Nos testes, um limite foi definido para exibição das palavras em tela para o tempo real, ou seja, se a rede não conseguisse obter uma precisão maior que 90% para a previsão de dada expressão, o programa não poderia exibir nenhuma. Através da analise bruta dos testes práticos, confirmou-se uma precisão de 47,2% de acurácia. O trabalho pode agregar para comunidade surda-muda e ramos acadêmicos dessa comunidade. | pt_BR |
dc.degree.local | Ponta Grossa | pt_BR |
dc.publisher.local | Ponta Grossa | pt_BR |
dc.contributor.advisor1 | Siqueira, Hugo Valadares | - |
dc.contributor.referee1 | Siqueira, Hugo Valadares | - |
dc.contributor.referee2 | Corrêa, Fernanda Cristina | - |
dc.contributor.referee3 | Tadano, Yara de Souza | - |
dc.publisher.country | Brasil | pt_BR |
dc.publisher.department | Departamento Acadêmico de Engenharia Elétrica | pt_BR |
dc.publisher.program | Engenharia Elétrica | pt_BR |
dc.publisher.initials | UTFPR | pt_BR |
dc.subject.cnpq | CNPQ::ENGENHARIAS::ENGENHARIA ELETRICA | pt_BR |
Aparece nas coleções: | PG - Engenharia Elétrica |
Arquivos associados a este item:
Arquivo | Descrição | Tamanho | Formato | |
---|---|---|---|---|
sinaislibrasredesneurais.pdf | 979,54 kB | Adobe PDF | ![]() Visualizar/Abrir |
Este item está licenciada sob uma Licença Creative Commons