Use este identificador para citar ou linkar para este item: http://repositorio.utfpr.edu.br/jspui/handle/1/36031
Registro completo de metadados
Campo DCValorIdioma
dc.creatorLamoglia, Gabriel Roberto-
dc.date.accessioned2025-02-24T14:14:21Z-
dc.date.available2025-02-24T14:14:21Z-
dc.date.issued2023-06-19-
dc.identifier.citationLAMOGLIA, Gabriel Roberto. Identificação de sinais em libras utilizando redes neurais: long short term memory. 2023. Trabalho de Conclusão de Curso (Engenharia Elétrica) - Universidade Tecnológica Federal do Paraná, Ponta Grossa, 2023.pt_BR
dc.identifier.urihttp://repositorio.utfpr.edu.br/jspui/handle/1/36031-
dc.description.abstractThe following document takes the Brazilian sign language (LIBRAS) as its main object of study. LIBRAS, despite being widely popularized today, has a relatively recent historical context and is currently still a paradigm for a large part of the Brazilian population. Using the advent of artificial intelligence, it is proposed the application of a recurrent neural network (RNN) of the Long-Short Term Memory (LSTM) type capable of identifying signals coming from an interlocutor through a simple camera and translating them. A database from the UFPE repository is taken as the starting point of the work, with 1364 expressions of LIBRAS and for each of the expressions, there are three (3) records in videos, totaling a database with 4089 records. Due to the current repository of the database having the domain partially corrupted, the records had to be obtained manually, in order to capture the records, an automated process by robot (RPA) was used. A total of 9.5% of the data were used, representing 130 expressions and 390 total records for work. During data augmentation, each video was subjected to format-specific filters, so that the records had a broader use of the database and in order to avoid concepts of overfitting. After obtaining the records and increasing the data used, the records were treated in such a way as to become numerical data, for this purpose the vídeos were read and the points of the body were mapped (using a CNN) during a specific interval of frames of the video, the interval for all videos was defined as 60 frames, in other words, for each of the 60 frames, the points of the body were captured and transformed into numerical sets to be subsequently submitted to LSTM. After mapping, the LSTM network was created and trained with the following arrangement of records: 70% of records for training (6461); 15% of records for validation (1384) and 15% for testing (1385); the LSTM network was able to obtain results in terms of precision, greater than 98%, errors smaller than 0.02%, considering the MAE; less than 0.06% considering MSE and less than 1% considering categorical cross-entropy. The practical tests were used with a cell phone camera in the form of a WebServer. In the tests, a limit was defined for the display of words on screen for real time, that is, if the network could not obtain an accuracy greater than 90% for the prediction of a given expression, the program would not be able to display any. Through the crude analysis of the practical tests, a precision of 47.2% of accuracy was confirmed. The work can add to the deaf-mute community and academic branches of this community.pt_BR
dc.languageporpt_BR
dc.publisherUniversidade Tecnológica Federal do Paranápt_BR
dc.rightsopenAccesspt_BR
dc.rights.urihttp://creativecommons.org/licenses/by-nc-nd/4.0/pt_BR
dc.subjectLingua brasileira de sinaispt_BR
dc.subjectInteligência artificialpt_BR
dc.subjectBanco de dadospt_BR
dc.subjectBrazilian sign languagept_BR
dc.subjectArtificial intelligencept_BR
dc.subjectData basespt_BR
dc.titleIdentificação de sinais em libras utilizando redes neurais: long short term memorypt_BR
dc.title.alternativeIdentification of signs in libras using long short term memory neural networkspt_BR
dc.typebachelorThesispt_BR
dc.description.resumoO seguinte documento, toma como objeto de estudo principal a linguagem brasileira de sinais (LIBRAS). A LIBRAS, apesar de amplamente popularizada atualmente, tem um contexto histórico relativamente recente e atualmente ainda é um paradigma para grande parte da população brasileira. Utilizando do advento da inteligência artificial, propõe-se a aplicação de uma rede neural recorrente (RNN) do tipo Long-Short Term Memory (LSTM) capaz de identificar sinais provenientes de um interlocutor através de uma câmera simples e traduzi-los. Toma-se como ponto de partida do trabalho, uma base de dados do repositório da UFPE, com 1364 expressões de LIBRAS e para cada uma das expressões, tem-se três (3) registros em vídeos, totalizando uma base de dados com 4089 registros. Devido ao repositório atual da base de dados ter o domínio parcialmente corrompido, os registros tiveram de ser obtidos manualmente, para captação dos registros, utilizou-se de um processo automatizado por robô (RPA). Foram utilizados um total de 9,5% dos dados, representando 130 expressões e 390 registros totais para trabalho. Durante o aumento de dados, cada vídeo foi submetido a filtros específicos de formato, para que os registros tivessem um aproveitamento mais amplo da base de dados e afim de evitar conceitos de ‘sobreajuste’ (overfitting). Com a obtenção dos registros e aumento de dados empregado, os registros foram tratados de maneira a tornarem-se dados numéricos, para tal liam-se os vídeos e mapeavam os pontos do corpo (utilizando de uma CNN) durante um intervalo específico de quadros (frames) do vídeo, o intervalo para todos os vídeos foi definido como sendo 60 frames, em outras palavras, para cada um dos 60 quadros eram captados os pontos do corpo e transformados em conjuntos numéricos para que posteriormente fossem submetidos a LSTM. Após o mapeamento, a rede LSTM foi criada e treinada com a seguinte disposição dos registros: 70% dos registros para treino (6461); 15% dos registros para validação (1384) e 15% para testes (1385); a rede LSTM conseguiu ter resultados quanto a precisão, maiores que 98%, erros menores que 0,02%, considerando o MAE; menores que 0,06% considerando MSE e menores que 1% considerando a entropia cruzada categórica. Os testes práticos foram utilizados com uma câmera de celular em forma de WebServer. Nos testes, um limite foi definido para exibição das palavras em tela para o tempo real, ou seja, se a rede não conseguisse obter uma precisão maior que 90% para a previsão de dada expressão, o programa não poderia exibir nenhuma. Através da analise bruta dos testes práticos, confirmou-se uma precisão de 47,2% de acurácia. O trabalho pode agregar para comunidade surda-muda e ramos acadêmicos dessa comunidade.pt_BR
dc.degree.localPonta Grossapt_BR
dc.publisher.localPonta Grossapt_BR
dc.contributor.advisor1Siqueira, Hugo Valadares-
dc.contributor.referee1Siqueira, Hugo Valadares-
dc.contributor.referee2Corrêa, Fernanda Cristina-
dc.contributor.referee3Tadano, Yara de Souza-
dc.publisher.countryBrasilpt_BR
dc.publisher.departmentDepartamento Acadêmico de Engenharia Elétricapt_BR
dc.publisher.programEngenharia Elétricapt_BR
dc.publisher.initialsUTFPRpt_BR
dc.subject.cnpqCNPQ::ENGENHARIAS::ENGENHARIA ELETRICApt_BR
Aparece nas coleções:PG - Engenharia Elétrica

Arquivos associados a este item:
Arquivo Descrição TamanhoFormato 
sinaislibrasredesneurais.pdf979,54 kBAdobe PDFThumbnail
Visualizar/Abrir


Este item está licenciada sob uma Licença Creative Commons Creative Commons