Brazilian sign language recognition through SEMG using deep learning time series classification models

Carneiro, Matheus Taborda

Use este identificador para citar ou linkar para este item: http://repositorio.utfpr.edu.br/jspui/handle/1/40468

Título:	Brazilian sign language recognition through SEMG using deep learning time series classification models
Título(s) alternativo(s):	Reconhecimento de libras por meio de eletromiografia de superfície usando modelos de classificação de séries temporais por aprendizado profundo
Autor(es):	Carneiro, Matheus Taborda
Orientador(es):	Mendes Júnior, José Jair Alves
Palavras-chave:	Aprendizado profundo (Aprendizado do computador) Língua brasileira de sinais Eletromiografia Interação humano-máquina Análise de séries temporais - Simulação por computador Redes neurais (Computação) - Modelos matemáticos Deep learning (Machine learning) Brazilian sign language Electromyography Human-computer interaction Time-series analysis - Computer simulation Neural networks (Computer science) - Mathematical models
Data do documento:	16-Abr-2026
Editor:	Universidade Tecnológica Federal do Paraná
Câmpus:	Curitiba
Citação:	CARNEIRO, Matheus Taborda. Brazilian sign language recognition through SEMG using deep learning time series classification models. 2026. Dissertação (Mestrado em Engenharia Elétrica e Informática Industrial) - Universidade Tecnológica Federal do Paraná, Curitiba, 2026.
Resumo:	A população surda depende principalmente da língua de sinais como forma de comunicação, o que limita sua integração com a sociedade uma vez que nem todos são falantes de Linguagens de Sinais. Para mitigar esse problema, os sistemas de Reconhecimento de Linguagem de Sinais (RLS) apresentam uma alternativa para aproximar as línguas falada e de sinais. Os sistemas de RLS são apresentados em múltiplas modalidades, como, por exemplo, o processamento de sinais eletromiográficos (sEMG) utilizando dispositivos vestíveis. Essa abordagem desafia várias características do sinal eletromiográfico e sua natureza estocástica, com ainda mais limitações quando aplicada a palavras de sinais com movimentos dinâmicos. Com esses fatores em mente, este trabalho aproveita o atual crescimento da área de Deep Learning e compara o desempenho de 10 modelos de Classificação de Séries Temporais de Estado da Arte: Residual Networks (ResNet), eXplainable Convolutional Neural Network for Multivariate Time Series Classification (XCM),Multivariate Wavelet Decomposition Network (mWDN), RESCNN, Multivariate Long Short Term Memory- Fully Convolutional Network (MLSTM-FCN), Time Series Transformer (TsiT), Omni-scale, Xception Time, Gated Multilayer Perceptron (gMLP) e Time Series Perceiver (TSPerceiver); na tarefa de processar os dados brutos de eletromigrafia adquiridos do antebraço direito com uma Myo𝑇𝑀 Armband sem o processamento de extração de características. O banco de dados utilizado contém 50 palavras diferentes da Língua Brasileira de Sinais (Libras), executadas por 11 voluntários, um dos quais surdo e fluente em Libras. Três cenários diferentes de treinamento do modelo são apresentados e analisados por meio de seis métricas distintas. Os dois primeiros cenários esperam que dados de novos usuários sejam coletados para treinamento, sendo que o primeiro cenário prevê o treinamento de um modelo individual para cada usuário, enquanto o segundo cenário adiciona os dados de novos usuários ao banco de dados total. O terceiro cenário usa o treinamento sobre outros usuários, sem necessidade de coleta de dados de um novo usuário para treinamento. Nos resultados obtidos, o modelo Xception Time alcançou uma acurácia de até 0,988 e mais de 0,98 em todas as métricas analisadas no primeiro cenário de treinamento, para o conjunto de dados do voluntário 8 no primeiro cenário. Para o segundo cenário, a melhor performance registrada também foi obtida pelo modelo Xception Time, com 0,651 de acurácia em seu melhor caso. Já no terceiro caso, as performances foram reduzidas e o melhor resultado foi obtido pelo ResNet, com 0,214 de acurácia. O primeiro cenário possui o melhor desempenho para todos os modelos e indica que o melhor regime de treinamento dos modelos deve ser individual para cada novo usuário. Omodelo com melhor desempenho médio entre cenários foi o Xception Time, obtendo resultados superiores nos dois primeiros cenários. O terceiro cenário é aquele que facilita a aplicabilidade dos modelos treinados para novos usuários, mas obteve os piores resultados, sendo que estes podem ter ocorrido pelas restrições em quantidade de voluntários do banco de dados utilizado, devendo ser revisitado em novos experimentos.
Abstract:	The hearing-impaired population relies mainly in sign language as a form of communication, which limits its integration since not everyone is a sign language speaker. To mitigate this problem, Sign Language Recognition (SLR) systems present an alternative to bridge the gap between spoken and sign languages. The SLR systems are presented in multiple modalities, as for example the Surface Electromyography (sEMG) processing using wearable devices presented in this work. This approach challenges various characteristics of the Surface Electromyography (sEMG) signal and its stochastic nature, with even more limitations when applied to dynamic movements and signs. With these factors in mind, this work leverages the nowadays ever growing area of Deep Learning and compares the performance of 10 state-of-the-art Time Series Classification models: Residual Networks (ResNet), eXplainable Convolutional Neural Network for Multivariate Time Series Classification (XCM),Multivariate Wavelet Decomposition Network (mWDN), Res-CNN, Multivariate Long Short Term Memory- Fully Convolutional Network (MLSTM-FCN), Time Series Transformer (TsiT), Omni-scale, Xception Time, Gated Multilayer Perceptron (gMLP) and Time Series Perceiver (TSPerceiver); on the task of processing the raw sEMG data acquired from the right forearm with a Myo𝑇𝑀 Armband without using the processing step of feature extraction. The database used contains 50 different words from the Brazilian Sign Language (Libras) executed by 11 volunteers, one of then deaf and fluent in this language. Three different scenarios of model training are presented and analyzed through six different metrics. The two first scenarios expect that the data of a new user is collected for training. The first scenario trains an individual model for each new user, using only the dataset collect from this user, while the second scenario adds the new user data to a larger dataset. The third scenario trains the model over data collected from other users without the necessity for collecting the data from that new user. For the results obtained, the Xception Time model attained up to 0.988 accuracy and over 0.98 over all analyzed metrics in the first training scenario for the dataset of one subject. For the second scenario, the best performance recorded was also obtained by the Xception Time model, with an accuracy of 0.651 in its best case. In the third case, however, performances were reduced, and the best result was obtained by ResNet, with an accuracy of 0.214. The first scenario shows the best overall performance for all models and indicates that the best training regime for the models should be individualized for each new user. The model with the best average performance across scenarios was Xception Time, achieving superior results in the first two scenarios. The third scenario is the one that facilitates the applicability of the trained models tonew users, but it obtained the worst results, which may have occurred due to restrictions on the number of volunteers in the database used and should be revisited in future experiments.
URI:	http://repositorio.utfpr.edu.br/jspui/handle/1/40468
Aparece nas coleções:	CT - Programa de Pós-Graduação em Engenharia Elétrica e Informática Industrial

Arquivos associados a este item:

Arquivo	Descrição	Tamanho	Formato
braziliansignlanguagerecognition.pdf		5,81 MB	Adobe PDF	Visualizar/Abrir

Mostrar registro completo do item Recomendar este item Visualizar estatísticas

Este item está licenciada sob uma Licença Creative Commons