Brazilian sign language recognition through SEMG using deep learning time series classification models

Carneiro, Matheus Taborda

Use este identificador para citar ou linkar para este item: http://repositorio.utfpr.edu.br/jspui/handle/1/40468

Registro completo de metadados

Campo DC	Valor	Idioma
dc.creator	Carneiro, Matheus Taborda	-
dc.date.accessioned	2026-05-26T19:40:04Z	-
dc.date.available	2026-05-26T19:40:04Z	-
dc.date.issued	2026-04-16	-
dc.identifier.citation	CARNEIRO, Matheus Taborda. Brazilian sign language recognition through SEMG using deep learning time series classification models. 2026. Dissertação (Mestrado em Engenharia Elétrica e Informática Industrial) - Universidade Tecnológica Federal do Paraná, Curitiba, 2026.	pt_BR
dc.identifier.uri	http://repositorio.utfpr.edu.br/jspui/handle/1/40468	-
dc.description.abstract	The hearing-impaired population relies mainly in sign language as a form of communication, which limits its integration since not everyone is a sign language speaker. To mitigate this problem, Sign Language Recognition (SLR) systems present an alternative to bridge the gap between spoken and sign languages. The SLR systems are presented in multiple modalities, as for example the Surface Electromyography (sEMG) processing using wearable devices presented in this work. This approach challenges various characteristics of the Surface Electromyography (sEMG) signal and its stochastic nature, with even more limitations when applied to dynamic movements and signs. With these factors in mind, this work leverages the nowadays ever growing area of Deep Learning and compares the performance of 10 state-of-the-art Time Series Classification models: Residual Networks (ResNet), eXplainable Convolutional Neural Network for Multivariate Time Series Classification (XCM),Multivariate Wavelet Decomposition Network (mWDN), Res-CNN, Multivariate Long Short Term Memory- Fully Convolutional Network (MLSTM-FCN), Time Series Transformer (TsiT), Omni-scale, Xception Time, Gated Multilayer Perceptron (gMLP) and Time Series Perceiver (TSPerceiver); on the task of processing the raw sEMG data acquired from the right forearm with a Myo𝑇𝑀 Armband without using the processing step of feature extraction. The database used contains 50 different words from the Brazilian Sign Language (Libras) executed by 11 volunteers, one of then deaf and fluent in this language. Three different scenarios of model training are presented and analyzed through six different metrics. The two first scenarios expect that the data of a new user is collected for training. The first scenario trains an individual model for each new user, using only the dataset collect from this user, while the second scenario adds the new user data to a larger dataset. The third scenario trains the model over data collected from other users without the necessity for collecting the data from that new user. For the results obtained, the Xception Time model attained up to 0.988 accuracy and over 0.98 over all analyzed metrics in the first training scenario for the dataset of one subject. For the second scenario, the best performance recorded was also obtained by the Xception Time model, with an accuracy of 0.651 in its best case. In the third case, however, performances were reduced, and the best result was obtained by ResNet, with an accuracy of 0.214. The first scenario shows the best overall performance for all models and indicates that the best training regime for the models should be individualized for each new user. The model with the best average performance across scenarios was Xception Time, achieving superior results in the first two scenarios. The third scenario is the one that facilitates the applicability of the trained models tonew users, but it obtained the worst results, which may have occurred due to restrictions on the number of volunteers in the database used and should be revisited in future experiments.	pt_BR
dc.description.sponsorship	Coordenação de Aperfeiçoamento de Pessoal de Nível Superior (CAPES)	pt_BR
dc.language	eng	pt_BR
dc.publisher	Universidade Tecnológica Federal do Paraná	pt_BR
dc.rights	openAccess	pt_BR
dc.rights.uri	http://creativecommons.org/licenses/by/4.0/	pt_BR
dc.subject	Aprendizado profundo (Aprendizado do computador)	pt_BR
dc.subject	Língua brasileira de sinais	pt_BR
dc.subject	Eletromiografia	pt_BR
dc.subject	Interação humano-máquina	pt_BR
dc.subject	Análise de séries temporais - Simulação por computador	pt_BR
dc.subject	Redes neurais (Computação) - Modelos matemáticos	pt_BR
dc.subject	Deep learning (Machine learning)	pt_BR
dc.subject	Brazilian sign language	pt_BR
dc.subject	Electromyography	pt_BR
dc.subject	Human-computer interaction	pt_BR
dc.subject	Time-series analysis - Computer simulation	pt_BR
dc.subject	Neural networks (Computer science) - Mathematical models	pt_BR
dc.title	Brazilian sign language recognition through SEMG using deep learning time series classification models	pt_BR
dc.title.alternative	Reconhecimento de libras por meio de eletromiografia de superfície usando modelos de classificação de séries temporais por aprendizado profundo	pt_BR
dc.type	masterThesis	pt_BR
dc.description.resumo	A população surda depende principalmente da língua de sinais como forma de comunicação, o que limita sua integração com a sociedade uma vez que nem todos são falantes de Linguagens de Sinais. Para mitigar esse problema, os sistemas de Reconhecimento de Linguagem de Sinais (RLS) apresentam uma alternativa para aproximar as línguas falada e de sinais. Os sistemas de RLS são apresentados em múltiplas modalidades, como, por exemplo, o processamento de sinais eletromiográficos (sEMG) utilizando dispositivos vestíveis. Essa abordagem desafia várias características do sinal eletromiográfico e sua natureza estocástica, com ainda mais limitações quando aplicada a palavras de sinais com movimentos dinâmicos. Com esses fatores em mente, este trabalho aproveita o atual crescimento da área de Deep Learning e compara o desempenho de 10 modelos de Classificação de Séries Temporais de Estado da Arte: Residual Networks (ResNet), eXplainable Convolutional Neural Network for Multivariate Time Series Classification (XCM),Multivariate Wavelet Decomposition Network (mWDN), RESCNN, Multivariate Long Short Term Memory- Fully Convolutional Network (MLSTM-FCN), Time Series Transformer (TsiT), Omni-scale, Xception Time, Gated Multilayer Perceptron (gMLP) e Time Series Perceiver (TSPerceiver); na tarefa de processar os dados brutos de eletromigrafia adquiridos do antebraço direito com uma Myo𝑇𝑀 Armband sem o processamento de extração de características. O banco de dados utilizado contém 50 palavras diferentes da Língua Brasileira de Sinais (Libras), executadas por 11 voluntários, um dos quais surdo e fluente em Libras. Três cenários diferentes de treinamento do modelo são apresentados e analisados por meio de seis métricas distintas. Os dois primeiros cenários esperam que dados de novos usuários sejam coletados para treinamento, sendo que o primeiro cenário prevê o treinamento de um modelo individual para cada usuário, enquanto o segundo cenário adiciona os dados de novos usuários ao banco de dados total. O terceiro cenário usa o treinamento sobre outros usuários, sem necessidade de coleta de dados de um novo usuário para treinamento. Nos resultados obtidos, o modelo Xception Time alcançou uma acurácia de até 0,988 e mais de 0,98 em todas as métricas analisadas no primeiro cenário de treinamento, para o conjunto de dados do voluntário 8 no primeiro cenário. Para o segundo cenário, a melhor performance registrada também foi obtida pelo modelo Xception Time, com 0,651 de acurácia em seu melhor caso. Já no terceiro caso, as performances foram reduzidas e o melhor resultado foi obtido pelo ResNet, com 0,214 de acurácia. O primeiro cenário possui o melhor desempenho para todos os modelos e indica que o melhor regime de treinamento dos modelos deve ser individual para cada novo usuário. Omodelo com melhor desempenho médio entre cenários foi o Xception Time, obtendo resultados superiores nos dois primeiros cenários. O terceiro cenário é aquele que facilita a aplicabilidade dos modelos treinados para novos usuários, mas obteve os piores resultados, sendo que estes podem ter ocorrido pelas restrições em quantidade de voluntários do banco de dados utilizado, devendo ser revisitado em novos experimentos.	pt_BR
dc.degree.local	Curitiba	pt_BR
dc.publisher.local	Curitiba	pt_BR
dc.creator.ID	https://orcid.org/0009-0000-4477-1956	pt_BR
dc.creator.Lattes	https://lattes.cnpq.br/5132255005503329	pt_BR
dc.contributor.advisor1	Mendes Júnior, José Jair Alves	-
dc.contributor.advisor1ID	https://orcid.org/0000-0001-5578-7734	pt_BR
dc.contributor.advisor1Lattes	https://lattes.cnpq.br/1920188611669631	pt_BR
dc.contributor.advisor-co1	Campos, Daniel Prado de	-
dc.contributor.advisor-co1ID	https://orcid.org/0000-0001-6233-6077	pt_BR
dc.contributor.advisor-co1Lattes	https://lattes.cnpq.br/2260564602839139	pt_BR
dc.contributor.referee1	Bo, Antonio Padilha Lanari	-
dc.contributor.referee1ID	https://orcid.org/0000-0001-8229-0512	pt_BR
dc.contributor.referee1Lattes	http://lattes.cnpq.br/6959718976106778	pt_BR
dc.contributor.referee2	Nieves Vazquez, Jose Angel	-
dc.contributor.referee2ID	https://orcid.org/0000-0003-1084-5878	pt_BR
dc.contributor.referee2Lattes	http://lattes.cnpq.br/7874657118735971	pt_BR
dc.contributor.referee3	Mendes Júnior, José Jair Alves	-
dc.contributor.referee3ID	https://orcid.org/0000-0001-5578-7734	pt_BR
dc.contributor.referee3Lattes	https://lattes.cnpq.br/1920188611669631	pt_BR
dc.contributor.referee4	Pichorim, Sérgio Francisco	-
dc.contributor.referee4ID	https://orcid.org/0000-0003-4380-7499	pt_BR
dc.contributor.referee4Lattes	https://lattes.cnpq.br/5874071100916364	pt_BR
dc.publisher.country	Brasil	pt_BR
dc.publisher.program	Programa de Pós-Graduação em Engenharia Elétrica e Informática Industrial	pt_BR
dc.publisher.initials	UTFPR	pt_BR
dc.subject.cnpq	CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO	pt_BR
dc.subject.capes	Engenharia Elétrica	pt_BR
Aparece nas coleções:	CT - Programa de Pós-Graduação em Engenharia Elétrica e Informática Industrial

Arquivos associados a este item:

Arquivo	Descrição	Tamanho	Formato
braziliansignlanguagerecognition.pdf		5,81 MB	Adobe PDF	Visualizar/Abrir

Mostrar registro simples do item Recomendar este item Visualizar estatísticas

Este item está licenciada sob uma Licença Creative Commons