Use este identificador para citar ou linkar para este item: http://repositorio.utfpr.edu.br/jspui/handle/1/40468
Registro completo de metadados
Campo DCValorIdioma
dc.creatorCarneiro, Matheus Taborda-
dc.date.accessioned2026-05-26T19:40:04Z-
dc.date.available2026-05-26T19:40:04Z-
dc.date.issued2026-04-16-
dc.identifier.citationCARNEIRO, Matheus Taborda. Brazilian sign language recognition through SEMG using deep learning time series classification models. 2026. Dissertação (Mestrado em Engenharia Elétrica e Informática Industrial) - Universidade Tecnológica Federal do Paraná, Curitiba, 2026.pt_BR
dc.identifier.urihttp://repositorio.utfpr.edu.br/jspui/handle/1/40468-
dc.description.abstractThe hearing-impaired population relies mainly in sign language as a form of communication, which limits its integration since not everyone is a sign language speaker. To mitigate this problem, Sign Language Recognition (SLR) systems present an alternative to bridge the gap between spoken and sign languages. The SLR systems are presented in multiple modalities, as for example the Surface Electromyography (sEMG) processing using wearable devices presented in this work. This approach challenges various characteristics of the Surface Electromyography (sEMG) signal and its stochastic nature, with even more limitations when applied to dynamic movements and signs. With these factors in mind, this work leverages the nowadays ever growing area of Deep Learning and compares the performance of 10 state-of-the-art Time Series Classification models: Residual Networks (ResNet), eXplainable Convolutional Neural Network for Multivariate Time Series Classification (XCM),Multivariate Wavelet Decomposition Network (mWDN), Res-CNN, Multivariate Long Short Term Memory- Fully Convolutional Network (MLSTM-FCN), Time Series Transformer (TsiT), Omni-scale, Xception Time, Gated Multilayer Perceptron (gMLP) and Time Series Perceiver (TSPerceiver); on the task of processing the raw sEMG data acquired from the right forearm with a Myo𝑇𝑀 Armband without using the processing step of feature extraction. The database used contains 50 different words from the Brazilian Sign Language (Libras) executed by 11 volunteers, one of then deaf and fluent in this language. Three different scenarios of model training are presented and analyzed through six different metrics. The two first scenarios expect that the data of a new user is collected for training. The first scenario trains an individual model for each new user, using only the dataset collect from this user, while the second scenario adds the new user data to a larger dataset. The third scenario trains the model over data collected from other users without the necessity for collecting the data from that new user. For the results obtained, the Xception Time model attained up to 0.988 accuracy and over 0.98 over all analyzed metrics in the first training scenario for the dataset of one subject. For the second scenario, the best performance recorded was also obtained by the Xception Time model, with an accuracy of 0.651 in its best case. In the third case, however, performances were reduced, and the best result was obtained by ResNet, with an accuracy of 0.214. The first scenario shows the best overall performance for all models and indicates that the best training regime for the models should be individualized for each new user. The model with the best average performance across scenarios was Xception Time, achieving superior results in the first two scenarios. The third scenario is the one that facilitates the applicability of the trained models tonew users, but it obtained the worst results, which may have occurred due to restrictions on the number of volunteers in the database used and should be revisited in future experiments.pt_BR
dc.description.sponsorshipCoordenação de Aperfeiçoamento de Pessoal de Nível Superior (CAPES)pt_BR
dc.languageengpt_BR
dc.publisherUniversidade Tecnológica Federal do Paranápt_BR
dc.rightsopenAccesspt_BR
dc.rights.urihttp://creativecommons.org/licenses/by/4.0/pt_BR
dc.subjectAprendizado profundo (Aprendizado do computador)pt_BR
dc.subjectLíngua brasileira de sinaispt_BR
dc.subjectEletromiografiapt_BR
dc.subjectInteração humano-máquinapt_BR
dc.subjectAnálise de séries temporais - Simulação por computadorpt_BR
dc.subjectRedes neurais (Computação) - Modelos matemáticospt_BR
dc.subjectDeep learning (Machine learning)pt_BR
dc.subjectBrazilian sign languagept_BR
dc.subjectElectromyographypt_BR
dc.subjectHuman-computer interactionpt_BR
dc.subjectTime-series analysis - Computer simulationpt_BR
dc.subjectNeural networks (Computer science) - Mathematical modelspt_BR
dc.titleBrazilian sign language recognition through SEMG using deep learning time series classification modelspt_BR
dc.title.alternativeReconhecimento de libras por meio de eletromiografia de superfície usando modelos de classificação de séries temporais por aprendizado profundopt_BR
dc.typemasterThesispt_BR
dc.description.resumoA população surda depende principalmente da língua de sinais como forma de comunicação, o que limita sua integração com a sociedade uma vez que nem todos são falantes de Linguagens de Sinais. Para mitigar esse problema, os sistemas de Reconhecimento de Linguagem de Sinais (RLS) apresentam uma alternativa para aproximar as línguas falada e de sinais. Os sistemas de RLS são apresentados em múltiplas modalidades, como, por exemplo, o processamento de sinais eletromiográficos (sEMG) utilizando dispositivos vestíveis. Essa abordagem desafia várias características do sinal eletromiográfico e sua natureza estocástica, com ainda mais limitações quando aplicada a palavras de sinais com movimentos dinâmicos. Com esses fatores em mente, este trabalho aproveita o atual crescimento da área de Deep Learning e compara o desempenho de 10 modelos de Classificação de Séries Temporais de Estado da Arte: Residual Networks (ResNet), eXplainable Convolutional Neural Network for Multivariate Time Series Classification (XCM),Multivariate Wavelet Decomposition Network (mWDN), RESCNN, Multivariate Long Short Term Memory- Fully Convolutional Network (MLSTM-FCN), Time Series Transformer (TsiT), Omni-scale, Xception Time, Gated Multilayer Perceptron (gMLP) e Time Series Perceiver (TSPerceiver); na tarefa de processar os dados brutos de eletromigrafia adquiridos do antebraço direito com uma Myo𝑇𝑀 Armband sem o processamento de extração de características. O banco de dados utilizado contém 50 palavras diferentes da Língua Brasileira de Sinais (Libras), executadas por 11 voluntários, um dos quais surdo e fluente em Libras. Três cenários diferentes de treinamento do modelo são apresentados e analisados por meio de seis métricas distintas. Os dois primeiros cenários esperam que dados de novos usuários sejam coletados para treinamento, sendo que o primeiro cenário prevê o treinamento de um modelo individual para cada usuário, enquanto o segundo cenário adiciona os dados de novos usuários ao banco de dados total. O terceiro cenário usa o treinamento sobre outros usuários, sem necessidade de coleta de dados de um novo usuário para treinamento. Nos resultados obtidos, o modelo Xception Time alcançou uma acurácia de até 0,988 e mais de 0,98 em todas as métricas analisadas no primeiro cenário de treinamento, para o conjunto de dados do voluntário 8 no primeiro cenário. Para o segundo cenário, a melhor performance registrada também foi obtida pelo modelo Xception Time, com 0,651 de acurácia em seu melhor caso. Já no terceiro caso, as performances foram reduzidas e o melhor resultado foi obtido pelo ResNet, com 0,214 de acurácia. O primeiro cenário possui o melhor desempenho para todos os modelos e indica que o melhor regime de treinamento dos modelos deve ser individual para cada novo usuário. Omodelo com melhor desempenho médio entre cenários foi o Xception Time, obtendo resultados superiores nos dois primeiros cenários. O terceiro cenário é aquele que facilita a aplicabilidade dos modelos treinados para novos usuários, mas obteve os piores resultados, sendo que estes podem ter ocorrido pelas restrições em quantidade de voluntários do banco de dados utilizado, devendo ser revisitado em novos experimentos.pt_BR
dc.degree.localCuritibapt_BR
dc.publisher.localCuritibapt_BR
dc.creator.IDhttps://orcid.org/0009-0000-4477-1956pt_BR
dc.creator.Latteshttps://lattes.cnpq.br/5132255005503329pt_BR
dc.contributor.advisor1Mendes Júnior, José Jair Alves-
dc.contributor.advisor1IDhttps://orcid.org/0000-0001-5578-7734pt_BR
dc.contributor.advisor1Latteshttps://lattes.cnpq.br/1920188611669631pt_BR
dc.contributor.advisor-co1Campos, Daniel Prado de-
dc.contributor.advisor-co1IDhttps://orcid.org/0000-0001-6233-6077pt_BR
dc.contributor.advisor-co1Latteshttps://lattes.cnpq.br/2260564602839139pt_BR
dc.contributor.referee1Bo, Antonio Padilha Lanari-
dc.contributor.referee1IDhttps://orcid.org/0000-0001-8229-0512pt_BR
dc.contributor.referee1Latteshttp://lattes.cnpq.br/6959718976106778pt_BR
dc.contributor.referee2Nieves Vazquez, Jose Angel-
dc.contributor.referee2IDhttps://orcid.org/0000-0003-1084-5878pt_BR
dc.contributor.referee2Latteshttp://lattes.cnpq.br/7874657118735971pt_BR
dc.contributor.referee3Mendes Júnior, José Jair Alves-
dc.contributor.referee3IDhttps://orcid.org/0000-0001-5578-7734pt_BR
dc.contributor.referee3Latteshttps://lattes.cnpq.br/1920188611669631pt_BR
dc.contributor.referee4Pichorim, Sérgio Francisco-
dc.contributor.referee4IDhttps://orcid.org/0000-0003-4380-7499pt_BR
dc.contributor.referee4Latteshttps://lattes.cnpq.br/5874071100916364pt_BR
dc.publisher.countryBrasilpt_BR
dc.publisher.programPrograma de Pós-Graduação em Engenharia Elétrica e Informática Industrialpt_BR
dc.publisher.initialsUTFPRpt_BR
dc.subject.cnpqCNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAOpt_BR
dc.subject.capesEngenharia Elétricapt_BR
Aparece nas coleções:CT - Programa de Pós-Graduação em Engenharia Elétrica e Informática Industrial

Arquivos associados a este item:
Arquivo Descrição TamanhoFormato 
braziliansignlanguagerecognition.pdf5,81 MBAdobe PDFThumbnail
Visualizar/Abrir


Este item está licenciada sob uma Licença Creative Commons Creative Commons