Use este identificador para citar ou linkar para este item: http://repositorio.utfpr.edu.br/jspui/handle/1/24493
Registro completo de metadados
Campo DCValorIdioma
dc.creatorDijkstra, Bauke Alfredo-
dc.date.accessioned2021-03-02T19:02:01Z-
dc.date.available2021-03-02T19:02:01Z-
dc.date.issued2021-01-28-
dc.identifier.citationDIJKSTRA, Bauke Alfredo. Reconhecimento de fonemas utilizando redes neurais convolucionais para transcrição fonética automática. 2021. Dissertação (Mestrado em Ciência da Computação) - Universidade Tecnológica Federal do Paraná, Ponta Grossa, 2021.pt_BR
dc.identifier.urihttp://repositorio.utfpr.edu.br/jspui/handle/1/24493-
dc.description.abstractPhoneme recognition is the ability to extract features to recognize the sound units of words and transcribe them. Phoneme recognition applications provides assistance towards automatic speech recognition, speaker identification, pronunciation error identification, and emotion recognition. In order to carry out the recognition of the phonemes, a preprocessing stage is initially applied in the audios, called acoustic processing, which allows the characteristics to be extracted, noise and differences between speakers to be reduced. Then, a training and classification stage using machine learning algorithms in order to identify the phonemes. This work aims to develop a technique for automatic recognition of continuous speech phonemes. In the development of this project the tests were performed with phonemes extracted from the audio datasets such as TIMIT Acoustic-Phonetic Continuous Speech Corpus, which is an English-speaking dataset with time-aligned orthographic, phonetic and word transcripts, and Brazilian Portuguese-speaking datsets such as Sid and LaPS Benchmark 16k.The Brazillian Portuguese datasets are only transcribed in orthographic form, so it was required to make changes in these datasets to form the phonemes in regards to the audio recordings.The Praat software was used along with the EasyAlign plugin and a script was developed to format the program’s outputs, aligning the phonemes in time with the frames. In acoustic processing, the Kaldi Speech Recognition Toolkit was applied to extract the MFCC and filter banks. For the training and classification, of the bases cited, a convolutional neural network was implemented in addition to a long short-term memory network using the Pytorch framework. The result obtained on the TIMIT base presented a phoneme error rate in the core test of 18,11% using filter banks and an error rate of 19,04% using MFCC. On the merged Portuguese bases LaPS Benchmark 16k and Sid, an error rate of 24,96% was obtained using filter banks and 25,54% using MFCC.pt_BR
dc.description.sponsorshipUniversidade Tecnológica Federal do Paraná (UTFPR)pt_BR
dc.languageporpt_BR
dc.publisherUniversidade Tecnológica Federal do Paranápt_BR
dc.rightsopenAccesspt_BR
dc.rightsAttribution-NonCommercial-ShareAlike 4.0 International*
dc.rights.urihttp://creativecommons.org/licenses/by-nc-sa/4.0/*
dc.subjectSistemas de reconhecimento de padrõespt_BR
dc.subjectReconhecimento automático da vozpt_BR
dc.subjectFonética acústicapt_BR
dc.subjectAprendizado do computadorpt_BR
dc.subjectRedes neurais (Computação)pt_BR
dc.subjectPattern recognition systemspt_BR
dc.subjectAutomatic speech recognitionpt_BR
dc.subjectPhonetics, Acousticpt_BR
dc.subjectMachine learningpt_BR
dc.subjectNeural networks (Computer science)pt_BR
dc.titleReconhecimento de fonemas utilizando redes neurais convolucionais para transcrição fonética automáticapt_BR
dc.title.alternativePhoneme recognition using convolutional neural networks for automatic phonetic transcriptionpt_BR
dc.typemasterThesispt_BR
dc.description.resumoO reconhecimento de fonemas é a capacidade de extrair características para reconhecer as unidades sonoras das palavras e transcrevê-las. As aplicações do reconhecimento de fonemas são auxiliares no reconhecimento de fala, identificação de locutores, identificação de erros de pronúncia e reconhecimento de emoções. Para realizar esta tarefa aplica-se inicialmente uma etapa de pré-processamento nos áudios, denominado processamento acústico, que permite extrair as características, minimizar ruídos e as diferenças entre locutores. Em seguida, é realizada uma etapa de treinamento e classificação, utilizando algoritmos de aprendizagem de máquina com o objetivo de identificar os fonemas. Este trabalho tem como objetivo desenvolver uma técnica de reconhecimento automático de fonemas de fala contínua. No desenvolvimento, o treinamento e os testes foram realizados com dados extraídos das bases de áudios TIMIT Acoustic-Phonetic Continuous Speech Corpus que possui fala em inglês e possui transcrições ortográficas, fonéticas e de palavras alinhadas com o tempo, e as bases com fala em português brasileiro Sid e LaPS Benchmark 16k. As bases na língua portuguesa do Brasil são apenas transcritas na forma ortográfica, portanto, tornou-se necessário adicionar a transcrição fonética em relação aos áudios. Para isso, utilizou-se o software Praat com o plugin EasyAlign e foi desenvolvido um script para formatar as saídas do programa, alinhando os fonemas no tempo em relação aos frames. No processamento acústico, para extrair os coeficientes cepstrais de frequência de Mel (MFCC) e os filter banks, utilizou-se o Kaldi Speech Recognition Toolkit. Para o treinamento e classificação, das bases citadas, foi implementado uma rede neural convolucional juntamente com uma rede de memória de longo e curto prazo usando o framework Pytorch. O resultado obtido na base TIMIT apresentou uma taxa de erro de fonemas no core test de 18, 11% utilizando filter banks e uma taxa de erro de 19, 04% usando MFCCs. Na união das bases em português LaPS Benchmark 16k e Sid, obteve-se uma taxa de erro de 24, 96% usando filter banks e 25, 54% usando MFCC nos conjuntos de testes.pt_BR
dc.degree.localPonta Grossapt_BR
dc.publisher.localPonta Grossapt_BR
dc.creator.IDhttps://orcid.org/0000-0003-3171-4148pt_BR
dc.creator.Latteshttp://lattes.cnpq.br/9269109722427400pt_BR
dc.contributor.advisor1Sanches, Ionildo José-
dc.contributor.advisor1IDhttps://orcid.org/0000-0003-1012-6961pt_BR
dc.contributor.advisor1Latteshttp://lattes.cnpq.br/9727238483923544pt_BR
dc.contributor.referee1Sanches, Ionildo José-
dc.contributor.referee1IDhttps://orcid.org/0000-0003-1012-6961pt_BR
dc.contributor.referee1Latteshttp://lattes.cnpq.br/9727238483923544pt_BR
dc.contributor.referee2Siqueira, Hugo Valadares-
dc.contributor.referee2IDhttps://orcid.org/0000-0002-1278-4602pt_BR
dc.contributor.referee2Latteshttp://lattes.cnpq.br/6904980376005290pt_BR
dc.contributor.referee3Falate, Rosane-
dc.contributor.referee3IDhttps://orcid.org/0000-0002-3948-5063pt_BR
dc.contributor.referee3Latteshttp://lattes.cnpq.br/9171690007212041pt_BR
dc.publisher.countryBrasilpt_BR
dc.publisher.programPrograma de Pós-Graduação em Ciência da Computaçãopt_BR
dc.publisher.initialsUTFPRpt_BR
dc.subject.cnpqCNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAOpt_BR
dc.subject.capesEngenharia/Tecnologia/Gestãopt_BR
Aparece nas coleções:PG - Programa de Pós-Graduação em Ciência da Computação

Arquivos associados a este item:
Arquivo Descrição TamanhoFormato 
reconhecimentofonemasredesneuraisconvolucionais.pdf3,11 MBAdobe PDFThumbnail
Visualizar/Abrir


Este item está licenciada sob uma Licença Creative Commons Creative Commons