Use este identificador para citar ou linkar para este item: http://repositorio.utfpr.edu.br/jspui/handle/1/24493
Título: Reconhecimento de fonemas utilizando redes neurais convolucionais para transcrição fonética automática
Título(s) alternativo(s): Phoneme recognition using convolutional neural networks for automatic phonetic transcription
Autor(es): Dijkstra, Bauke Alfredo
Orientador(es): Sanches, Ionildo José
Palavras-chave: Sistemas de reconhecimento de padrões
Reconhecimento automático da voz
Fonética acústica
Aprendizado do computador
Redes neurais (Computação)
Pattern recognition systems
Automatic speech recognition
Phonetics, Acoustic
Machine learning
Neural networks (Computer science)
Data do documento: 28-Jan-2021
Editor: Universidade Tecnológica Federal do Paraná
Câmpus: Ponta Grossa
Citação: DIJKSTRA, Bauke Alfredo. Reconhecimento de fonemas utilizando redes neurais convolucionais para transcrição fonética automática. 2021. Dissertação (Mestrado em Ciência da Computação) - Universidade Tecnológica Federal do Paraná, Ponta Grossa, 2021.
Resumo: O reconhecimento de fonemas é a capacidade de extrair características para reconhecer as unidades sonoras das palavras e transcrevê-las. As aplicações do reconhecimento de fonemas são auxiliares no reconhecimento de fala, identificação de locutores, identificação de erros de pronúncia e reconhecimento de emoções. Para realizar esta tarefa aplica-se inicialmente uma etapa de pré-processamento nos áudios, denominado processamento acústico, que permite extrair as características, minimizar ruídos e as diferenças entre locutores. Em seguida, é realizada uma etapa de treinamento e classificação, utilizando algoritmos de aprendizagem de máquina com o objetivo de identificar os fonemas. Este trabalho tem como objetivo desenvolver uma técnica de reconhecimento automático de fonemas de fala contínua. No desenvolvimento, o treinamento e os testes foram realizados com dados extraídos das bases de áudios TIMIT Acoustic-Phonetic Continuous Speech Corpus que possui fala em inglês e possui transcrições ortográficas, fonéticas e de palavras alinhadas com o tempo, e as bases com fala em português brasileiro Sid e LaPS Benchmark 16k. As bases na língua portuguesa do Brasil são apenas transcritas na forma ortográfica, portanto, tornou-se necessário adicionar a transcrição fonética em relação aos áudios. Para isso, utilizou-se o software Praat com o plugin EasyAlign e foi desenvolvido um script para formatar as saídas do programa, alinhando os fonemas no tempo em relação aos frames. No processamento acústico, para extrair os coeficientes cepstrais de frequência de Mel (MFCC) e os filter banks, utilizou-se o Kaldi Speech Recognition Toolkit. Para o treinamento e classificação, das bases citadas, foi implementado uma rede neural convolucional juntamente com uma rede de memória de longo e curto prazo usando o framework Pytorch. O resultado obtido na base TIMIT apresentou uma taxa de erro de fonemas no core test de 18, 11% utilizando filter banks e uma taxa de erro de 19, 04% usando MFCCs. Na união das bases em português LaPS Benchmark 16k e Sid, obteve-se uma taxa de erro de 24, 96% usando filter banks e 25, 54% usando MFCC nos conjuntos de testes.
Abstract: Phoneme recognition is the ability to extract features to recognize the sound units of words and transcribe them. Phoneme recognition applications provides assistance towards automatic speech recognition, speaker identification, pronunciation error identification, and emotion recognition. In order to carry out the recognition of the phonemes, a preprocessing stage is initially applied in the audios, called acoustic processing, which allows the characteristics to be extracted, noise and differences between speakers to be reduced. Then, a training and classification stage using machine learning algorithms in order to identify the phonemes. This work aims to develop a technique for automatic recognition of continuous speech phonemes. In the development of this project the tests were performed with phonemes extracted from the audio datasets such as TIMIT Acoustic-Phonetic Continuous Speech Corpus, which is an English-speaking dataset with time-aligned orthographic, phonetic and word transcripts, and Brazilian Portuguese-speaking datsets such as Sid and LaPS Benchmark 16k.The Brazillian Portuguese datasets are only transcribed in orthographic form, so it was required to make changes in these datasets to form the phonemes in regards to the audio recordings.The Praat software was used along with the EasyAlign plugin and a script was developed to format the program’s outputs, aligning the phonemes in time with the frames. In acoustic processing, the Kaldi Speech Recognition Toolkit was applied to extract the MFCC and filter banks. For the training and classification, of the bases cited, a convolutional neural network was implemented in addition to a long short-term memory network using the Pytorch framework. The result obtained on the TIMIT base presented a phoneme error rate in the core test of 18,11% using filter banks and an error rate of 19,04% using MFCC. On the merged Portuguese bases LaPS Benchmark 16k and Sid, an error rate of 24,96% was obtained using filter banks and 25,54% using MFCC.
URI: http://repositorio.utfpr.edu.br/jspui/handle/1/24493
Aparece nas coleções:PG - Programa de Pós-Graduação em Ciência da Computação

Arquivos associados a este item:
Arquivo Descrição TamanhoFormato 
reconhecimentofonemasredesneuraisconvolucionais.pdf3,11 MBAdobe PDFThumbnail
Visualizar/Abrir


Este item está licenciada sob uma Licença Creative Commons Creative Commons