Desenvolvimento de um sistema de reconhecimento de fala usando modelos ocultos de Markov

Santos, Carla Maria Martins dos

Use este identificador para citar ou linkar para este item: http://repositorio.utfpr.edu.br/jspui/handle/1/27301

Título:	Desenvolvimento de um sistema de reconhecimento de fala usando modelos ocultos de Markov
Autor(es):	Santos, Carla Maria Martins dos
Orientador(es):	Scalassara, Paulo Rogério
Palavras-chave:	Reconhecimento automático da voz Markov, Processos de Percepção de padrões Automatic speech recognition Markov processes Pattern perception
Data do documento:	26-Nov-2014
Editor:	Universidade Tecnológica Federal do Paraná
Câmpus:	Cornelio Procopio
Citação:	SANTOS, Carla Maria Martins dos. Desenvolvimento de um sistema de reconhecimento de fala usando modelos ocultos de Markov. 2014. Trabalho de Conclusão de Curso (Bacharelado em Engenharia Elétrica) - Universidade Tecnológica Federal do Paraná, Cornélio Procópio, 2014.
Resumo:	Neste trabalho, apresenta-se o desenvolvimento de um sistema de reconhecimento de fala no software Matlab capaz de reconhecer palavras pronunciadas de forma isolada por diferentes locutores. O método utilizado baseia-se em três etapas: pré-processamento dos sinais, modelagem por cadeias de Markov e reconhecimento de padrões. Porém, o sistema como um todo é formado por cinco blocos principais: aquisição do sinal, pré-processamento, extração dos parâmetros, Modelo Oculto de Markov (HMM) e reconhecimento do sinal de interesse, podendo evoluir para classificação da elocução/locutor e acionamento de algum dispositivo/sistema de interesse. Nos sistemas de reconhecimento de fala, os HMM são capazes de modelar as variabilidades do sinal de voz, baseando-se em um processo estocástico que pode realizar o reconhecimento de palavras isoladas ou contínuas, com vocabulários pequenos ou grandes. Os padrões usados foram os Mel-Frequency Cepstral Coefficients (MFCC) que utilizam coeficientes cepstrais de frequência mel para representar as características do sinal de voz. Derivados da Transformada Rápida de Fourier e da análise por meio de um banco de filtros na escala Mel, os MFCC são utilizados para treinar o HMM e validar o reconhecimento. Diante disso, para maior robustez do sistema foram coletadas amostras de diferentes usuários, formando-se um banco de dados mais completo para o treinamento e validação do HMM. Na análise dos resultados, a aplicação de HMM para treinamento e validação do sistema apresentou índice médio de acerto de 92% no reconhecimento da elocução de interesse, quando treinado com apenas um locutor e, índice de acerto de 98% quando treinado com todos os locutores usados na validação, o que demonstra que o sistema é capaz de realizar o reconhecimento independente do locutor.
Abstract:	In this study, we present the development of a speech recognition system in Matlab software that can recognize words spoken by different speakers. The method proposed is based on three stages: signal pre-processing, Markov chains and pattern recognition. However, the whole system consists of five main blocks: signal acquisition, preprocessing, parameter extraction, Hidden Markov Model and signal recognition of interest, it may evolve towards classification of speech/speaker and control some device/system of interest. In speech recognition systems, HMM is capable of modeling the variability of the speech signal, based on a stochastic process which may carry the recognition of isolated words or continuous, with small or large vocabularies. The patterns used were the Mel-Frequency Cepstral Coefficients using mel cepstral coefficients to represent characteristics of the speech signal. Derived from the Fast Fourier Transform and the analysis by means of a filter bank in mel scale, the MFCC are used to train the HMM and recognition validation. For greater robustness the system, samples were collected from different users, forming a database of more complete data for training and validation of the HMM. In analyzing the results, the application of HMM for training and validation of the system had a mean accuracy level of 92% in recognition of utterances of interest, when trained with only one speaker, and success rate of 98% when trained with all the speakers used in validation, which shows that the system is capable of speaker-independent recognition.
URI:	http://repositorio.utfpr.edu.br/jspui/handle/1/27301
Aparece nas coleções:	CP - Engenharia Elétrica

Arquivos associados a este item:

Arquivo	Descrição	Tamanho	Formato
CP_COELT_2014_2_04.pdf		1,31 MB	Adobe PDF	Visualizar/Abrir

Mostrar registro completo do item Recomendar este item Visualizar estatísticas