Reconhecimento automático de locutor utilizando modelo de misturas gaussianas treinado pelo algoritmo de maximização da expectativa

Silva, Helio Rodrigues da; Dourado, Juliano Rodrigues

Use este identificador para citar ou linkar para este item: http://repositorio.utfpr.edu.br/jspui/handle/1/23878

Título:	Reconhecimento automático de locutor utilizando modelo de misturas gaussianas treinado pelo algoritmo de maximização da expectativa
Título(s) alternativo(s):	Automatic speaker recognition using Gaussian mixture model trained by the expectation maximization algorithm
Autor(es):	Silva, Helio Rodrigues da Dourado, Juliano Rodrigues
Orientador(es):	Nakano, Alberto Yoshihiro
Palavras-chave:	Reconhecimento automático da voz Telecomunicações - Sistemas de comutação Sistemas de processamento da fala Automatic speech recognition Telecommunication - Switching systems Speech processing systems
Data do documento:	27-Jun-2018
Editor:	Universidade Tecnológica Federal do Paraná
Câmpus:	Toledo
Citação:	SILVA, Helio Rodrigues da; DOURADO, Juliano Rodrigues. Reconhecimento automático de locutor utilizando modelo de misturas gaussianas treinado pelo algoritmo de maximização da expectativa. 2018. Trabalho de Conclusão de Curso (Bacharelado em Engenharia Eletrônica) - Universidade Tecnológica Federal do Paraná, Toledo, 2018.
Resumo:	Desenvolver sistemas que possam reconhecer ou identificar indivíduos vem se tornando uma necessidade cada vez maior em aplicações que exigem a verificação e a garantia da identidade humana. Há vários sistemas que utilizam a biometria para reconhecer um determinado indivíduo, dentre estes, o reconhecimento automático de locutor que utiliza a fala como dado de reconhecimento. Neste trabalho, os parâmetros acústicos mel-cepstrais foram extraídos para modelagem de locutores por meio de ferramentas estatísticas. Para realizar a modelagem do trato vocal de um indivíduo, utilizou-se o modelo de misturas gaussianas (GMM, do inglês Gaussian Mixture Model). Os parâmetros do modelo GMM foram adaptados ou treinados pelo algoritmo de maximização da expectativa (EM, do inglês Expectation Maximization). Sendo assim, foram criados 40 modelos dos 40 locutores na etapa de treinamento e em seguida testados. Os testes realizados forneceram os resultados de máxima verossimilhança para a construção de matrizes de classificação. Por fim, em diversas aplicações práticas o reconhecimento de locutor se mostra promissor, compreendendo tarefas que possam vir a facilitar, agilizar e melhorar processos de verificação de identidade.
Abstract:	Developing systems that can recognize or identify individuals has becoming a growing need in applications that require verification and grant of human identity. There are several systems that use biometrics to recognize a certain individual, among them, automatic speech recognition that uses speech as recognition data. In this work, Mel Frequency Cepstral Coefficients were extracted to model speakers using statistical tools. For the modeling of the vocal tract of an individual, the Gaussian Mixture Model (GMM) was used. The parameters of the GMM model were adapted or trained by the Expectation Maximization algorithm (EM). Thus 40 models of 40 speakers were created and then tested. Speaker recognition is promising for many practical ap-plications, including tasks that can facilitate, speed up and improve identity verification processes.
URI:	http://repositorio.utfpr.edu.br/jspui/handle/1/23878
Aparece nas coleções:	TD - Engenharia Eletrônica

Arquivos associados a este item:

Arquivo	Descrição	Tamanho	Formato
reconhecimentoautomaticolocutor.pdf		1,2 MB	Adobe PDF	Visualizar/Abrir

Mostrar registro completo do item Recomendar este item Visualizar estatísticas