Deep learning aplicado a classificação de patologias da voz

Guedes, Victor de Oliveira

Use este identificador para citar ou linkar para este item: http://repositorio.utfpr.edu.br/jspui/handle/1/12481

Registro completo de metadados

Campo DC	Valor	Idioma
dc.creator	Guedes, Victor de Oliveira
dc.date.accessioned	2020-11-16T13:08:53Z	-
dc.date.available	2020-11-16T13:08:53Z	-
dc.date.issued	2019-07-03
dc.identifier.citation	GUEDES, Victor de Oliveira. Deep learning aplicado a classificação de patologias da voz. 2019. Trabalho de Conclusão de Curso (Bacharelado em Ciência da Computação) - Universidade Tecnológica Federal do Paraná, Medianeira, 2019.	pt_BR
dc.identifier.uri	http://repositorio.utfpr.edu.br/jspui/handle/1/12481	-
dc.description	O presente trabalho é resultado de um convênio de dupla diplomação com a Escola Superior de Tecnologia e de Gestão de Bragança	pt_BR
dc.description.abstract	The classification of voice related pathologies using Deep Learning concepts has beenincreasing considerably in recent years. Good results have already been obtained forclassification in sustained speech with vowels, but there are still few studies related tothe classification of this problem using continuous speech. Therefore, the focus of thisdissertation is to implement the main models of Deep Learning for the classification ofvoice pathologies in continuous speech, using the German phrase "Guten Morgen, wiegeht es Ihnen?"From the Saarbruecken Voice Database. The pathologies of dysphonia,laryngitis and paralysis of the vocal cords, as well as the healthy class, are used formulti-class and binary analyzes. In addition, a previous study for the classification withvowels in the same pathologies is also carried out. The best result for the vowels is 99% accuracy for the implementation of an LSTM model with parameters Jitter, Shimmerand Autocorrelation, in the binary classification between laryngitis and healthy. Forthe phrases, a comparative study between neural networks, convolutional and recurrentmodels with the parameter MFCCs and Spectrograms in the Mel scale, obtaining resultsof 76% F-measure for dysphonia x healthy, 68% F-measure for laryngitis x healthy, 80%F-measure for healthy x paralysis of the vocal cords. For multi-class classification isobtained 59% and 40% of F-measure for 3 classes and 4 classes, respectively.	pt_BR
dc.language	por	pt_BR
dc.publisher	Universidade Tecnológica Federal do Paraná	pt_BR
dc.rights	openAccess	pt_BR
dc.subject	Redes neurais (Computação)	pt_BR
dc.subject	Transferência de aprendizagem	pt_BR
dc.subject	Distúrbios da voz	pt_BR
dc.subject	Neural networks (Computer science)	pt_BR
dc.subject	Transfer of training	pt_BR
dc.subject	Voice disorders	pt_BR
dc.title	Deep learning aplicado a classificação de patologias da voz	pt_BR
dc.type	bachelorThesis	pt_BR
dc.description.resumo	A classificação de patologias relacionadas a voz utilizando conceitos de Deep Learning vem crescendo consideravelmente nos últimos anos. Bons resultados já foram obtidos para a classificação em fala sustentada com vogais, mas ainda existem poucos trabalhos relacionadas a classificação deste problema utilizando fala contínua. Por isso, é foco desta dissertação realizar a implementação dos principais modelos de Deep Learning para a classificação de patologias da voz em fala contínua, utilizando a frase alemã “Guten Morgen,wie geht es Ihnen?” da base de dados Saarbruecken Voice Database. São utilizados as patologias de disfonia, laringite e paralisia das cordas vocais, além da classe dos saudáveis,para análises multi classe e binária. Além disso, também é realizado um estudo prévio para a classificação com vogais nas mesmas patologias. O melhor resultado para as vogais é de 99% de exatidão para a implementação de um modelo LSTM com parâmetros Jitter,Shimmere Autocorrelação, na classificação binária entre laringite e saudável. Para as frases, é realizado um estudo comparativo entre modelos de redes neuronais, convolucionais e recorrentes para os parâmetros MFCCs e Espectrogramas na escala Mel obtendo resultados de 76% de medida-F para disfonia x saudável, 68% de medida-F para laringitex saudável, 80% de medida-F para paralisia x saudável. Para classificação multi classe é obtido 59% e 40% de medida-F para 3 classes e 4 classes, respectivamente.	pt_BR
dc.degree.local	Medianeira	pt_BR
dc.publisher.local	Medianeira	pt_BR
dc.contributor.advisor1	Teixeira, João Paulo Ramos
dc.contributor.advisor-co1	Candido Junior, Arnaldo
dc.contributor.referee1	Teixeira, João Paulo Ramos
dc.contributor.referee2	Pereira, Maria João Tinoco Varanda
dc.contributor.referee3	Freitas, Diamantino Rui da Silva
dc.publisher.country	Brasil	pt_BR
dc.publisher.program	Ciência da Computação	pt_BR
dc.publisher.initials	UTFPR	pt_BR
dc.subject.cnpq	CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO	pt_BR
Aparece nas coleções:	MD - Ciência da Computação

Arquivos associados a este item:

Arquivo	Descrição	Tamanho	Formato
deeplearningpatologiasvoz.pdf		5,79 MB	Adobe PDF	Visualizar/Abrir

Mostrar registro simples do item Recomendar este item Visualizar estatísticas