Reconhecimento de voz utilizando WAV2VEC 2.0 para o português brasileiro

Gris, Lucas Rafael Stefanel

Use este identificador para citar ou linkar para este item: http://repositorio.utfpr.edu.br/jspui/handle/1/29999

Registro completo de metadados

Campo DC	Valor	Idioma
dc.creator	Gris, Lucas Rafael Stefanel	-
dc.date.accessioned	2022-10-24T16:54:53Z	-
dc.date.available	2022-10-24T16:54:53Z	-
dc.date.issued	2021-05-05	-
dc.identifier.citation	GRIS, Lucas Rafael Stefanel. Reconhecimento de voz utilizando WAV2VEC 2.0 para o português brasileiro. Trabalho de Conclusão de Curso (Bacharelado em Ciência da Computação) - Universidade Tecnológica Federal do Paraná, Medianeira, 2021.	pt_BR
dc.identifier.uri	http://repositorio.utfpr.edu.br/jspui/handle/1/29999	-
dc.description.abstract	Deep learning techniques have been shown to be efficient in various tasks, especially in the development of speech recognition systems, that is, systems that aim to transcribe a sentence in audio in a sequence of words. Despite the progress in the area, its development can still be considered a difficult task, especially when there is a lack of data available, as in Brazilian Portuguese. In this sense, this work aims to validate the development of an Automatic Speech Recognition using only open available audio data, from the fine-tuning of the Wav2Vec 2.0 XLSR-53 model pre-trained in many languages, for the Brazilian Portuguese. The final obtained model presents a WER of 11.95%, 13% less than the best open ASR model for Brazilian Portuguese available, which is a promising result in the area. In general, this work validates the use of self-supervising learning techniques, in special, the use of the Wav2vec 2.0 architecture in the development of robust ASRs, even when there is a few available data, and also exposes possible enhancements that can improve even more the obtained result.	pt_BR
dc.language	por	pt_BR
dc.publisher	Universidade Tecnológica Federal do Paraná	pt_BR
dc.rights	openAccess	pt_BR
dc.subject	Sistemas de reconhecimento de padrões	pt_BR
dc.subject	Redes neurais (Computação)	pt_BR
dc.subject	Reconhecimento automático da voz	pt_BR
dc.subject	Pattern recognition systems	pt_BR
dc.subject	Neural networks (Computer science)	pt_BR
dc.subject	Automatic speech recognition	pt_BR
dc.title	Reconhecimento de voz utilizando WAV2VEC 2.0 para o português brasileiro	pt_BR
dc.title.alternative	Speech recognition using WAV2VEC 2.0 for brazilian portuguese	pt_BR
dc.type	bachelorThesis	pt_BR
dc.description.resumo	Técnicas de aprendizado profundo tem se mostrado muito eficientes nas mais diversas tarefas, em especial, no desenvolvimento de sistemas de reconhecimento de voz, isto é, sistemas que procuram transcrever sentenças em áudio em sequências de palavras ou textos. Apesar do avanço na área, seu desenvolvimento ainda pode ser considerado uma tarefa difícil, especialmente quando existem poucos dados abertos disponíveis, como no Português Brasileiro. Nesse cenário, este trabalho apresenta o objetivo de validar o desenvolvimento de um reconhecedor de voz utilizando somente bases abertas disponíveis, a partir do ajuste do modelo Wav2Vec 2.0 XLSR-53 pré-treinado em muitas línguas, para o Português Brasileiro. O modelo final obtido apresenta um WER de 11,95%, 13% a menos que o melhor modelo aberto para o Português Brasileiro disponível, o que é um resultado promissor na área. Em suma, este trabalho valida a utilização das técnicas de aprendizado auto-supervisionado, em especial, a utilização da arquitetura Wav2vec 2.0, no desenvolvimento de ASRs robustos, mesmo quando há poucos dados disponíveis, e também expõe possíveis melhorias que podem aprimorar ainda mais o resultado obtido.	pt_BR
dc.degree.local	Medianeira	pt_BR
dc.publisher.local	Medianeira	pt_BR
dc.contributor.advisor1	Candido Junior, Arnaldo	-
dc.contributor.advisor-co1	Soares, Anderson da Silva	-
dc.contributor.referee1	Aikes Junior, Jorge	-
dc.contributor.referee2	Paula Filho, Pedro Luiz de	-
dc.contributor.referee3	Candido Junior, Arnaldo	-
dc.publisher.country	Brasil	pt_BR
dc.publisher.program	Ciência da Computação	pt_BR
dc.publisher.initials	UTFPR	pt_BR
dc.subject.cnpq	CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO	pt_BR
Aparece nas coleções:	MD - Ciência da Computação

Arquivos associados a este item:

Arquivo	Descrição	Tamanho	Formato
reconhecimentovozportuguesbrasileiro.pdf		6,2 MB	Adobe PDF	Visualizar/Abrir

Mostrar registro simples do item Recomendar este item Visualizar estatísticas