Transferência de timbre utilizando auto encoder variacional e rede adversarial generativa

Igarashi, André Vaz; Sene, Pablo Rodrigues; Calegari, Stephanie Amandio

Use este identificador para citar ou linkar para este item: http://repositorio.utfpr.edu.br/jspui/handle/1/38811

Registro completo de metadados

Campo DC	Valor	Idioma
dc.creator	Igarashi, André Vaz	-
dc.creator	Sene, Pablo Rodrigues	-
dc.creator	Calegari, Stephanie Amandio	-
dc.date.accessioned	2025-11-03T20:03:45Z	-
dc.date.available	2025-11-03T20:03:45Z	-
dc.date.issued	2025-02-19	-
dc.identifier.citation	IGARASHI, André Vaz; SENE, Pablo Rodrigues; CALEGARI, Stephanie Amandio. Transferência de timbre utilizando auto encoder variacional e rede adversarial generativa. 2024. Trabalho de Conclusão de Curso (Bacharelado em Engenharia Eletrônica) - Universidade Tecnológica Federal do Paraná, Curitiba, 2024.	pt_BR
dc.identifier.uri	http://repositorio.utfpr.edu.br/jspui/handle/1/38811	-
dc.description.abstract	Technological progress in neural architectures has revolutionized the field of audio, pushing the boundaries of creativity and making audio technologies more accessible. These advancements enable the creation of new sound experiences, facilitate music production, and promote inclusivity, benefiting both professionals and amateurs in the world of music and audio. This work proposes the development of a timbre transfer model using Variational Autoencoders (VAE) and Generative Adversarial Networks (GAN). The timbre transfer technique aims to convert the sound of one musical instrument só that it sounds as if it were played by another, preserving musical characteristics such as melody and dynamics. The model combines the ability of VAEs to learn compact and robust latent representations with the ability of GANs to generate realistic, high-quality outputs. The pre-processing process includes transforming the audio into Mel spectrograms, removing silences, and normalizing. The model training is organized in cycles, using multiple loss functions to ensure the quality of the outputs. Inference involves reconstructing the audio using the Griffin-Lim algorithm and evaluating the quality of the outputs generated through objective and subjective metrics. Visualization techniques, such as t-SNE, are used to analyze the latent representations and separation of timbre clusters. This study aims to contribute to the advancement of sound manipulation using artificial intelligence, promoting creative and accessible solutions for music production and other applications related to timbre transfer. The research was guided by studies of timbre, musical perception and cognition, signal and audio processing, as well as tests of existing models. After all the study and development, it was possible to find the model that best fits the project proposal, obtaining satisfactory results that present a reduction of up to 53% in losses and an increase of up to 237% in clustering metrics, ensuring that the generator and the discriminator improve their respective tasks in a balanced way and indicating a significant improvement in the performance of the models throughout the training.	pt_BR
dc.language	por	pt_BR
dc.publisher	Universidade Tecnológica Federal do Paraná	pt_BR
dc.rights	openAccess	pt_BR
dc.rights.uri	http://creativecommons.org/licenses/by/4.0/	pt_BR
dc.subject	Redes neurais (Computação)	pt_BR
dc.subject	Processamento de som por computador	pt_BR
dc.subject	Processamento de sinais - Técnicas digitais	pt_BR
dc.subject	Inteligência artificial	pt_BR
dc.subject	Aprendizado do computador	pt_BR
dc.subject	Neural networks (Computer science)	pt_BR
dc.subject	Computer sound processing	pt_BR
dc.subject	Signal processing - Digital technique	pt_BR
dc.subject	Artificial intelligence	pt_BR
dc.subject	Machine learning	pt_BR
dc.title	Transferência de timbre utilizando auto encoder variacional e rede adversarial generativa	pt_BR
dc.title.alternative	Timbre transfer using auto encoder and generative adversarial network	pt_BR
dc.type	bachelorThesis	pt_BR
dc.description.resumo	O progresso tecnológico nas arquiteturas neurais tem revolucionado o campo do áudio, expandindo as fronteiras da criatividade e tornando as tecnologias de áudio mais acessíveis. Esses avanços permitem a criação de novas experiências sonoras, facilitam a produção musical e promovem a inclusão, beneficiando tanto profissionais quanto amadores no mundo da música e do áudio. Este trabalho propõe o desenvolvimento de um modelo de transferência de timbre utilizando Autoencoders Variacionais (VAE) e Redes Adversariais Generativas (GAN). A técnica de transferência de timbre visa converter o som de um instrumento musical ou de uma voz para que soe como se fosse produzido por outro instrumento ou locutor, preservando características musicais e prosódicas, como melodia, dinâmica e entonação. O modelo combina a capacidade dos VAEs de aprender representações latentes compactas e robustas com a habilidade dos GANs de gerar saídas realistas e de alta qualidade. O processo de pré-processamento inclui a transformação do áudio em espectrogramas Mel, remoção de silêncios e normalização. O treinamento do modelo é organizado em ciclos, utilizando múltiplas funções de perda para garantir a qualidade das saídas. A inferência envolve a reconstrução do áudio utilizando o algoritmo Griffin-Lim e a avaliação da qualidade das saídas geradas através de métricas objetivas e subjetivas. Técnicas de visualização, como t-SNE, são empregadas para analisar as representações latentes e a separação dos clusters de timbres e características vocais. Este estudo visa contribuir para o avanço da manipulação sonora utilizando inteligência artificial, promovendo soluções criativas e acessíveis para a produção musical, síntese de voz e outras aplicações relacionadas à transferência de timbre. A pesquisa foi orientada por estudos de timbre, percepção e cognição musical, processamento de sinais e de áudio, além de testes de modelos existentes. Após todo o estudo e desenvolvimento, foi possível encontrar o modelo que melhor se encaixa com a proposta do projeto, obtendo resultados satisfatórios que apresentam, ao longo do treino, uma redução de até 53% nas perdas e um aumento de até 237% nas métricas de clusterização, garantindo que o gerador e o discriminador melhorem suas respectivas tarefas de maneira equilibrada e indicando uma melhoria significativa na performance dos modelos ao longo do treinamento.	pt_BR
dc.degree.local	Curitiba	pt_BR
dc.publisher.local	Curitiba	pt_BR
dc.contributor.advisor1	Lazzaretti, André Eugênio	-
dc.contributor.referee1	Lazzaretti, André Eugênio	-
dc.contributor.referee2	Chang, Bruno Sens	-
dc.contributor.referee3	Borba, Gustavo Benvenutti	-
dc.publisher.country	Brasil	pt_BR
dc.publisher.program	Engenharia Eletrônica	pt_BR
dc.publisher.initials	UTFPR	pt_BR
dc.subject.cnpq	CNPQ::ENGENHARIAS::ENGENHARIA ELETRICA	pt_BR
Aparece nas coleções:	CT - Engenharia Eletrônica

Arquivos associados a este item:

Arquivo	Descrição	Tamanho	Formato
transferenciatimbreautoencoder.pdf		5 MB	Adobe PDF	Visualizar/Abrir

Mostrar registro simples do item Recomendar este item Visualizar estatísticas

Este item está licenciada sob uma Licença Creative Commons