Transferência de timbre utilizando auto encoder variacional e rede adversarial generativa

Igarashi, André Vaz; Sene, Pablo Rodrigues; Calegari, Stephanie Amandio

Use este identificador para citar ou linkar para este item: http://repositorio.utfpr.edu.br/jspui/handle/1/38811

Título:	Transferência de timbre utilizando auto encoder variacional e rede adversarial generativa
Título(s) alternativo(s):	Timbre transfer using auto encoder and generative adversarial network
Autor(es):	Igarashi, André Vaz Sene, Pablo Rodrigues Calegari, Stephanie Amandio
Orientador(es):	Lazzaretti, André Eugênio
Palavras-chave:	Redes neurais (Computação) Processamento de som por computador Processamento de sinais - Técnicas digitais Inteligência artificial Aprendizado do computador Neural networks (Computer science) Computer sound processing Signal processing - Digital technique Artificial intelligence Machine learning
Data do documento:	19-Fev-2025
Editor:	Universidade Tecnológica Federal do Paraná
Câmpus:	Curitiba
Citação:	IGARASHI, André Vaz; SENE, Pablo Rodrigues; CALEGARI, Stephanie Amandio. Transferência de timbre utilizando auto encoder variacional e rede adversarial generativa. 2024. Trabalho de Conclusão de Curso (Bacharelado em Engenharia Eletrônica) - Universidade Tecnológica Federal do Paraná, Curitiba, 2024.
Resumo:	O progresso tecnológico nas arquiteturas neurais tem revolucionado o campo do áudio, expandindo as fronteiras da criatividade e tornando as tecnologias de áudio mais acessíveis. Esses avanços permitem a criação de novas experiências sonoras, facilitam a produção musical e promovem a inclusão, beneficiando tanto profissionais quanto amadores no mundo da música e do áudio. Este trabalho propõe o desenvolvimento de um modelo de transferência de timbre utilizando Autoencoders Variacionais (VAE) e Redes Adversariais Generativas (GAN). A técnica de transferência de timbre visa converter o som de um instrumento musical ou de uma voz para que soe como se fosse produzido por outro instrumento ou locutor, preservando características musicais e prosódicas, como melodia, dinâmica e entonação. O modelo combina a capacidade dos VAEs de aprender representações latentes compactas e robustas com a habilidade dos GANs de gerar saídas realistas e de alta qualidade. O processo de pré-processamento inclui a transformação do áudio em espectrogramas Mel, remoção de silêncios e normalização. O treinamento do modelo é organizado em ciclos, utilizando múltiplas funções de perda para garantir a qualidade das saídas. A inferência envolve a reconstrução do áudio utilizando o algoritmo Griffin-Lim e a avaliação da qualidade das saídas geradas através de métricas objetivas e subjetivas. Técnicas de visualização, como t-SNE, são empregadas para analisar as representações latentes e a separação dos clusters de timbres e características vocais. Este estudo visa contribuir para o avanço da manipulação sonora utilizando inteligência artificial, promovendo soluções criativas e acessíveis para a produção musical, síntese de voz e outras aplicações relacionadas à transferência de timbre. A pesquisa foi orientada por estudos de timbre, percepção e cognição musical, processamento de sinais e de áudio, além de testes de modelos existentes. Após todo o estudo e desenvolvimento, foi possível encontrar o modelo que melhor se encaixa com a proposta do projeto, obtendo resultados satisfatórios que apresentam, ao longo do treino, uma redução de até 53% nas perdas e um aumento de até 237% nas métricas de clusterização, garantindo que o gerador e o discriminador melhorem suas respectivas tarefas de maneira equilibrada e indicando uma melhoria significativa na performance dos modelos ao longo do treinamento.
Abstract:	Technological progress in neural architectures has revolutionized the field of audio, pushing the boundaries of creativity and making audio technologies more accessible. These advancements enable the creation of new sound experiences, facilitate music production, and promote inclusivity, benefiting both professionals and amateurs in the world of music and audio. This work proposes the development of a timbre transfer model using Variational Autoencoders (VAE) and Generative Adversarial Networks (GAN). The timbre transfer technique aims to convert the sound of one musical instrument só that it sounds as if it were played by another, preserving musical characteristics such as melody and dynamics. The model combines the ability of VAEs to learn compact and robust latent representations with the ability of GANs to generate realistic, high-quality outputs. The pre-processing process includes transforming the audio into Mel spectrograms, removing silences, and normalizing. The model training is organized in cycles, using multiple loss functions to ensure the quality of the outputs. Inference involves reconstructing the audio using the Griffin-Lim algorithm and evaluating the quality of the outputs generated through objective and subjective metrics. Visualization techniques, such as t-SNE, are used to analyze the latent representations and separation of timbre clusters. This study aims to contribute to the advancement of sound manipulation using artificial intelligence, promoting creative and accessible solutions for music production and other applications related to timbre transfer. The research was guided by studies of timbre, musical perception and cognition, signal and audio processing, as well as tests of existing models. After all the study and development, it was possible to find the model that best fits the project proposal, obtaining satisfactory results that present a reduction of up to 53% in losses and an increase of up to 237% in clustering metrics, ensuring that the generator and the discriminator improve their respective tasks in a balanced way and indicating a significant improvement in the performance of the models throughout the training.
URI:	http://repositorio.utfpr.edu.br/jspui/handle/1/38811
Aparece nas coleções:	CT - Engenharia Eletrônica

Arquivos associados a este item:

Arquivo	Descrição	Tamanho	Formato
transferenciatimbreautoencoder.pdf		5 MB	Adobe PDF	Visualizar/Abrir

Mostrar registro completo do item Recomendar este item Visualizar estatísticas

Este item está licenciada sob uma Licença Creative Commons