Use este identificador para citar ou linkar para este item: http://repositorio.utfpr.edu.br/jspui/handle/1/38811
Registro completo de metadados
Campo DCValorIdioma
dc.creatorIgarashi, André Vaz-
dc.creatorSene, Pablo Rodrigues-
dc.creatorCalegari, Stephanie Amandio-
dc.date.accessioned2025-11-03T20:03:45Z-
dc.date.available2025-11-03T20:03:45Z-
dc.date.issued2025-02-19-
dc.identifier.citationIGARASHI, André Vaz; SENE, Pablo Rodrigues; CALEGARI, Stephanie Amandio. Transferência de timbre utilizando auto encoder variacional e rede adversarial generativa. 2024. Trabalho de Conclusão de Curso (Bacharelado em Engenharia Eletrônica) - Universidade Tecnológica Federal do Paraná, Curitiba, 2024.pt_BR
dc.identifier.urihttp://repositorio.utfpr.edu.br/jspui/handle/1/38811-
dc.description.abstractTechnological progress in neural architectures has revolutionized the field of audio, pushing the boundaries of creativity and making audio technologies more accessible. These advancements enable the creation of new sound experiences, facilitate music production, and promote inclusivity, benefiting both professionals and amateurs in the world of music and audio. This work proposes the development of a timbre transfer model using Variational Autoencoders (VAE) and Generative Adversarial Networks (GAN). The timbre transfer technique aims to convert the sound of one musical instrument só that it sounds as if it were played by another, preserving musical characteristics such as melody and dynamics. The model combines the ability of VAEs to learn compact and robust latent representations with the ability of GANs to generate realistic, high-quality outputs. The pre-processing process includes transforming the audio into Mel spectrograms, removing silences, and normalizing. The model training is organized in cycles, using multiple loss functions to ensure the quality of the outputs. Inference involves reconstructing the audio using the Griffin-Lim algorithm and evaluating the quality of the outputs generated through objective and subjective metrics. Visualization techniques, such as t-SNE, are used to analyze the latent representations and separation of timbre clusters. This study aims to contribute to the advancement of sound manipulation using artificial intelligence, promoting creative and accessible solutions for music production and other applications related to timbre transfer. The research was guided by studies of timbre, musical perception and cognition, signal and audio processing, as well as tests of existing models. After all the study and development, it was possible to find the model that best fits the project proposal, obtaining satisfactory results that present a reduction of up to 53% in losses and an increase of up to 237% in clustering metrics, ensuring that the generator and the discriminator improve their respective tasks in a balanced way and indicating a significant improvement in the performance of the models throughout the training.pt_BR
dc.languageporpt_BR
dc.publisherUniversidade Tecnológica Federal do Paranápt_BR
dc.rightsopenAccesspt_BR
dc.rights.urihttp://creativecommons.org/licenses/by/4.0/pt_BR
dc.subjectRedes neurais (Computação)pt_BR
dc.subjectProcessamento de som por computadorpt_BR
dc.subjectProcessamento de sinais - Técnicas digitaispt_BR
dc.subjectInteligência artificialpt_BR
dc.subjectAprendizado do computadorpt_BR
dc.subjectNeural networks (Computer science)pt_BR
dc.subjectComputer sound processingpt_BR
dc.subjectSignal processing - Digital techniquept_BR
dc.subjectArtificial intelligencept_BR
dc.subjectMachine learningpt_BR
dc.titleTransferência de timbre utilizando auto encoder variacional e rede adversarial generativapt_BR
dc.title.alternativeTimbre transfer using auto encoder and generative adversarial networkpt_BR
dc.typebachelorThesispt_BR
dc.description.resumoO progresso tecnológico nas arquiteturas neurais tem revolucionado o campo do áudio, expandindo as fronteiras da criatividade e tornando as tecnologias de áudio mais acessíveis. Esses avanços permitem a criação de novas experiências sonoras, facilitam a produção musical e promovem a inclusão, beneficiando tanto profissionais quanto amadores no mundo da música e do áudio. Este trabalho propõe o desenvolvimento de um modelo de transferência de timbre utilizando Autoencoders Variacionais (VAE) e Redes Adversariais Generativas (GAN). A técnica de transferência de timbre visa converter o som de um instrumento musical ou de uma voz para que soe como se fosse produzido por outro instrumento ou locutor, preservando características musicais e prosódicas, como melodia, dinâmica e entonação. O modelo combina a capacidade dos VAEs de aprender representações latentes compactas e robustas com a habilidade dos GANs de gerar saídas realistas e de alta qualidade. O processo de pré-processamento inclui a transformação do áudio em espectrogramas Mel, remoção de silêncios e normalização. O treinamento do modelo é organizado em ciclos, utilizando múltiplas funções de perda para garantir a qualidade das saídas. A inferência envolve a reconstrução do áudio utilizando o algoritmo Griffin-Lim e a avaliação da qualidade das saídas geradas através de métricas objetivas e subjetivas. Técnicas de visualização, como t-SNE, são empregadas para analisar as representações latentes e a separação dos clusters de timbres e características vocais. Este estudo visa contribuir para o avanço da manipulação sonora utilizando inteligência artificial, promovendo soluções criativas e acessíveis para a produção musical, síntese de voz e outras aplicações relacionadas à transferência de timbre. A pesquisa foi orientada por estudos de timbre, percepção e cognição musical, processamento de sinais e de áudio, além de testes de modelos existentes. Após todo o estudo e desenvolvimento, foi possível encontrar o modelo que melhor se encaixa com a proposta do projeto, obtendo resultados satisfatórios que apresentam, ao longo do treino, uma redução de até 53% nas perdas e um aumento de até 237% nas métricas de clusterização, garantindo que o gerador e o discriminador melhorem suas respectivas tarefas de maneira equilibrada e indicando uma melhoria significativa na performance dos modelos ao longo do treinamento.pt_BR
dc.degree.localCuritibapt_BR
dc.publisher.localCuritibapt_BR
dc.contributor.advisor1Lazzaretti, André Eugênio-
dc.contributor.referee1Lazzaretti, André Eugênio-
dc.contributor.referee2Chang, Bruno Sens-
dc.contributor.referee3Borba, Gustavo Benvenutti-
dc.publisher.countryBrasilpt_BR
dc.publisher.programEngenharia Eletrônicapt_BR
dc.publisher.initialsUTFPRpt_BR
dc.subject.cnpqCNPQ::ENGENHARIAS::ENGENHARIA ELETRICApt_BR
Aparece nas coleções:CT - Engenharia Eletrônica

Arquivos associados a este item:
Arquivo Descrição TamanhoFormato 
transferenciatimbreautoencoder.pdf5 MBAdobe PDFThumbnail
Visualizar/Abrir


Este item está licenciada sob uma Licença Creative Commons Creative Commons