Use este identificador para citar ou linkar para este item:
http://repositorio.utfpr.edu.br/jspui/handle/1/38936| Título: | Análise de modelos de conversão de fala sussurrada para normal emlíngua portuguesa |
| Título(s) alternativo(s): | Analysis of voice conversion models for whisper-to-normal portuguese speech |
| Autor(es): | Yamamura, Cezar Fumio |
| Orientador(es): | Scalassara, Paulo Rogerio |
| Palavras-chave: | Banco de dados Programas de aprendizado Fala Databases Apprenticeship programs Speech |
| Data do documento: | 22-Out-2025 |
| Editor: | Universidade Tecnológica Federal do Paraná |
| Câmpus: | Cornelio Procopio |
| Citação: | YAMAMURA, Cezar Fumio. Análise de modelos de conversão de fala sussurrada para normal em língua portuguesa. 2025. Tese (Doutorado em Engenharia Elétrica - Uel/Utpfr) - Universidade Tecnológica Federal do Paraná, Cornélio Procópio, 2025. |
| Resumo: | O sussurro é um mecanismo de fala comum e secundário para a comunicação. Entretanto, indivíduos com afonia, como os laringectomizados, utilizam a fala sussurrada como principal meio de expressão. Devido às diferenças significativas entre a fala sussurrada e a fala normal, os sistemas de reconhecimento e conversão de fala enfrentam grandes desafios para realizar essa transformação de forma precisa. Esta tese de doutorado aborda, discute e propõe soluções em três frentes principais: i) Avaliação de quatro modelos de conversão de voz sem treinamento prévio com fala sussurrada, utilizando o teste perceptual de fala MUSHRA (Multiple Stimuli with Hidden Reference and Anchor) para analisar a conversão de sussurro para fala normal. O modelo de conversão de voz por k-vizinhos mais próximos (KNN-VC) se destacou em métricas objetivas e subjetivas; ii) Construção de um banco de dados de fala sussurrada em português brasileiro, devidamente aprovado pelo Comitê de Ética em Pesquisa, com o objetivo de suprir a escassez de dados nessa modalidade linguística e ampliar as possibilidades de experimentação científica; iii) Aprimoramento do modelo KNN-VC em diferentes perspectivas, incluindo: estudo com modelos alternativos de extração de características; aprendizado por transferência utilizando o algoritmo de adaptação de baixo nível (LoRA); mapeamento de dados paralelos de voz sussurrada e normal com KNN (pKNN-VC), e com MLP (MLP-VC). Por fim, são destacadas as contribuições obtidas em cada estudo, bem como discussões sobre oportunidades e direções para futuros trabalhos |
| Abstract: | Whispered speech is a common and secondary mechanism of communication. However, individuals with aphonia, such as laryngectomized patients, rely on whispered speech as their primary means of expression. Due to the significant differences between whispered and normal speech, speech recognition and conversion systems face major challenges in achieving accurate transformation between them. This doctoral thesis addresses, discusses, and proposes solutions across three main fronts: i) An evaluation of four voice conversion models without prior training on whispered speech, assessed through the Multiple Stimuli with Hidden Reference and Anchor (MUSHRA) perceptual speech test for whisper-to-normal conversion. The k-nearest neighbors voice conversion model (KNN-VC) outperformed the others in both objective and subjective metrics; ii) The construction of a Brazilian Portuguese whispered speech database, duly approved by the Research Ethics Committee, aiming to address the scarcity of data in this linguistic modality and expand opportunities for scientific experimentation; iii) Enhancements to the KNN-VC model from different perspectives, including: experiments with alternative feature extraction models; transfer learning using the low-rank adaptation (LoRA) algorithm; mapping of parallel whispered and normal speech data with KNN (pKNN-VC), and with MLP (MLP-VC). Finally, the thesis highlights the contributions derived from each study and discusses opportunities and directions for future research. |
| URI: | http://repositorio.utfpr.edu.br/jspui/handle/1/38936 |
| Aparece nas coleções: | CP - Programa de Pós-Graduação em Engenharia Elétrica |
Arquivos associados a este item:
| Arquivo | Descrição | Tamanho | Formato | |
|---|---|---|---|---|
| conversaofalasussurradaportugues.pdf | 12,94 MB | Adobe PDF | ![]() Visualizar/Abrir |
Os itens no repositório estão protegidos por copyright, com todos os direitos reservados, salvo quando é indicado o contrário.

