Sistema de automatização de animação Lip Sync por algoritmo de alinhamento forçado

Nishimura, Fernando Itiro

Use este identificador para citar ou linkar para este item: http://repositorio.utfpr.edu.br/jspui/handle/1/38817

Título:	Sistema de automatização de animação Lip Sync por algoritmo de alinhamento forçado
Título(s) alternativo(s):	Lip Sync animation automation system by forced alignment algorithm
Autor(es):	Nishimura, Fernando Itiro
Orientador(es):	Lopes, Heitor Silvério
Palavras-chave:	Algorítmos computacionais Aprendizado do computador Fonética Redes neurais (Computação) Língua japonesa Sistemas de processamento da fala Computer algorithms Machine learning Phonetics Neural networks (Computer science) Japanese language Speech processing systems
Data do documento:	4-Nov-2024
Editor:	Universidade Tecnológica Federal do Paraná
Câmpus:	Curitiba
Citação:	NISHIMURA, Fernando Itiro. Sistema de automatização de animação Lip Sync por algoritmo de alinhamento forçado. 2024. Trabalho de Conclusão de Curso (Bacharelado em Engenharia Eletrônica) - Universidade Tecnológica Federal do Paraná, Curitiba, 2024.
Resumo:	Este trabalho apresenta o desenvolvimento de um programa no formato de plug-in para o editor de animações Autodesk MAYA, com o objetivo de automatizar animações 3D de sincronização labial (lip sync) em inglês e japonês. A automação foi realizada por meio de métodos de aprendizado de máquina (machine learning) aplicados ao reconhecimento de fonemas por alinhamento fonético e emoções na fala por redes neurais, utilizando como entrada arquivos de áudio, suas transcrições e conjuntos de animações pré-definidas de visemas. Para os modelos acústicos em inglês, foram utilizados modelos pré-treinados disponibilizados pela API Montreal Forced Alignment (MFA). No entanto, devido a problemas de alinhamento no modelo pré-treinado existente para o japonês, foi necessário treinar um novo modelo, adaptado ao sistema silábico kana. Essa abordagem simplificou o dicionário fonemático japonês, mitigando erros causados pela flexibilidade e pela ampla variedade lexical da língua. A ferramenta desenvolvida visa reduzir a carga de trabalho dos animadores, dado que a criação manual desse tipo de animação é frequentemente considerada repetitiva e demorada. Além disso, o método proposto melhora a qualidade das animações ao conferir maior naturalidade aos movimentos labiais, em contraste com abordagens mais simplificadas que utilizam apenas análises no domínio do tempo das ondas sonoras. A tecnologia apresentada possui aplicações em diversas áreas, como animação de desenhos animados, jogos eletrônicos, computação gráfica e qualquer mídia que exija animações labiais sincronizadas a partir de arquivos de áudio.
Abstract:	This paper presents the development of a plug-in program for the Autodesk MAYA animation editor, with the aim of automating 3D lip sync animations in English and Japanese. The automation was performed using machine learning methods applied to phoneme recognition by forced alignment and speech emotion recognition by neural networks, using as input audio files, their transcriptions and sets of predefined viseme animations. For the acoustic models in English, pre-trained models made available by the Montreal Forced Alignment (MFA) API were used. However, due to alignment problems in the existing pre-trained model for Japanese, it was necessary to train a new model, adapted to the kana syllabic system. This approach simplified the Japanese phonetic dictionary, mitigating errors caused by the flexibility and wide lexical variety of the language. The tool developed aims to reduce the workload of animators, given that manually creating this type of animation is often considered repetitive and time-consuming. In addition, the proposed method improves the quality of animations by giving greater naturalness to lip movements, in contrast to more simplified approaches that only use time-domain analysis of sound waves. The technology presented has applications in several areas, such as cartoon animation, electronic games, computer graphics and any media that requires synchronized lip animations from audio files.
URI:	http://repositorio.utfpr.edu.br/jspui/handle/1/38817
Aparece nas coleções:	CT - Engenharia Eletrônica

Arquivos associados a este item:

Arquivo	Descrição	Tamanho	Formato
sistemaautomatizacaoanimacao.pdf		3,56 MB	Adobe PDF	Visualizar/Abrir

Mostrar registro completo do item Recomendar este item Visualizar estatísticas

Este item está licenciada sob uma Licença Creative Commons