Use este identificador para citar ou linkar para este item: http://repositorio.utfpr.edu.br/jspui/handle/1/36778
Título: Controle de um pêndulo de Furuta com aprendizado por reforço
Título(s) alternativo(s): Control of a Furuta pendulum with reinforcement learning
Autor(es): Souza, Fernando Luiz Klein de
Orientador(es): Jeronymo, Daniel Cavalcanti
Palavras-chave: Aprendizado por Reforço
Teoria de controle não linear
Sistemas dinâmicos diferenciais
Reinforcement learning
Nonlinear control theory
Differentiable dynamical systems
Data do documento: 17-Fev-2025
Editor: Universidade Tecnológica Federal do Paraná
Câmpus: Toledo
Citação: SOUZA, Fernando Luiz Klein de. Controle de um pêndulo de Furuta com aprendizado por reforço. 2024. Trabalho de Conclusão de Curso (Bacharelado em Engenharia da Computação) - Universidade Tecnológica Federal do Paraná, Toledo, 2025.
Resumo: Este trabalho propôs o controle de um pêndulo de Furuta utilizando aprendizado por reforço, abordando desafios como sub-atuação, não-linearidades e instabilidades. A abordagem clássica de controle para este sistema consiste em situar o pêndulo próximo à região de equilíbrio, técnica conhecida como swing-up, e controlá-lo no ponto de equilíbrio utilizando um controlador linear. No entanto, essa abordagem exige linearizações do sistema, o que resulta em desempenho sub-ótimo. O objetivo principal do estudo foi explorar a aplicação do aprendizado por reforço para lidar com as complexidades do sistema, como suas características não-lineares e instáveis. Para isso, foi empregado o algoritmo Q-Learning, realizando simulações para comparar o desempenho dos controladores clássicos e do controlador baseado em aprendizado por reforço, com métricas focadas em estabilidade, precisão e eficiência energética. Os resultados indicam que o modelo baseado em Q-Learning teve desempenho inferior aos controladores clássicos, em termos de erro de rastreamento e consumo de energia no controle, além de exigir ajustes de hiperparâmetros não triviais para otimizar o desempenho do sistema, o que aumentou significativamente o tempo de treinamento devido à necessidade de explorar e ajustar diferentes configurações para alcançar uma performance aceitável. Conclui-se que, embora os métodos clássicos sejam mais adequados para cenários que exigem soluções rápidas e confiáveis, o aprendizado por reforço representa uma alternativa promissora para sistemas complexos e incertos, nos quais a modelagem explícita do ambiente é difícil ou inviável.
Abstract: This work proposed the control of a Furuta pendulum using reinforcement learning, addressing challenges such as underactuation, non-linearities, and instabilities. The classical control approach for this system involves positioning the pendulum close to the equilibrium region, a technique known as swing-up, and controlling it at the equilibrium point using a linear controller. However, this approach requires system linearizations, which leads to sub-optimal performance. The main goal of the study was to explore the application of reinforcement learning to handle the complexities of the system, such as its non-linear and unstable characteristics. For this, the Q-Learning algorithm was employed, conducting simulations to compare the performance of the classical controllers and the reinforcement learning-based controller, with metrics focusing on stability, accuracy, and energy efficiency. The results indicate that the Q-Learning-based model performed worse than the classical controllers in terms of tracking error and energy consumption for control, also requiring non-trivial adjustments of hyperparameters to optimize the system’s performance, which significantly increased the training time due to the need to explore and adjust different configurations to achieve acceptable performance. It is concluded that, although classical methods are more suitable for scenarios that require fast and reliable solutions, reinforcement learning represents a promising alternative for complex and uncertain systems, where explicit modeling of the environment is difficult or unfeasible.
URI: http://repositorio.utfpr.edu.br/jspui/handle/1/36778
Aparece nas coleções:TD - Engenharia de Computação

Arquivos associados a este item:
Arquivo Descrição TamanhoFormato 
pendulofurutaaprendizadoreforco.pdf3,47 MBAdobe PDFThumbnail
Visualizar/Abrir


Este item está licenciada sob uma Licença Creative Commons Creative Commons