Use este identificador para citar ou linkar para este item:
http://repositorio.utfpr.edu.br/jspui/handle/1/38897Registro completo de metadados
| Campo DC | Valor | Idioma |
|---|---|---|
| dc.creator | Cardoso, Victor Henrique Amorim | - |
| dc.date.accessioned | 2025-11-11T21:47:21Z | - |
| dc.date.available | 2025-11-11T21:47:21Z | - |
| dc.date.issued | 2025-02-17 | - |
| dc.identifier.citation | CARDOSO, Victor Henrique Amorim. Estratégia autônoma baseada em aprendizado por reforço para a categoria IEEE very small size soccer. 2025. Trabalho de Conclusão de Curso (Bacharelado em Sistemas de Informação) - Universidade Tecnológica Federal do Paraná, Curitiba, 2025. | pt_BR |
| dc.identifier.uri | http://repositorio.utfpr.edu.br/jspui/handle/1/38897 | - |
| dc.description.abstract | This work aims to develop an autonomous strategy for decision-making and motion control of differential robots in the 3 versus 3 robots IEEE Very Small Size Soccer category. In this strategy, models obtained using Deep Reinforcement Learning algorithms were used to define the robots’ behaviors according to match situations. Two types of training were designed to obtain these models. The first involves learning how to act based on a specific role (attacker, defender, or goalkeeper) that the robot can assume during a match, using the PPO (Proximal Policy Optimization) algorithm. The second focuses on learning which role, including an additional support role (which was created without Reinforcement Learning for robots without ball possession and whose behavior is to position themselves in locations that assist in attack and defense according to the positions of the robots and the ball), each robot should take based on the match situation, employing the Deep Q-learning algorithm. For positioning the robots in situations like free kicks and penalty kicks, ensuring they reach their positions without colliding with static and dynamic obstacles, Univector Field Navigation was used for path planning, and the PID (Proportional–Integral–Derivative) controller was applied for motion control. The simulation results demonstrate that the developed strategy can operate consistently in all match situations within this category, whether defending, attacking, or positioning in situations like free kicks and penalty, without requiring human intervention. | pt_BR |
| dc.language | por | pt_BR |
| dc.publisher | Universidade Tecnológica Federal do Paraná | pt_BR |
| dc.rights | openAccess | pt_BR |
| dc.rights.uri | http://creativecommons.org/licenses/by/4.0/ | pt_BR |
| dc.subject | Robôs - Programação | pt_BR |
| dc.subject | Simulação (Computadores) | pt_BR |
| dc.subject | Robôs - Sistemas de controle | pt_BR |
| dc.subject | Aprendizado profundo (Aprendizado do computador) | pt_BR |
| dc.subject | Robots - Programming | pt_BR |
| dc.subject | Computer simulation | pt_BR |
| dc.subject | Robots - Control systems | pt_BR |
| dc.subject | Deep learning (Machine learning) | pt_BR |
| dc.title | Estratégia autônoma baseada em aprendizado por reforço para a categoria IEEE very small size soccer | pt_BR |
| dc.title.alternative | Autonomous reinforcement learning-based strategy for the IEEE very small size soccer category | pt_BR |
| dc.type | bachelorThesis | pt_BR |
| dc.description.resumo | Este trabalho tem como objetivo desenvolver uma estratégia autônoma para a decisão e controle do movimento de robôs diferenciais para a categoria IEEE Very Small Size Soccer de 3 contra 3 robôs. Nessa estratégia, modelos obtidos com o uso de algoritmos de Aprendizado por Reforço Profundo foram utilizados para definir os comportamentos dos robôs conforme as situações de jogo. Dois tipos de treinamento foram criados para obtenção desses modelos. O primeiro consiste no aprendizado da forma de atuar conforme um papel específico (atacante, defensor ou goleiro) que o robô pode ter durante uma partida com o uso do algoritmo PPO (Proximal Policy Optimization). O segundo consiste no aprendizado de qual papel, incluindo um papel adicional de suporte (que foi criado para os robôs sem a posse da bola sem Aprendizado por Reforço e cujo comportamento é se posicionar em locais que auxiliem no ataque e na defesa conforme a posição dos robôs e da bola), cada robô deve assumir conforme a situação da partida, no qual foi utilizado o algoritmo Deep Q-learning. Para posicionamento dos robôs em situações de bola parada, como faltas e pênalti, para que eles cheguem às posições sem colisões em obstáculos estáticos e dinâmicos, foram utilizados Univector Field Navigation, para o planejamento de caminho, e o controlador PID (Proporcional–Integral–Derivativo), para controle do movimento. Os resultados obtidos em simulação mostram que a estratégia criada é capaz de atuar de forma consistente em todas as situações de uma partida da categoria, seja defendendo, atacando ou em posicionamento e cobrança em momentos de bola parada, sem a necessidade de intervenção humana. | pt_BR |
| dc.degree.local | Curitiba | pt_BR |
| dc.publisher.local | Curitiba | pt_BR |
| dc.contributor.advisor1 | Fabro, João Alberto | - |
| dc.contributor.referee1 | Fabro, João Alberto | - |
| dc.contributor.referee2 | Delgado, Myriam Regattieri De Biase da Silva | - |
| dc.contributor.referee3 | Tacla, Cesar Augusto | - |
| dc.publisher.country | Brasil | pt_BR |
| dc.publisher.program | Sistemas de Informação | pt_BR |
| dc.publisher.initials | UTFPR | pt_BR |
| dc.subject.cnpq | CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO::METODOLOGIA E TECNICAS DA COMPUTACAO::SISTEMAS DE INFORMACAO | pt_BR |
| Aparece nas coleções: | CT - Sistemas de Informação | |
Arquivos associados a este item:
| Arquivo | Descrição | Tamanho | Formato | |
|---|---|---|---|---|
| aprendizadoreforcoieeesoccer.pdf | 1,33 MB | Adobe PDF | ![]() Visualizar/Abrir |
Este item está licenciada sob uma Licença Creative Commons

