Use este identificador para citar ou linkar para este item: http://repositorio.utfpr.edu.br/jspui/handle/1/38897
Registro completo de metadados
Campo DCValorIdioma
dc.creatorCardoso, Victor Henrique Amorim-
dc.date.accessioned2025-11-11T21:47:21Z-
dc.date.available2025-11-11T21:47:21Z-
dc.date.issued2025-02-17-
dc.identifier.citationCARDOSO, Victor Henrique Amorim. Estratégia autônoma baseada em aprendizado por reforço para a categoria IEEE very small size soccer. 2025. Trabalho de Conclusão de Curso (Bacharelado em Sistemas de Informação) - Universidade Tecnológica Federal do Paraná, Curitiba, 2025.pt_BR
dc.identifier.urihttp://repositorio.utfpr.edu.br/jspui/handle/1/38897-
dc.description.abstractThis work aims to develop an autonomous strategy for decision-making and motion control of differential robots in the 3 versus 3 robots IEEE Very Small Size Soccer category. In this strategy, models obtained using Deep Reinforcement Learning algorithms were used to define the robots’ behaviors according to match situations. Two types of training were designed to obtain these models. The first involves learning how to act based on a specific role (attacker, defender, or goalkeeper) that the robot can assume during a match, using the PPO (Proximal Policy Optimization) algorithm. The second focuses on learning which role, including an additional support role (which was created without Reinforcement Learning for robots without ball possession and whose behavior is to position themselves in locations that assist in attack and defense according to the positions of the robots and the ball), each robot should take based on the match situation, employing the Deep Q-learning algorithm. For positioning the robots in situations like free kicks and penalty kicks, ensuring they reach their positions without colliding with static and dynamic obstacles, Univector Field Navigation was used for path planning, and the PID (Proportional–Integral–Derivative) controller was applied for motion control. The simulation results demonstrate that the developed strategy can operate consistently in all match situations within this category, whether defending, attacking, or positioning in situations like free kicks and penalty, without requiring human intervention.pt_BR
dc.languageporpt_BR
dc.publisherUniversidade Tecnológica Federal do Paranápt_BR
dc.rightsopenAccesspt_BR
dc.rights.urihttp://creativecommons.org/licenses/by/4.0/pt_BR
dc.subjectRobôs - Programaçãopt_BR
dc.subjectSimulação (Computadores)pt_BR
dc.subjectRobôs - Sistemas de controlept_BR
dc.subjectAprendizado profundo (Aprendizado do computador)pt_BR
dc.subjectRobots - Programmingpt_BR
dc.subjectComputer simulationpt_BR
dc.subjectRobots - Control systemspt_BR
dc.subjectDeep learning (Machine learning)pt_BR
dc.titleEstratégia autônoma baseada em aprendizado por reforço para a categoria IEEE very small size soccerpt_BR
dc.title.alternativeAutonomous reinforcement learning-based strategy for the IEEE very small size soccer categorypt_BR
dc.typebachelorThesispt_BR
dc.description.resumoEste trabalho tem como objetivo desenvolver uma estratégia autônoma para a decisão e controle do movimento de robôs diferenciais para a categoria IEEE Very Small Size Soccer de 3 contra 3 robôs. Nessa estratégia, modelos obtidos com o uso de algoritmos de Aprendizado por Reforço Profundo foram utilizados para definir os comportamentos dos robôs conforme as situações de jogo. Dois tipos de treinamento foram criados para obtenção desses modelos. O primeiro consiste no aprendizado da forma de atuar conforme um papel específico (atacante, defensor ou goleiro) que o robô pode ter durante uma partida com o uso do algoritmo PPO (Proximal Policy Optimization). O segundo consiste no aprendizado de qual papel, incluindo um papel adicional de suporte (que foi criado para os robôs sem a posse da bola sem Aprendizado por Reforço e cujo comportamento é se posicionar em locais que auxiliem no ataque e na defesa conforme a posição dos robôs e da bola), cada robô deve assumir conforme a situação da partida, no qual foi utilizado o algoritmo Deep Q-learning. Para posicionamento dos robôs em situações de bola parada, como faltas e pênalti, para que eles cheguem às posições sem colisões em obstáculos estáticos e dinâmicos, foram utilizados Univector Field Navigation, para o planejamento de caminho, e o controlador PID (Proporcional–Integral–Derivativo), para controle do movimento. Os resultados obtidos em simulação mostram que a estratégia criada é capaz de atuar de forma consistente em todas as situações de uma partida da categoria, seja defendendo, atacando ou em posicionamento e cobrança em momentos de bola parada, sem a necessidade de intervenção humana.pt_BR
dc.degree.localCuritibapt_BR
dc.publisher.localCuritibapt_BR
dc.contributor.advisor1Fabro, João Alberto-
dc.contributor.referee1Fabro, João Alberto-
dc.contributor.referee2Delgado, Myriam Regattieri De Biase da Silva-
dc.contributor.referee3Tacla, Cesar Augusto-
dc.publisher.countryBrasilpt_BR
dc.publisher.programSistemas de Informaçãopt_BR
dc.publisher.initialsUTFPRpt_BR
dc.subject.cnpqCNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO::METODOLOGIA E TECNICAS DA COMPUTACAO::SISTEMAS DE INFORMACAOpt_BR
Aparece nas coleções:CT - Sistemas de Informação

Arquivos associados a este item:
Arquivo Descrição TamanhoFormato 
aprendizadoreforcoieeesoccer.pdf1,33 MBAdobe PDFThumbnail
Visualizar/Abrir


Este item está licenciada sob uma Licença Creative Commons Creative Commons