Estratégia autônoma baseada em aprendizado por reforço para a categoria IEEE very small size soccer

Cardoso, Victor Henrique Amorim

Use este identificador para citar ou linkar para este item: http://repositorio.utfpr.edu.br/jspui/handle/1/38897

Registro completo de metadados

Campo DC	Valor	Idioma
dc.creator	Cardoso, Victor Henrique Amorim	-
dc.date.accessioned	2025-11-11T21:47:21Z	-
dc.date.available	2025-11-11T21:47:21Z	-
dc.date.issued	2025-02-17	-
dc.identifier.citation	CARDOSO, Victor Henrique Amorim. Estratégia autônoma baseada em aprendizado por reforço para a categoria IEEE very small size soccer. 2025. Trabalho de Conclusão de Curso (Bacharelado em Sistemas de Informação) - Universidade Tecnológica Federal do Paraná, Curitiba, 2025.	pt_BR
dc.identifier.uri	http://repositorio.utfpr.edu.br/jspui/handle/1/38897	-
dc.description.abstract	This work aims to develop an autonomous strategy for decision-making and motion control of differential robots in the 3 versus 3 robots IEEE Very Small Size Soccer category. In this strategy, models obtained using Deep Reinforcement Learning algorithms were used to define the robots’ behaviors according to match situations. Two types of training were designed to obtain these models. The first involves learning how to act based on a specific role (attacker, defender, or goalkeeper) that the robot can assume during a match, using the PPO (Proximal Policy Optimization) algorithm. The second focuses on learning which role, including an additional support role (which was created without Reinforcement Learning for robots without ball possession and whose behavior is to position themselves in locations that assist in attack and defense according to the positions of the robots and the ball), each robot should take based on the match situation, employing the Deep Q-learning algorithm. For positioning the robots in situations like free kicks and penalty kicks, ensuring they reach their positions without colliding with static and dynamic obstacles, Univector Field Navigation was used for path planning, and the PID (Proportional–Integral–Derivative) controller was applied for motion control. The simulation results demonstrate that the developed strategy can operate consistently in all match situations within this category, whether defending, attacking, or positioning in situations like free kicks and penalty, without requiring human intervention.	pt_BR
dc.language	por	pt_BR
dc.publisher	Universidade Tecnológica Federal do Paraná	pt_BR
dc.rights	openAccess	pt_BR
dc.rights.uri	http://creativecommons.org/licenses/by/4.0/	pt_BR
dc.subject	Robôs - Programação	pt_BR
dc.subject	Simulação (Computadores)	pt_BR
dc.subject	Robôs - Sistemas de controle	pt_BR
dc.subject	Aprendizado profundo (Aprendizado do computador)	pt_BR
dc.subject	Robots - Programming	pt_BR
dc.subject	Computer simulation	pt_BR
dc.subject	Robots - Control systems	pt_BR
dc.subject	Deep learning (Machine learning)	pt_BR
dc.title	Estratégia autônoma baseada em aprendizado por reforço para a categoria IEEE very small size soccer	pt_BR
dc.title.alternative	Autonomous reinforcement learning-based strategy for the IEEE very small size soccer category	pt_BR
dc.type	bachelorThesis	pt_BR
dc.description.resumo	Este trabalho tem como objetivo desenvolver uma estratégia autônoma para a decisão e controle do movimento de robôs diferenciais para a categoria IEEE Very Small Size Soccer de 3 contra 3 robôs. Nessa estratégia, modelos obtidos com o uso de algoritmos de Aprendizado por Reforço Profundo foram utilizados para definir os comportamentos dos robôs conforme as situações de jogo. Dois tipos de treinamento foram criados para obtenção desses modelos. O primeiro consiste no aprendizado da forma de atuar conforme um papel específico (atacante, defensor ou goleiro) que o robô pode ter durante uma partida com o uso do algoritmo PPO (Proximal Policy Optimization). O segundo consiste no aprendizado de qual papel, incluindo um papel adicional de suporte (que foi criado para os robôs sem a posse da bola sem Aprendizado por Reforço e cujo comportamento é se posicionar em locais que auxiliem no ataque e na defesa conforme a posição dos robôs e da bola), cada robô deve assumir conforme a situação da partida, no qual foi utilizado o algoritmo Deep Q-learning. Para posicionamento dos robôs em situações de bola parada, como faltas e pênalti, para que eles cheguem às posições sem colisões em obstáculos estáticos e dinâmicos, foram utilizados Univector Field Navigation, para o planejamento de caminho, e o controlador PID (Proporcional–Integral–Derivativo), para controle do movimento. Os resultados obtidos em simulação mostram que a estratégia criada é capaz de atuar de forma consistente em todas as situações de uma partida da categoria, seja defendendo, atacando ou em posicionamento e cobrança em momentos de bola parada, sem a necessidade de intervenção humana.	pt_BR
dc.degree.local	Curitiba	pt_BR
dc.publisher.local	Curitiba	pt_BR
dc.contributor.advisor1	Fabro, João Alberto	-
dc.contributor.referee1	Fabro, João Alberto	-
dc.contributor.referee2	Delgado, Myriam Regattieri De Biase da Silva	-
dc.contributor.referee3	Tacla, Cesar Augusto	-
dc.publisher.country	Brasil	pt_BR
dc.publisher.program	Sistemas de Informação	pt_BR
dc.publisher.initials	UTFPR	pt_BR
dc.subject.cnpq	CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO::METODOLOGIA E TECNICAS DA COMPUTACAO::SISTEMAS DE INFORMACAO	pt_BR
Aparece nas coleções:	CT - Sistemas de Informação

Arquivos associados a este item:

Arquivo	Descrição	Tamanho	Formato
aprendizadoreforcoieeesoccer.pdf		1,33 MB	Adobe PDF	Visualizar/Abrir

Mostrar registro simples do item Recomendar este item Visualizar estatísticas

Este item está licenciada sob uma Licença Creative Commons