Use este identificador para citar ou linkar para este item: http://repositorio.utfpr.edu.br/jspui/handle/1/37254
Título: Comparação entre os algoritmos de aprendizado por reforço Q-learning e Sarsa no jogo educacional Xô Mosquito
Título(s) alternativo(s): Comparison between reinforcement learning algorithms Q-learning and Sarsa in the educational game Xô Mosquito
Autor(es): Derkascz, Thomas Krevey
Orientador(es): Borges, Helyane Bronoski
Palavras-chave: Aprendizagem
Jogos educativos
Processo decisório
Algorítmos
Learning
Educational games
Decision making
Algorithms
Data do documento: 30-Out-2023
Editor: Universidade Tecnológica Federal do Paraná
Câmpus: Ponta Grossa
Citação: DERKASCZ, Thomas Krevey. Comparação entre os algoritmos de aprendizado por reforço Q-learning e Sarsa no jogo educacional Xô Mosquito. 2023. Trabalho de Conclusão de Curso (Bacharelado em Ciência da Computação) - Universidade Tecnológica Federal do Paraná, Ponta Grossa, 2023.
Resumo: A aplicação de algoritmos de aprendizado de máquina em jogos pode possibilitar um ambiente mais adaptável às características do jogador, seja por entender jogadas ou aumentar gradualmente seu nível de dificuldade. Métodos de aprendizado por reforço apresentam comportamento similar ao aprendizado humano, utilizando tentativas e erros para obter conhecimento através de recompensas. Este trabalho apresenta a comparação entre os algoritmos Q-learning e Sarsa, dois algoritmos de aprendizagem por reforço, implementados em três diferentes cenários. Assim, o trabalho busca definir a implementação que resolve o jogo educacional Xô Mosquito no menor tempo. Os cenários utilizam parametrizações diferentes para os valores iniciais dos algoritmos, com base na sua proximidade com os objetivos do jogo. O primeiro usa valores iguais a zero, o segundo tem valores baseados em uma lógica de conjunto de blocos e proximidade, por fim o terceiro aplica valores baseados na proximidade de blocos individuais. As implementações foram aplicadas no jogo educacional Xô Mosquito, um jogo com poucas limitações de movimentação e com três objetivos. Este jogo foi desenvolvido no projeto de extensão Lesic (Laboratório de engenharia de software e inteligência computacional). A comparação é feita em um ambiente simplificado do jogo base e possui como principal dado analisado o tempo total de execução das implementações. Com os resultados é possível perceber que dentro do cenário proposto o algoritmo Sarsa com seu terceiro cenário resolve o jogo no menor tempo. Pode-se também entender o impacto que diferentes valores iniciais causam na aplicação de algoritmos de aprendizagem por reforço.
Abstract: The application of machine learning algorithms in games can enable an environment that is more adaptable to the player's characteristics, whether by understanding moves or gradually increasing their level of difficulty. Reinforcement learning methods present behavior similar to human learning, using trial and error to obtain knowledge through rewards. This work presents the comparison between the Q-learning and Sarsa algorithms, two reinforcement learning algorithms, implemented in three different scenarios. Thus, the work seeks to define the implementation that solves the educational game Xô Mosquito in the shortest time. The scenarios use different parameterizations for the initial values of the algorithms, based on their proximity to the game's objectives. The first uses values equal to zero, the second has values based on block set and proximity logic, and finally the third applies values based on the proximity of individual blocks. The implementations were applied to the educational game Xô Mosquito, a game with few movement limitations and with three objectives. This game was developed in the Lesic extension project (Software engineering and computational intelligence laboratory). The comparison is made in a simplified environment of the base game and the main data analyzed is the total execution time of the implementations. With the results it is possible to see that within the proposed scenario the Sarsa algorithm with its third scenario solves the game in the shortest time. One can also understand the impact that different initial values have on the application of reinforcement learning algorithms.
URI: http://repositorio.utfpr.edu.br/jspui/handle/1/37254
Aparece nas coleções:PG - Ciência da Computação

Arquivos associados a este item:
Arquivo Descrição TamanhoFormato 
comparacaoqlearningsarsajogo.pdf4,43 MBAdobe PDFThumbnail
Visualizar/Abrir


Este item está licenciada sob uma Licença Creative Commons Creative Commons