Use este identificador para citar ou linkar para este item: http://repositorio.utfpr.edu.br/jspui/handle/1/36191
Título: Reconhecimento de objetos em imagens RGB-D visando estimativa da pose em tempo real
Título(s) alternativo(s): Object recognition in RGB-D images aiming at real-time pose estimation
Autor(es): Pissaia, Guilherme Luiz
Orientador(es): Marcon, Marlon
Palavras-chave: Visão por computador
Sistemas de reconhecimento de padrões
Aprendizado do computador
Computer vision
Pattern recognition systems
Machine learning
Data do documento: 9-Set-2024
Editor: Universidade Tecnológica Federal do Paraná
Câmpus: Dois Vizinhos
Citação: PISSAIA, Guilherme Luiz. Reconhecimento de objetos em imagens RGB-D visando estimativa da pose em tempo real. 2024. Trabalho de Conclusão de Curso (Bacharelado em Engenharia de Software) - Universidade Tecnológica Federal do Paraná, Dois Vizinhos, 2024.
Resumo: A Visão Computacional é um campo de estudo da Inteligência Artificial que busca empregar algoritmos de Aprendizado de Máquina para proporcionar a aplicações a capacidade de detectar padrões visuais, classificar e reconstruir objetos em múltiplas dimensões. Nesse contexto, o presente trabalho propõe uma melhoria substancial com base nas conclusões de outro estudo, previamente desenvolvido. Essa melhoria consiste na adição de um estágio no fluxo de execução implementado no trabalho original, cujo foco estará na detecção e classificação de objetos em cenas bidimensionais, buscando, dessa forma, um aprimoramento no resultado e desempenho globais. Para tanto, foi utilizado o YOLO, um modelo de detecção de objetos, nas suas versões YOLOv4, YOLOv4-tiny, YOLOv7 e YOLOv7-tiny. Assim, foi possível aplicar a metodologia proposta e realizar os treinamentos e testes dos modelos utilizando o dataset RGB Scenes. Os resultados comprovaram a eficácia do YOLO com um valor de mAP de 99,84% no melhor cenário. Além disso, a velocidade de processamento atingida em quadros por segundo foi mais de dez vezes maior do que a alcançada originalmente, chegando a 330 FPS. Isso evidenciou que a hipótese inicial estava correta, diante da melhoria significativa no desempenho da tarefa de detecção.
Abstract: Computer Vision is a field of study in Artificial Intelligence that seeks to employ Machine Learning algorithms to provide applications with the ability to detect visual patterns, classify, and reconstruct objects in multiple dimensions. In this context, this work proposes a substantial improvement based on the conclusions of another study, previously developed. This improvement consists of adding a stage to the execution flow implemented in the original work, which will focus on the detection and classification of objects in two-dimensional scenes, thus seeking to improve the overall result and performance. For this purpose, YOLO, an object detection model, was used in its YOLOv4, YOLOv4-tiny, YOLOv7, and YOLOv7-tiny versions. Thus, it was possible to apply the proposed methodology and perform training and testing of the models using the RGB Scenes dataset. The results proved the effectiveness of YOLO with a mAP value of 99.84% in the best scenario. Furthermore, the processing speed achieved in frames per second was more than ten times higher than that originally achieved, reaching 330 FPS. This demonstrated that the initial hypothesis was correct, given the significant improvement in the performance of the detection task.
URI: http://repositorio.utfpr.edu.br/jspui/handle/1/36191
Aparece nas coleções:DV - Engenharia de Software

Arquivos associados a este item:
Arquivo Descrição TamanhoFormato 
reconhecimentoobjetosrgbdposetemporeal.pdf560,46 kBAdobe PDFThumbnail
Visualizar/Abrir


Este item está licenciada sob uma Licença Creative Commons Creative Commons