Reconhecimento de vídeos de ações humanas em um mundo aberto: contribuições teóricas e metodológicas

Gutoski, Matheus

Use este identificador para citar ou linkar para este item: http://repositorio.utfpr.edu.br/jspui/handle/1/29245

Registro completo de metadados

Campo DC	Valor	Idioma
dc.creator	Gutoski, Matheus	-
dc.date.accessioned	2022-08-12T21:48:48Z	-
dc.date.available	2022-08-12T21:48:48Z	-
dc.date.issued	2022-06-10	-
dc.identifier.citation	GUTOSKI, Matheus. Reconhecimento de vídeos de ações humanas em um mundo aberto: contribuições teóricas e metodológicas. 2022. Tese (Doutorado em Engenharia Elétrica e Informática Industrial) - Universidade Tecnológica Federal do Paraná, Curitiba, 2022.	pt_BR
dc.identifier.uri	http://repositorio.utfpr.edu.br/jspui/handle/1/29245	-
dc.description.abstract	Human Action Recognition (HAR) is a widely studied subject in the current Computer Vision, Machine Learning, and Deep Learning research community. However, HAR is usually performed in a closed-world scenario, where all classes are known in advance. In real-world scenarios, the environment tends to change, and new classes may appear. Traditional closed-world models are ill-equipped to deal with evolving environments and require retraining with large amounts of labeled data to recognize new categories. This work approaches HAR from the Unsupervised Open-World setting. In Unsupervised Open-World Recognition, the model needs to differentiate between known and unknown classes, automatically label the unknown classes, and incrementally learn them using minimal computational time and resources. Initially, this work tackles each of these tasks separately and, finally, as a combined framework that performs Unsupervised Open-World HAR. A metric learning solution is proposed for feature learning, with a model named Triplet Inflated 3D Convolutional Neural Network (TI3D). A method that automatically estimates the number of clusters was presented using a Hierarchical Agglomerative Clustering algorithm for automatically labeling unknown classes. For Incremental Learning (IL), this work proposed the Dual-Memory Extreme Value Machine (DM-EVM). The DM-EVM can perform IL under dynamical feature representations. The proposed framework was evaluated on publicly available video datasets and presented superior performance to other state-of-the-art methods.Overall, this work offers an interesting solution to the problem posed and contributed to the goal of developing models capable of operating in real-world dynamical environments.	pt_BR
dc.language	por	pt_BR
dc.publisher	Universidade Tecnológica Federal do Paraná	pt_BR
dc.rights	openAccess	pt_BR
dc.rights.uri	http://creativecommons.org/licenses/by/4.0/	pt_BR
dc.subject	Visão por computador	pt_BR
dc.subject	Sistemas de reconhecimento de padrões	pt_BR
dc.subject	Aprendizado do computador	pt_BR
dc.subject	Vídeo digital - Classificação	pt_BR
dc.subject	Redes neurais (Computação)	pt_BR
dc.subject	Computer vision	pt_BR
dc.subject	Pattern recognition systems	pt_BR
dc.subject	Machine learning	pt_BR
dc.subject	Digital video - Classification	pt_BR
dc.subject	Neural networks (Computer science)	pt_BR
dc.title	Reconhecimento de vídeos de ações humanas em um mundo aberto: contribuições teóricas e metodológicas	pt_BR
dc.title.alternative	Open-world human action recognition in videos: theoretical and methodological contributions	pt_BR
dc.type	doctoralThesis	pt_BR
dc.description.resumo	O Reconhecimento de Ação Humana (RAH) é um assunto amplamente estudado nas áreas de Visão Computacional, Aprendizado de Máquina e Aprendizado Profundo. No entanto, o RAH geralmente é realizado em um cenário fechado, onde todas as classes são conhecidas antecipadamente. Em cenários do mundo real, o ambiente tende a mudar e novas classes podem aparecer. Os modelos tradicionais de conjunto fechado são mal equipados para lidar com ambientes em evolução e exigem retreinamento com grandes quantidades de dados rotulados para reconhecer novas categorias. Este trabalho aborda o RAH a partir do cenário de Mundo Aberto Não Supervisionado. Neste caso, o modelo precisa diferenciar entre classes conhecidas e desconhecidas, rotular automaticamente as desconhecidas e aprendê-las de forma incremental usando o mínimo de tempo e recursos computacionais. Inicialmente, este trabalho aborda cada uma dessas tarefas separadamente e, por fim, como um framework combinado que realiza o RAH de forma não supervisionada em mundo aberto. Uma solução de aprendizado de métrica foi proposta para realizar o aprendizado de características, com um modelo denominado Rede Neural Convolucional 3D Inflada Tripla (TI3D). Além disso, um método que estima automaticamente o número de grupos em dados desconhecidos foi desenvolvido usando um algoritmo de agrupamento aglomerativo hierárquico. Para o Aprendizado Incremental (AI), este trabalho propôs o Dual-Memory Extreme Value Machine (DM-EVM). O DM-EVM pode executar AI usando representações dinâmicas de características. O modelo proposto foi avaliado em conjuntos de dados de vídeo disponíveis publicamente e apresentou desempenho superior a outros métodos do estado da arte. No geral, este trabalho oferece uma solução interessante para o problema descrito e contribuiu para o objetivo de desenvolver modelos capazes de operar em ambientes dinâmicos do mundo real.	pt_BR
dc.degree.local	Curitiba	pt_BR
dc.publisher.local	Curitiba	pt_BR
dc.creator.ID	https://orcid.org/0000-0001-7679-0588	pt_BR
dc.creator.Lattes	http://lattes.cnpq.br/6797767100962188	pt_BR
dc.contributor.advisor1	Lazzaretti, André Eugênio	-
dc.contributor.advisor1ID	https://orcid.org/0000-0003-1861-3369	pt_BR
dc.contributor.advisor1Lattes	http://lattes.cnpq.br/7649611874688878	pt_BR
dc.contributor.advisor-co1	Lopes, Heitor Silvério	-
dc.contributor.advisor-co1ID	https://orcid.org/0000-0003-3984-1432	pt_BR
dc.contributor.advisor-co1Lattes	http://lattes.cnpq.br/4045818083957064	pt_BR
dc.contributor.referee1	Gomes, David Menotti	-
dc.contributor.referee1ID	https://orcid.org/0000-0003-2430-2030	pt_BR
dc.contributor.referee1Lattes	http://lattes.cnpq.br/6692968437800167	pt_BR
dc.contributor.referee2	Lopes, Heitor Silvério	-
dc.contributor.referee2ID	https://orcid.org/0000-0003-3984-1432	pt_BR
dc.contributor.referee2Lattes	http://lattes.cnpq.br/4045818083957064	pt_BR
dc.contributor.referee3	Ribeiro, Manassés	-
dc.contributor.referee3ID	https://orcid.org/0000-0002-7526-5092	pt_BR
dc.contributor.referee3Lattes	http://lattes.cnpq.br/6475893755893056	pt_BR
dc.contributor.referee4	Minetto, Rodrigo	-
dc.contributor.referee4ID	https://orcid.org/0000-0003-2277-4632	pt_BR
dc.contributor.referee4Lattes	http://lattes.cnpq.br/8366112479020867	pt_BR
dc.contributor.referee5	Schwartz, William Robson	-
dc.contributor.referee5ID	https://orcid.org/0000-0003-1449-8834	pt_BR
dc.contributor.referee5Lattes	http://lattes.cnpq.br/0704592200063682	pt_BR
dc.publisher.country	Brasil	pt_BR
dc.publisher.program	Programa de Pós-Graduação em Engenharia Elétrica e Informática Industrial	pt_BR
dc.publisher.initials	UTFPR	pt_BR
dc.subject.cnpq	CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO	pt_BR
dc.subject.capes	Engenharia Elétrica	pt_BR
Aparece nas coleções:	CT - Programa de Pós-Graduação em Engenharia Elétrica e Informática Industrial

Arquivos associados a este item:

Arquivo	Descrição	Tamanho	Formato
reconhecimentovideosmundoaberto.pdf		10,92 MB	Adobe PDF	Visualizar/Abrir

Mostrar registro simples do item Recomendar este item Visualizar estatísticas

Este item está licenciada sob uma Licença Creative Commons