Use este identificador para citar ou linkar para este item: http://repositorio.utfpr.edu.br/jspui/handle/1/29245
Registro completo de metadados
Campo DCValorIdioma
dc.creatorGutoski, Matheus-
dc.date.accessioned2022-08-12T21:48:48Z-
dc.date.available2022-08-12T21:48:48Z-
dc.date.issued2022-06-10-
dc.identifier.citationGUTOSKI, Matheus. Reconhecimento de vídeos de ações humanas em um mundo aberto: contribuições teóricas e metodológicas. 2022. Tese (Doutorado em Engenharia Elétrica e Informática Industrial) - Universidade Tecnológica Federal do Paraná, Curitiba, 2022.pt_BR
dc.identifier.urihttp://repositorio.utfpr.edu.br/jspui/handle/1/29245-
dc.description.abstractHuman Action Recognition (HAR) is a widely studied subject in the current Computer Vision, Machine Learning, and Deep Learning research community. However, HAR is usually performed in a closed-world scenario, where all classes are known in advance. In real-world scenarios, the environment tends to change, and new classes may appear. Traditional closed-world models are ill-equipped to deal with evolving environments and require retraining with large amounts of labeled data to recognize new categories. This work approaches HAR from the Unsupervised Open-World setting. In Unsupervised Open-World Recognition, the model needs to differentiate between known and unknown classes, automatically label the unknown classes, and incrementally learn them using minimal computational time and resources. Initially, this work tackles each of these tasks separately and, finally, as a combined framework that performs Unsupervised Open-World HAR. A metric learning solution is proposed for feature learning, with a model named Triplet Inflated 3D Convolutional Neural Network (TI3D). A method that automatically estimates the number of clusters was presented using a Hierarchical Agglomerative Clustering algorithm for automatically labeling unknown classes. For Incremental Learning (IL), this work proposed the Dual-Memory Extreme Value Machine (DM-EVM). The DM-EVM can perform IL under dynamical feature representations. The proposed framework was evaluated on publicly available video datasets and presented superior performance to other state-of-the-art methods.Overall, this work offers an interesting solution to the problem posed and contributed to the goal of developing models capable of operating in real-world dynamical environments.pt_BR
dc.languageporpt_BR
dc.publisherUniversidade Tecnológica Federal do Paranápt_BR
dc.rightsopenAccesspt_BR
dc.rights.urihttp://creativecommons.org/licenses/by/4.0/pt_BR
dc.subjectVisão por computadorpt_BR
dc.subjectSistemas de reconhecimento de padrõespt_BR
dc.subjectAprendizado do computadorpt_BR
dc.subjectVídeo digital - Classificaçãopt_BR
dc.subjectRedes neurais (Computação)pt_BR
dc.subjectComputer visionpt_BR
dc.subjectPattern recognition systemspt_BR
dc.subjectMachine learningpt_BR
dc.subjectDigital video - Classificationpt_BR
dc.subjectNeural networks (Computer science)pt_BR
dc.titleReconhecimento de vídeos de ações humanas em um mundo aberto: contribuições teóricas e metodológicaspt_BR
dc.title.alternativeOpen-world human action recognition in videos: theoretical and methodological contributionspt_BR
dc.typedoctoralThesispt_BR
dc.description.resumoO Reconhecimento de Ação Humana (RAH) é um assunto amplamente estudado nas áreas de Visão Computacional, Aprendizado de Máquina e Aprendizado Profundo. No entanto, o RAH geralmente é realizado em um cenário fechado, onde todas as classes são conhecidas antecipadamente. Em cenários do mundo real, o ambiente tende a mudar e novas classes podem aparecer. Os modelos tradicionais de conjunto fechado são mal equipados para lidar com ambientes em evolução e exigem retreinamento com grandes quantidades de dados rotulados para reconhecer novas categorias. Este trabalho aborda o RAH a partir do cenário de Mundo Aberto Não Supervisionado. Neste caso, o modelo precisa diferenciar entre classes conhecidas e desconhecidas, rotular automaticamente as desconhecidas e aprendê-las de forma incremental usando o mínimo de tempo e recursos computacionais. Inicialmente, este trabalho aborda cada uma dessas tarefas separadamente e, por fim, como um framework combinado que realiza o RAH de forma não supervisionada em mundo aberto. Uma solução de aprendizado de métrica foi proposta para realizar o aprendizado de características, com um modelo denominado Rede Neural Convolucional 3D Inflada Tripla (TI3D). Além disso, um método que estima automaticamente o número de grupos em dados desconhecidos foi desenvolvido usando um algoritmo de agrupamento aglomerativo hierárquico. Para o Aprendizado Incremental (AI), este trabalho propôs o Dual-Memory Extreme Value Machine (DM-EVM). O DM-EVM pode executar AI usando representações dinâmicas de características. O modelo proposto foi avaliado em conjuntos de dados de vídeo disponíveis publicamente e apresentou desempenho superior a outros métodos do estado da arte. No geral, este trabalho oferece uma solução interessante para o problema descrito e contribuiu para o objetivo de desenvolver modelos capazes de operar em ambientes dinâmicos do mundo real.pt_BR
dc.degree.localCuritibapt_BR
dc.publisher.localCuritibapt_BR
dc.creator.IDhttps://orcid.org/0000-0001-7679-0588pt_BR
dc.creator.Latteshttp://lattes.cnpq.br/6797767100962188pt_BR
dc.contributor.advisor1Lazzaretti, André Eugênio-
dc.contributor.advisor1IDhttps://orcid.org/0000-0003-1861-3369pt_BR
dc.contributor.advisor1Latteshttp://lattes.cnpq.br/7649611874688878pt_BR
dc.contributor.advisor-co1Lopes, Heitor Silvério-
dc.contributor.advisor-co1IDhttps://orcid.org/0000-0003-3984-1432pt_BR
dc.contributor.advisor-co1Latteshttp://lattes.cnpq.br/4045818083957064pt_BR
dc.contributor.referee1Gomes, David Menotti-
dc.contributor.referee1IDhttps://orcid.org/0000-0003-2430-2030pt_BR
dc.contributor.referee1Latteshttp://lattes.cnpq.br/6692968437800167pt_BR
dc.contributor.referee2Lopes, Heitor Silvério-
dc.contributor.referee2IDhttps://orcid.org/0000-0003-3984-1432pt_BR
dc.contributor.referee2Latteshttp://lattes.cnpq.br/4045818083957064pt_BR
dc.contributor.referee3Ribeiro, Manassés-
dc.contributor.referee3IDhttps://orcid.org/0000-0002-7526-5092pt_BR
dc.contributor.referee3Latteshttp://lattes.cnpq.br/6475893755893056pt_BR
dc.contributor.referee4Minetto, Rodrigo-
dc.contributor.referee4IDhttps://orcid.org/0000-0003-2277-4632pt_BR
dc.contributor.referee4Latteshttp://lattes.cnpq.br/8366112479020867pt_BR
dc.contributor.referee5Schwartz, William Robson-
dc.contributor.referee5IDhttps://orcid.org/0000-0003-1449-8834pt_BR
dc.contributor.referee5Latteshttp://lattes.cnpq.br/0704592200063682pt_BR
dc.publisher.countryBrasilpt_BR
dc.publisher.programPrograma de Pós-Graduação em Engenharia Elétrica e Informática Industrialpt_BR
dc.publisher.initialsUTFPRpt_BR
dc.subject.cnpqCNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAOpt_BR
dc.subject.capesEngenharia Elétricapt_BR
Aparece nas coleções:CT - Programa de Pós-Graduação em Engenharia Elétrica e Informática Industrial

Arquivos associados a este item:
Arquivo Descrição TamanhoFormato 
reconhecimentovideosmundoaberto.pdf10,92 MBAdobe PDFThumbnail
Visualizar/Abrir


Este item está licenciada sob uma Licença Creative Commons Creative Commons