Use este identificador para citar ou linkar para este item: http://repositorio.utfpr.edu.br/jspui/handle/1/32638
Registro completo de metadados
Campo DCValorIdioma
dc.creatorInácio, Andrei de Souza-
dc.date.accessioned2023-10-06T17:54:03Z-
dc.date.available2023-10-06T17:54:03Z-
dc.date.issued2023-08-28-
dc.identifier.citationINÁCIO, Andrei de Souza. Contributions to the video captioning in an open-world scenario using deep learning techniques. 2023. Tese (Doutorado em Engenharia Elétrica e Informática Industrial) - Universidade Tecnológica Federal do Paraná, Curitiba, 2023.pt_BR
dc.identifier.urihttp://repositorio.utfpr.edu.br/jspui/handle/1/32638-
dc.description.abstractVideo captioning poses a significant challenge within the Computer Vision and Artificial Intelligence domains. It involves the challenging task of translating the visual content of videos into natural language descriptions. Despite significant advancements achieved through deep learning techniques, existing approaches usually perform such a task in a closed-world scenario, assuming all actions, concepts presented in a scene, and vocabulary are known in advance. However, new actions and objects may emerge unexpectedly in real-world applications, and new vocabulary may be necessary to describe those concepts. Therefore, an ideal video captioning approach for an open-world environment should be able to describe known events, detect unknown ones, and adapt incrementally to learn how to describe new events without forgetting what it has already learned. This thesis presents contributions to the video captioning problem in an open-world scenario. The first method, called OSVidCap, was proposed to describe concurrent known events performed by humans in videos and can deal with unknown ones. The second proposed method is an incremental learning approach for video captioning, designed to adapt an existing model to learn new events incrementally. Two novel datasets and a protocol for evaluating video captioning approaches in an open-world scenario are presented. Experimental results conducted on these datasets demonstrate the effectiveness of the proposed methods.pt_BR
dc.languageporpt_BR
dc.publisherUniversidade Tecnológica Federal do Paranápt_BR
dc.rightsopenAccesspt_BR
dc.rights.urihttp://creativecommons.org/licenses/by/4.0/pt_BR
dc.subjectDescrição de Vídeospt_BR
dc.subjectAprendizado profundo (aprendizado do computador)pt_BR
dc.subjectVisão por computadorpt_BR
dc.subjectProcessamento de linguagem natural (Computação)pt_BR
dc.subjectRedes neurais (Computação)pt_BR
dc.subjectPercepção de padrõespt_BR
dc.subjectSistemas de reconhecimento de padrõespt_BR
dc.subjectBig datapt_BR
dc.subjectVideo descriptionpt_BR
dc.subjectDeep learning (Machine learning)pt_BR
dc.subjectComputer visionpt_BR
dc.subjectNatural language processing (Computer science)pt_BR
dc.subjectNeural networks (Computer science)pt_BR
dc.subjectPattern perceptionpt_BR
dc.subjectPattern recognition systemspt_BR
dc.titleContributions to the video captioning in an open-world scenario using deep learning techniquespt_BR
dc.title.alternativeContribuições para a descrição de vídeos em um cenário de mundo aberto utilizando técnicas de aprendizado profundopt_BR
dc.typedoctoralThesispt_BR
dc.description.resumoA tarefa de descrição de vídeos representa um desafio significativo para as áreas de Visão Computacional e Inteligência Artificial, pois envolve a tradução do conteúdo visual de vídeos em linguagem natural. Apesar dos avanços significativos alcançados por meio de técnicas de aprendizado profundo, as abordagens existentes geralmente executam essa tarefa em um contexto de mundo fechado, presumindo que todas as ações e conceitos possíveis em uma cena, bem como o vocabulário, sejam conhecidos antecipadamente. No entanto, em aplicações do mundo real, novas ações e objetos podem surgir inesperadamente, exigindo novos vocabulários para descrever esses conceitos. Portanto, uma abordagem desejável para a descrição de vídeos em um ambiente de mundo aberto é aquela que pode descrever eventos conhecidos, detectar eventos desconhecidos e se adaptar incrementalmente para aprender a descrever esse conjunto de eventos desconhecidos, sem esquecer os eventos já aprendidos. Esta tese apresenta contribuições para o problema da descrição de vídeos em um cenário de mundo aberto. O primeiro método proposto é um sistema denominado OSVidCap, que visa descrever eventos conhecidos realizados por humanos em vídeos. O segundo método é uma abordagem de aprendizado incremental para a descrição de vídeos, permitindo a adaptação do modelo existente para aprender novas classes incrementalmente. Dois novos conjuntos de dados e um protocolo de avaliação foram criados para avaliar as abordagens de descrição de vídeo em um contexto de mundo aberto. Os resultados experimentais obtidos com estes conjuntos de dados demonstraram a eficácia dos métodos propostos.pt_BR
dc.degree.localCuritibapt_BR
dc.publisher.localCuritibapt_BR
dc.creator.IDhttps://orcid.org/0000-0002-3559-5935pt_BR
dc.creator.Latteshttp://lattes.cnpq.br/1403044049218262pt_BR
dc.contributor.advisor1Lopes, Heitor Silvério-
dc.contributor.advisor1IDhttps://orcid.org/0000-0003-3984-1432pt_BR
dc.contributor.advisor1Latteshttp://lattes.cnpq.br/4045818083957064pt_BR
dc.contributor.referee1Lazzaretti, André Eugênio-
dc.contributor.referee1IDhttps://orcid.org/0000-0003-1861-3369pt_BR
dc.contributor.referee1Latteshttp://lattes.cnpq.br/7649611874688878pt_BR
dc.contributor.referee2Lopes, Heitor Silvério-
dc.contributor.referee2IDhttps://orcid.org/0000-0003-3984-1432pt_BR
dc.contributor.referee2Latteshttp://lattes.cnpq.br/4045818083957064pt_BR
dc.contributor.referee3Pedrini, Hélio-
dc.contributor.referee3IDhttps://orcid.org/0000-0003-0125-630Xpt_BR
dc.contributor.referee3Latteshttp://lattes.cnpq.br/9600140904712115pt_BR
dc.contributor.referee4Ribeiro, Manassés-
dc.contributor.referee4IDhttps://orcid.org/0000-0002-7526-5092pt_BR
dc.contributor.referee4Latteshttp://lattes.cnpq.br/6475893755893056pt_BR
dc.contributor.referee5Bugatti, Pedro Henrique-
dc.contributor.referee5IDhttps://orcid.org/0000-0001-9421-9254pt_BR
dc.contributor.referee5Latteshttp://lattes.cnpq.br/2177467029991118pt_BR
dc.publisher.countryBrasilpt_BR
dc.publisher.programPrograma de Pós-Graduação em Engenharia Elétrica e Informática Industrialpt_BR
dc.publisher.initialsUTFPRpt_BR
dc.subject.cnpqCNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAOpt_BR
dc.subject.capesEngenharia Elétricapt_BR
Aparece nas coleções:CT - Programa de Pós-Graduação em Engenharia Elétrica e Informática Industrial

Arquivos associados a este item:
Arquivo Descrição TamanhoFormato 
contributionsvideocaptioningopenworld.pdf7,08 MBAdobe PDFThumbnail
Visualizar/Abrir


Este item está licenciada sob uma Licença Creative Commons Creative Commons