Contributions to the video captioning in an open-world scenario using deep learning techniques

Inácio, Andrei de Souza

Use este identificador para citar ou linkar para este item: http://repositorio.utfpr.edu.br/jspui/handle/1/32638

Registro completo de metadados

Campo DC	Valor	Idioma
dc.creator	Inácio, Andrei de Souza	-
dc.date.accessioned	2023-10-06T17:54:03Z	-
dc.date.available	2023-10-06T17:54:03Z	-
dc.date.issued	2023-08-28	-
dc.identifier.citation	INÁCIO, Andrei de Souza. Contributions to the video captioning in an open-world scenario using deep learning techniques. 2023. Tese (Doutorado em Engenharia Elétrica e Informática Industrial) - Universidade Tecnológica Federal do Paraná, Curitiba, 2023.	pt_BR
dc.identifier.uri	http://repositorio.utfpr.edu.br/jspui/handle/1/32638	-
dc.description.abstract	Video captioning poses a significant challenge within the Computer Vision and Artificial Intelligence domains. It involves the challenging task of translating the visual content of videos into natural language descriptions. Despite significant advancements achieved through deep learning techniques, existing approaches usually perform such a task in a closed-world scenario, assuming all actions, concepts presented in a scene, and vocabulary are known in advance. However, new actions and objects may emerge unexpectedly in real-world applications, and new vocabulary may be necessary to describe those concepts. Therefore, an ideal video captioning approach for an open-world environment should be able to describe known events, detect unknown ones, and adapt incrementally to learn how to describe new events without forgetting what it has already learned. This thesis presents contributions to the video captioning problem in an open-world scenario. The first method, called OSVidCap, was proposed to describe concurrent known events performed by humans in videos and can deal with unknown ones. The second proposed method is an incremental learning approach for video captioning, designed to adapt an existing model to learn new events incrementally. Two novel datasets and a protocol for evaluating video captioning approaches in an open-world scenario are presented. Experimental results conducted on these datasets demonstrate the effectiveness of the proposed methods.	pt_BR
dc.language	por	pt_BR
dc.publisher	Universidade Tecnológica Federal do Paraná	pt_BR
dc.rights	openAccess	pt_BR
dc.rights.uri	http://creativecommons.org/licenses/by/4.0/	pt_BR
dc.subject	Descrição de Vídeos	pt_BR
dc.subject	Aprendizado profundo (aprendizado do computador)	pt_BR
dc.subject	Visão por computador	pt_BR
dc.subject	Processamento de linguagem natural (Computação)	pt_BR
dc.subject	Redes neurais (Computação)	pt_BR
dc.subject	Percepção de padrões	pt_BR
dc.subject	Sistemas de reconhecimento de padrões	pt_BR
dc.subject	Big data	pt_BR
dc.subject	Video description	pt_BR
dc.subject	Deep learning (Machine learning)	pt_BR
dc.subject	Computer vision	pt_BR
dc.subject	Natural language processing (Computer science)	pt_BR
dc.subject	Neural networks (Computer science)	pt_BR
dc.subject	Pattern perception	pt_BR
dc.subject	Pattern recognition systems	pt_BR
dc.title	Contributions to the video captioning in an open-world scenario using deep learning techniques	pt_BR
dc.title.alternative	Contribuições para a descrição de vídeos em um cenário de mundo aberto utilizando técnicas de aprendizado profundo	pt_BR
dc.type	doctoralThesis	pt_BR
dc.description.resumo	A tarefa de descrição de vídeos representa um desafio significativo para as áreas de Visão Computacional e Inteligência Artificial, pois envolve a tradução do conteúdo visual de vídeos em linguagem natural. Apesar dos avanços significativos alcançados por meio de técnicas de aprendizado profundo, as abordagens existentes geralmente executam essa tarefa em um contexto de mundo fechado, presumindo que todas as ações e conceitos possíveis em uma cena, bem como o vocabulário, sejam conhecidos antecipadamente. No entanto, em aplicações do mundo real, novas ações e objetos podem surgir inesperadamente, exigindo novos vocabulários para descrever esses conceitos. Portanto, uma abordagem desejável para a descrição de vídeos em um ambiente de mundo aberto é aquela que pode descrever eventos conhecidos, detectar eventos desconhecidos e se adaptar incrementalmente para aprender a descrever esse conjunto de eventos desconhecidos, sem esquecer os eventos já aprendidos. Esta tese apresenta contribuições para o problema da descrição de vídeos em um cenário de mundo aberto. O primeiro método proposto é um sistema denominado OSVidCap, que visa descrever eventos conhecidos realizados por humanos em vídeos. O segundo método é uma abordagem de aprendizado incremental para a descrição de vídeos, permitindo a adaptação do modelo existente para aprender novas classes incrementalmente. Dois novos conjuntos de dados e um protocolo de avaliação foram criados para avaliar as abordagens de descrição de vídeo em um contexto de mundo aberto. Os resultados experimentais obtidos com estes conjuntos de dados demonstraram a eficácia dos métodos propostos.	pt_BR
dc.degree.local	Curitiba	pt_BR
dc.publisher.local	Curitiba	pt_BR
dc.creator.ID	https://orcid.org/0000-0002-3559-5935	pt_BR
dc.creator.Lattes	http://lattes.cnpq.br/1403044049218262	pt_BR
dc.contributor.advisor1	Lopes, Heitor Silvério	-
dc.contributor.advisor1ID	https://orcid.org/0000-0003-3984-1432	pt_BR
dc.contributor.advisor1Lattes	http://lattes.cnpq.br/4045818083957064	pt_BR
dc.contributor.referee1	Lazzaretti, André Eugênio	-
dc.contributor.referee1ID	https://orcid.org/0000-0003-1861-3369	pt_BR
dc.contributor.referee1Lattes	http://lattes.cnpq.br/7649611874688878	pt_BR
dc.contributor.referee2	Lopes, Heitor Silvério	-
dc.contributor.referee2ID	https://orcid.org/0000-0003-3984-1432	pt_BR
dc.contributor.referee2Lattes	http://lattes.cnpq.br/4045818083957064	pt_BR
dc.contributor.referee3	Pedrini, Hélio	-
dc.contributor.referee3ID	https://orcid.org/0000-0003-0125-630X	pt_BR
dc.contributor.referee3Lattes	http://lattes.cnpq.br/9600140904712115	pt_BR
dc.contributor.referee4	Ribeiro, Manassés	-
dc.contributor.referee4ID	https://orcid.org/0000-0002-7526-5092	pt_BR
dc.contributor.referee4Lattes	http://lattes.cnpq.br/6475893755893056	pt_BR
dc.contributor.referee5	Bugatti, Pedro Henrique	-
dc.contributor.referee5ID	https://orcid.org/0000-0001-9421-9254	pt_BR
dc.contributor.referee5Lattes	http://lattes.cnpq.br/2177467029991118	pt_BR
dc.publisher.country	Brasil	pt_BR
dc.publisher.program	Programa de Pós-Graduação em Engenharia Elétrica e Informática Industrial	pt_BR
dc.publisher.initials	UTFPR	pt_BR
dc.subject.cnpq	CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO	pt_BR
dc.subject.capes	Engenharia Elétrica	pt_BR
Aparece nas coleções:	CT - Programa de Pós-Graduação em Engenharia Elétrica e Informática Industrial

Arquivos associados a este item:

Arquivo	Descrição	Tamanho	Formato
contributionsvideocaptioningopenworld.pdf		7,08 MB	Adobe PDF	Visualizar/Abrir

Mostrar registro simples do item Recomendar este item Visualizar estatísticas

Este item está licenciada sob uma Licença Creative Commons