Use este identificador para citar ou linkar para este item: http://repositorio.utfpr.edu.br/jspui/handle/1/33178
Registro completo de metadados
Campo DCValorIdioma
dc.creatorWamser, Lucas Holtz-
dc.date.accessioned2024-01-15T17:43:49Z-
dc.date.available2024-01-15T17:43:49Z-
dc.date.issued2023-11-28-
dc.identifier.citationWAMSER, Lucas Holtz. Explorando abordagens para legendagem automática de imagens para a identificação do sujeito principal em fotografias de eventos de formaturas. 2023. Dissertação (Mestrado em Computação aplicada) - Universidade Tecnológica Federal do Paraná, Curitiba, 2023.pt_BR
dc.identifier.urihttp://repositorio.utfpr.edu.br/jspui/handle/1/33178-
dc.description.abstractThe selection of photographs from a graduation event is an essential task for companies that organize such events, as the sale of personalized albums is a significant part of their revenue. With that in mind, this work focuses on the application of pre-trained neural networks to assist in organizing graduation albums, exploring techniques for automatic image captioning and main subject identification. The study begins with a comparative analysis of three deep learning- based approaches to automatic image captioning in the context of graduations. The One For All (OFA) model, based on transformers, stands out as a promising choice. OFA is pre-trained on a wide variety of data and has been specialized for the specific task of captioning graduation images. Additionally, the work investigates the use of the implicit knowledge in automatic captioning models to identify the main subject in an image. This is essential for the effective organization of graduation albums, where it is crucial to highlight the main protagonists. The improvements, with average Intersection over Union measures of 0.47, compared to 0.17 without specialization. We also explore the use of the captions generated by the model to generate a word cloud, which can be useful for filtering photographs. The contributions of this work are directly relevant to the organization of graduation albums, including the generation of captions and bounding boxes for the main subject in photographs, as well as the creation of word clouds for efficient album organization. In summary, this study highlights the effectiveness of pre-trained neural networks in automatic image captioning and subject identification, providing significant benefits in automating the organization of graduation albums, a valuable task for companies and graduates.pt_BR
dc.languageporpt_BR
dc.publisherUniversidade Tecnológica Federal do Paranápt_BR
dc.rightsopenAccesspt_BR
dc.rights.urihttp://creativecommons.org/licenses/by/4.0/pt_BR
dc.subjectImagens fotográficas - Análisept_BR
dc.subjectAprendizado profundo (Aprendizado do computador)pt_BR
dc.subjectProcessamento de linguagem natural (Computação)pt_BR
dc.subjectVisão por computadorpt_BR
dc.subjectProcessamento de imagenspt_BR
dc.subjectSistemas de reconhecimento de padrõespt_BR
dc.subjectLegendas (filmes, televisão, etc.)pt_BR
dc.subjectImages, Photografic - Analysispt_BR
dc.subjectDeep learning (Machine learning)pt_BR
dc.subjectNatural language processing (Computer science)pt_BR
dc.subjectComputer visionpt_BR
dc.subjectImage processingpt_BR
dc.subjectPattern recognition systemspt_BR
dc.subjectSubtitles (Motion pictures, television, etc.)pt_BR
dc.titleExplorando abordagens para legendagem automática de imagens para a identificação do sujeito principal em fotografias de eventos de formaturaspt_BR
dc.title.alternativeExploring automatic image captioning approaches for main subject identification in graduation event photospt_BR
dc.typemasterThesispt_BR
dc.description.resumoA seleção de fotografias de um evento de formatura é uma tarefa essencial para empresas que organizam tais eventos, pois a venda de álbuns personalizados é parte importante da sua arrecadação. Tendo isso em mente, o presente trabalho se concentra na aplicação de redes neurais pré-treinadas para auxiliar a organização de álbuns de formatura, explorando a legendagem automática de imagens e a identificação do sujeito principal. O estudo começa com uma análise comparativa de três abordagens baseadas em deep learning para a legendagem automática de imagens no contexto de formaturas. O modelo One For All (OFA), baseado em transformers, destaca-se como uma escolha promissora. O OFA é pré-treinado em uma ampla variedade de dados, e foi especializado para a tarefa específica de legendagem de imagens de formatura. Além disso, o trabalho investiga a utilização do conhecimento implícito nos modelos de legendagem automática para identificar o sujeito principal em uma imagem. Isso é essencial para a organização eficaz de álbuns de formatura, onde é crucial destacar os principais protagonistas. O modelo OFA foi especializado para gerar caixas delimitadoras para esta tarefa, o que resultou em melhorias notáveis, com medidas de Intersection over Union médias de 0,47, em comparação com 0,17 sem especialização. Também exploramos a utilização das legendas geradas pelo modelo para a geração de uma nuvem de palavras, a qual pode ser útil para a filtragem das fotografias. As contribuições deste trabalho são diretamente relevantes para a organização de álbuns de formatura, incluindo a geração de legendas e caixas delimitadoras para o sujeito principal em fotografias, bem como a criação de nuvens de palavras para a organização eficiente dos álbuns. Em síntese, este estudo destaca a eficácia das redes neurais pré-treinadas na legendagem automática de imagens e na identificação do sujeito principal, proporcionando benefícios significativos na automatização da separação de álbuns de formatura, uma tarefa valiosa para as empresas e formandos.pt_BR
dc.degree.localCuritibapt_BR
dc.publisher.localCuritibapt_BR
dc.creator.IDhttps://orcid.org/0009-0009-8658-5671pt_BR
dc.creator.Latteshttp://lattes.cnpq.br/3742115597914897pt_BR
dc.contributor.advisor1Nassu, Bogdan Tomoyuki-
dc.contributor.advisor1IDhttps://orcid.org/0000-0001-6441-8543pt_BR
dc.contributor.advisor1Latteshttp://lattes.cnpq.br/4592104393315780pt_BR
dc.contributor.referee1Nassu, Bogdan Tomoyuki-
dc.contributor.referee1IDhttps://orcid.org/0000-0001-6441-8543pt_BR
dc.contributor.referee1Latteshttp://lattes.cnpq.br/4592104393315780pt_BR
dc.contributor.referee2Navarro, Pedro Luis Kantek Garcia-
dc.contributor.referee2Latteshttp://lattes.cnpq.br/7330616928412664pt_BR
dc.contributor.referee3Silva, Ricardo Dutra da-
dc.contributor.referee3IDhttps://orcid.org/0000-0002-8002-8411pt_BR
dc.contributor.referee3Latteshttp://lattes.cnpq.br/8512085741397097pt_BR
dc.publisher.countryBrasilpt_BR
dc.publisher.programPrograma de Pós-Graduação em Computação Aplicadapt_BR
dc.publisher.initialsUTFPRpt_BR
dc.subject.cnpqCNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAOpt_BR
dc.subject.capesCiência da Computaçãopt_BR
Aparece nas coleções:CT - Programa de Pós-Graduação em Computação Aplicada

Arquivos associados a este item:
Arquivo Descrição TamanhoFormato 
legendagemautomaticasujeitoprincipal.pdf9,79 MBAdobe PDFThumbnail
Visualizar/Abrir


Este item está licenciada sob uma Licença Creative Commons Creative Commons