Use este identificador para citar ou linkar para este item: http://repositorio.utfpr.edu.br/jspui/handle/1/25496
Registro completo de metadados
Campo DCValorIdioma
dc.creatorBerno, Brenda Cinthya Solari-
dc.date.accessioned2021-07-06T00:35:41Z-
dc.date.available2021-07-06T00:35:41Z-
dc.date.issued2021-05-21-
dc.identifier.citationBERNO, Brenda Cinthya Solari. Sketch-Based multimodal image retrieval using deep learning. 2021. Dissertação (Mestrado em Engenharia Elétrica e Informática Industrial) - Universidade Tecnológica Federal do Paraná, Curitiba, 2021.pt_BR
dc.identifier.urihttp://repositorio.utfpr.edu.br/jspui/handle/1/25496-
dc.description.abstractThe constant growth of multimedia data generated every day makes it increasingly difficult to retrieve it. Google is known to do a good job of retrieving documents by searching for keyword matches. However, multimedia data hardly contain keywords that identify them. The main objective of this work is to retrieve a photographic image using another modality different from that of the photograph, such as a sketch. A sketch is different from the image since it is a set of hand-drawn lines and colors and texture is lost, when compared with a photograph that is a more complex visual representation representing the real world. The selected study case for this method is tattoo photograph retrieval using sketches. Due to the lack of appropriate data for this study, a new dataset of sketches and tattoo images was created. The proposed model consists of a Siamese neural network that receives as input visual features previously extracted from each modality to learn an optimal representation for photographs and sketches within an embedded space, where the image of a class is close to the sketch of the same class. Two cost functions were tested, and experiments showed that the contrastive loss function achieved better results than the triplet loss function in the retrieval of images. Despite having limited data, in the image retrieval experiments the average precision achieved 85% precision for our dataset at top-5 results and 85% precision for Sketchy at top-10 results. We observed that retrieval results depend on the quality and diversity of the data used for training, especially in sketch-based image retrieval, which, in turn, depends on the user’s ability to draw. Overall, the proposed methods are promising and results encourage further research. Future works include the extension of the dataset (both tattoo images and sketches) and, also, experiments with other modalities.pt_BR
dc.languageengpt_BR
dc.publisherUniversidade Tecnológica Federal do Paranápt_BR
dc.rightsopenAccesspt_BR
dc.rights.urihttp://creativecommons.org/licenses/by/4.0/pt_BR
dc.subjectSistemas multimídiapt_BR
dc.subjectRecuperação de dados (Computação)pt_BR
dc.subjectSistemas de recuperação da informaçãopt_BR
dc.subjectRedes neurais (Computação)pt_BR
dc.subjectVisão Computacionalpt_BR
dc.subjectAprendizado do computadorpt_BR
dc.subjectTatuagem - Imagempt_BR
dc.subjectMultimedia systemspt_BR
dc.subjectData recovery (Computer science)pt_BR
dc.subjectInformation storage and retrieval systemspt_BR
dc.subjectNeural networks (Computer science)pt_BR
dc.subjectComputer visionpt_BR
dc.subjectMachine learningpt_BR
dc.subjectTattooing - Imagingpt_BR
dc.titleSketch-Based multimodal image retrieval using deep learningpt_BR
dc.title.alternativeRecuperação de imagem multimodal baseada em esboço usando deep learningpt_BR
dc.typemasterThesispt_BR
dc.description.resumoO crescimento constante dos dados multimídia gerados todos os dias torna cada vez mais difícil recuperá-los. O Google é conhecido por fazer um bom trabalho de recuperação de documentos pesquisando correspondências de palavras-chave. No entanto, os dados multimídia dificilmente contêm palavras-chave que os identificam. O objetivo principal deste trabalho é recuperar uma imagem fotográfica usando outra modalidade diferente da foto, tal como um esboço. Um esboço é diferente de uma foto pois é um conjunto de linhas desenhadas a mão, e cores e textura são perdidos, quando comparado com uma foto que é uma representação visual mais complexa representando o mundo real. O estudo de caso para o método proposto é a recuperação de fotos de tatuagens com base em esboços. Devido à falta de dados adequados para este estudo, foi criado um novo conjunto de dados de esboços e imagens de tatuagens. O modelo proposto consiste de uma rede neural siamesa que recebe como entrada características visuais, previamente extraídas de cada modalidade, para aprender uma representação ótima para fotos e esboços dentro de um espaço incorporado, onde a imagem de uma classe está próxima ao esboço da mesma classe. Duas funções de custo foram testadas, e os experimentos mostraram que, para a recuperação de imagens, a função de perda de contraste obteve melhores resultados do que a função de perda tripla. Embora a quantidade de dados fosse limitada, nos experimentos de recuperação de imagens foi alcançada a precisão de 85% para nosso conjunto de dados no top-5 e 85% para Sketchy no top-10. Foi observado que os resultados da recuperação dependem muito da qualidade e diversidade dos dados usados para treinamento da rede, especialmente a respeito da recuperação baseada em esboços, a qual, por sua vez, depende da habilidade de desenhar do usuário. De maneira geral, os métodos propostos são promissores para o problema, e os resultados encorajam a continuidade da pesquisa. Trabalhos futuros incluirão a extensão do conjunto de dados proposto (imagens de tatuagens e esboços) e, também, experimentos com outras modalidades.pt_BR
dc.degree.localCuritibapt_BR
dc.publisher.localCuritibapt_BR
dc.creator.IDhttps://orcid.org/0000-0002-1299-0318pt_BR
dc.creator.Latteshttp://lattes.cnpq.br/2684453365553856pt_BR
dc.contributor.advisor1Lopes, Heitor Silverio-
dc.contributor.advisor1IDhttps://orcid.org/0000-0003-3984-1432pt_BR
dc.contributor.advisor1Latteshttp://lattes.cnpq.br/4045818083957064pt_BR
dc.contributor.referee1Gabardo, Ademir Cristiano-
dc.contributor.referee1Latteshttp://lattes.cnpq.br/9872210667199371pt_BR
dc.contributor.referee2Lopes, Heitor Silverio-
dc.contributor.referee2IDhttps://orcid.org/0000-0003-3984-1432pt_BR
dc.contributor.referee2Latteshttp://lattes.cnpq.br/4045818083957064pt_BR
dc.contributor.referee3Dorini, Leyza Elmeri Baldo-
dc.contributor.referee3IDhttps://orcid.org/0000-0002-0483-3435pt_BR
dc.contributor.referee3Latteshttp://lattes.cnpq.br/5726947194230379pt_BR
dc.contributor.referee4Ribeiro, Manasses-
dc.contributor.referee4IDhttps://orcid.org/0000-0002-7526-5092pt_BR
dc.contributor.referee4Latteshttp://lattes.cnpq.br/6475893755893056pt_BR
dc.publisher.countryBrasilpt_BR
dc.publisher.programPrograma de Pós-Graduação em Engenharia Elétrica e Informática Industrialpt_BR
dc.publisher.initialsUTFPRpt_BR
dc.subject.cnpqCNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAOpt_BR
dc.subject.capesEngenharia Elétricapt_BR
Aparece nas coleções:CT - Programa de Pós-Graduação em Engenharia Elétrica e Informática Industrial

Arquivos associados a este item:
Arquivo Descrição TamanhoFormato 
sketchbasedmultimodalimage.pdf11,99 MBAdobe PDFThumbnail
Visualizar/Abrir


Este item está licenciada sob uma Licença Creative Commons Creative Commons