Use este identificador para citar ou linkar para este item: http://repositorio.utfpr.edu.br/jspui/handle/1/38903
Registro completo de metadados
Campo DCValorIdioma
dc.creatorSilva, Neemias Bucéli da-
dc.date.accessioned2025-11-13T17:11:50Z-
dc.date.available2027-04-24-
dc.date.available2025-11-13T17:11:50Z-
dc.date.issued2025-10-23-
dc.identifier.citationSILVA, Neemias Buceli da. Do multimodal LLMs see sentiment?. 2025. Dissertação (Mestrado em Engenharia Elétrica e Informática Industrial) - Universidade Tecnológica Federal do Paraná, Curitiba, 2025.pt_BR
dc.identifier.urihttp://repositorio.utfpr.edu.br/jspui/handle/1/38903-
dc.description.abstractUnderstanding how visual content communicates sentiment is critical in an era where online interaction is increasingly dominated by this kind of media on social platforms. However, this remains a challenging problem, as sentiment perception is closely tied to complex, scene-level semantics. In this dissertation, we propose an original framework, MLLMsent, to investigate the sentiment reasoning capabilities of Multimodal Large Language Models (MLLMs) through three perspectives: (1) using those MLLMs for direct sentiment classification from images; (2) associating them with pre-trained LLMs for sentiment analysis on automatically generated image descriptions; and (3) fine-tuning the LLMs on sentiment-labeled image descriptions. Experiments on a recent and established benchmark demonstrate that our proposal, particularly the fine-tuned approach, achieves state-of-the-art results outperforming Lexicon-, CNN-, and Transformer-based baselines by up to 30.9%, 64.8%, and 42.4%, respectively, across different levels of evaluators’ agreement and sentiment polarity categories. Remarkably, in a cross-dataset test, without any training on these new data, our model still outperforms, by up to 8.26%, the best runner-up, which has been trained directly on them. These results highlight the potential of the proposed visual reasoning scheme for advancing affective computing, while also establishing new benchmarks for future research.pt_BR
dc.languageengpt_BR
dc.publisherUniversidade Tecnológica Federal do Paranápt_BR
dc.rightsembargoedAccesspt_BR
dc.rights.urihttp://creativecommons.org/licenses/by/4.0/pt_BR
dc.subjectEmoções - Análisept_BR
dc.subjectAprendizado do computadorpt_BR
dc.subjectVisão por computadorpt_BR
dc.subjectProcessamento de imagenspt_BR
dc.subjectInteligência computacionalpt_BR
dc.subjectProcessamento de linguagem natural (Computação)pt_BR
dc.subjectEmotions - Analysispt_BR
dc.subjectMachine learningpt_BR
dc.subjectComputer visionpt_BR
dc.subjectImage processingpt_BR
dc.subjectComputational intelligencept_BR
dc.subjectNatural language processing (Computer science)pt_BR
dc.titleDo multimodal LLMs see sentiment?pt_BR
dc.title.alternativeLLMs multimodais conseguem perceber sentimentos?pt_BR
dc.typemasterThesispt_BR
dc.description.resumoCompreender como o conteúdo visual comunica sentimentos é fundamental em uma era em que a interação online é cada vez mais dominada por esse tipo de mídia nas plataformas sociais. No entanto, isso continua sendo um problema desafiador, pois a percepção de sentimento está intimamente ligada a semânticas complexas em nível de cena. Neste artigo, propomos um framework original, MLLMsent, para investigar as capacidades de raciocínio sobre sentimento de Modelos Multimodais de Linguagem de Grande Escala (MLLMs, de Multimodal Large Language Models) sob três perspectivas: (1) utilizando esses MLLMs para classificação direta de sentimento a partir de imagens; (2) associando-os a LLMs pré-treinados para análise de sentimento em descrições de imagens geradas automaticamente; e (3) realizando ajustes finos nos LLMs em descrições de imagens anotadas com sentimentos. Experimentos em um benchmark recente e consolidado demonstram que nossa proposta, particularmente a abordagem com ajuste fino, alcança resultados estado da arte, superando baselines baseados em Léxicos, CNNs e Transformers em até 30,9%, 64,8% e 42,4%, respectivamente, em diferentes níveis de concordância entre avaliadores e categorias de polaridade de sentimento. Notavelmente, em um experimento cross-dataset, sem qualquer treinamento sobre dados de um outro dataset, nosso modelo ainda supera, em até 8,26%, o melhor concorrente direto, que foi treinado especificamente neles. Esses resultados destacam o potencial do esquema de raciocínio visual proposto para o avanço da computação afetiva, ao mesmo tempo em que estabelece novos referenciais para pesquisas futuras.pt_BR
dc.degree.localCuritibapt_BR
dc.publisher.localCuritibapt_BR
dc.creator.IDhttps://orcid.org/0009-0003-9239-2223pt_BR
dc.creator.Latteshttps://lattes.cnpq.br/3557679239047267pt_BR
dc.contributor.advisor1Minetto, Rodrigo-
dc.contributor.advisor1IDhttps://orcid.org/0000-0003-2277-4632pt_BR
dc.contributor.advisor1Latteshttps://lattes.cnpq.br/8366112479020867pt_BR
dc.contributor.advisor-co1Nassu, Bogdan Tomoyuki-
dc.contributor.advisor-co1IDhttps://orcid.org/0000-0001-6441-8543pt_BR
dc.contributor.advisor-co1Latteshttps://lattes.cnpq.br/4592104393315780pt_BR
dc.contributor.referee1Silva, Ricardo Dutra da-
dc.contributor.referee1IDhttps://orcid.org/0000-0002-8002-8411pt_BR
dc.contributor.referee1Latteshttps://lattes.cnpq.br/8512085741397097pt_BR
dc.contributor.referee2Minetto, Rodrigo-
dc.contributor.referee2IDhttps://orcid.org/0000-0003-2277-4632pt_BR
dc.contributor.referee2Latteshttps://lattes.cnpq.br/8366112479020867pt_BR
dc.contributor.referee3Gonçalves, Wesley Nunes-
dc.contributor.referee3IDhttps://orcid.org/0000-0002-8815-6653pt_BR
dc.contributor.referee3Latteshttp://lattes.cnpq.br/4498921794690866pt_BR
dc.publisher.countryBrasilpt_BR
dc.publisher.programPrograma de Pós-Graduação em Engenharia Elétrica e Informática Industrialpt_BR
dc.publisher.initialsUTFPRpt_BR
dc.subject.cnpqCNPQ::ENGENHARIAS::ENGENHARIA ELETRICApt_BR
dc.subject.capesEngenharia Elétricapt_BR
Aparece nas coleções:CT - Programa de Pós-Graduação em Engenharia Elétrica e Informática Industrial

Arquivos associados a este item:
Arquivo Descrição TamanhoFormato 
multimodalsentiment.pdf
  Disponível a partir de 2027-04-27
5,06 MBAdobe PDFVisualizar/Abrir


Este item está licenciada sob uma Licença Creative Commons Creative Commons