Do multimodal LLMs see sentiment?

Silva, Neemias Bucéli da

Use este identificador para citar ou linkar para este item: http://repositorio.utfpr.edu.br/jspui/handle/1/38903

Título:	Do multimodal LLMs see sentiment?
Título(s) alternativo(s):	LLMs multimodais conseguem perceber sentimentos?
Autor(es):	Silva, Neemias Bucéli da
Orientador(es):	Minetto, Rodrigo
Palavras-chave:	Emoções - Análise Aprendizado do computador Visão por computador Processamento de imagens Inteligência computacional Processamento de linguagem natural (Computação) Emotions - Analysis Machine learning Computer vision Image processing Computational intelligence Natural language processing (Computer science)
Data do documento:	23-Out-2025
Editor:	Universidade Tecnológica Federal do Paraná
Câmpus:	Curitiba
Citação:	SILVA, Neemias Buceli da. Do multimodal LLMs see sentiment?. 2025. Dissertação (Mestrado em Engenharia Elétrica e Informática Industrial) - Universidade Tecnológica Federal do Paraná, Curitiba, 2025.
Resumo:	Compreender como o conteúdo visual comunica sentimentos é fundamental em uma era em que a interação online é cada vez mais dominada por esse tipo de mídia nas plataformas sociais. No entanto, isso continua sendo um problema desafiador, pois a percepção de sentimento está intimamente ligada a semânticas complexas em nível de cena. Neste artigo, propomos um framework original, MLLMsent, para investigar as capacidades de raciocínio sobre sentimento de Modelos Multimodais de Linguagem de Grande Escala (MLLMs, de Multimodal Large Language Models) sob três perspectivas: (1) utilizando esses MLLMs para classificação direta de sentimento a partir de imagens; (2) associando-os a LLMs pré-treinados para análise de sentimento em descrições de imagens geradas automaticamente; e (3) realizando ajustes finos nos LLMs em descrições de imagens anotadas com sentimentos. Experimentos em um benchmark recente e consolidado demonstram que nossa proposta, particularmente a abordagem com ajuste fino, alcança resultados estado da arte, superando baselines baseados em Léxicos, CNNs e Transformers em até 30,9%, 64,8% e 42,4%, respectivamente, em diferentes níveis de concordância entre avaliadores e categorias de polaridade de sentimento. Notavelmente, em um experimento cross-dataset, sem qualquer treinamento sobre dados de um outro dataset, nosso modelo ainda supera, em até 8,26%, o melhor concorrente direto, que foi treinado especificamente neles. Esses resultados destacam o potencial do esquema de raciocínio visual proposto para o avanço da computação afetiva, ao mesmo tempo em que estabelece novos referenciais para pesquisas futuras.
Abstract:	Understanding how visual content communicates sentiment is critical in an era where online interaction is increasingly dominated by this kind of media on social platforms. However, this remains a challenging problem, as sentiment perception is closely tied to complex, scene-level semantics. In this dissertation, we propose an original framework, MLLMsent, to investigate the sentiment reasoning capabilities of Multimodal Large Language Models (MLLMs) through three perspectives: (1) using those MLLMs for direct sentiment classification from images; (2) associating them with pre-trained LLMs for sentiment analysis on automatically generated image descriptions; and (3) fine-tuning the LLMs on sentiment-labeled image descriptions. Experiments on a recent and established benchmark demonstrate that our proposal, particularly the fine-tuned approach, achieves state-of-the-art results outperforming Lexicon-, CNN-, and Transformer-based baselines by up to 30.9%, 64.8%, and 42.4%, respectively, across different levels of evaluators’ agreement and sentiment polarity categories. Remarkably, in a cross-dataset test, without any training on these new data, our model still outperforms, by up to 8.26%, the best runner-up, which has been trained directly on them. These results highlight the potential of the proposed visual reasoning scheme for advancing affective computing, while also establishing new benchmarks for future research.
URI:	http://repositorio.utfpr.edu.br/jspui/handle/1/38903
Aparece nas coleções:	CT - Programa de Pós-Graduação em Engenharia Elétrica e Informática Industrial

Arquivos associados a este item:

Arquivo	Descrição	Tamanho	Formato
multimodalsentiment.pdf Disponível a partir de 2027-04-27		5,06 MB	Adobe PDF	Visualizar/Abrir

Mostrar registro completo do item Recomendar este item Visualizar estatísticas

Este item está licenciada sob uma Licença Creative Commons