Do multimodal LLMs see sentiment?

Silva, Neemias Bucéli da

Use este identificador para citar ou linkar para este item: http://repositorio.utfpr.edu.br/jspui/handle/1/38903

Registro completo de metadados

Campo DC	Valor	Idioma
dc.creator	Silva, Neemias Bucéli da	-
dc.date.accessioned	2025-11-13T17:11:50Z	-
dc.date.available	2027-04-24	-
dc.date.available	2025-11-13T17:11:50Z	-
dc.date.issued	2025-10-23	-
dc.identifier.citation	SILVA, Neemias Buceli da. Do multimodal LLMs see sentiment?. 2025. Dissertação (Mestrado em Engenharia Elétrica e Informática Industrial) - Universidade Tecnológica Federal do Paraná, Curitiba, 2025.	pt_BR
dc.identifier.uri	http://repositorio.utfpr.edu.br/jspui/handle/1/38903	-
dc.description.abstract	Understanding how visual content communicates sentiment is critical in an era where online interaction is increasingly dominated by this kind of media on social platforms. However, this remains a challenging problem, as sentiment perception is closely tied to complex, scene-level semantics. In this dissertation, we propose an original framework, MLLMsent, to investigate the sentiment reasoning capabilities of Multimodal Large Language Models (MLLMs) through three perspectives: (1) using those MLLMs for direct sentiment classification from images; (2) associating them with pre-trained LLMs for sentiment analysis on automatically generated image descriptions; and (3) fine-tuning the LLMs on sentiment-labeled image descriptions. Experiments on a recent and established benchmark demonstrate that our proposal, particularly the fine-tuned approach, achieves state-of-the-art results outperforming Lexicon-, CNN-, and Transformer-based baselines by up to 30.9%, 64.8%, and 42.4%, respectively, across different levels of evaluators’ agreement and sentiment polarity categories. Remarkably, in a cross-dataset test, without any training on these new data, our model still outperforms, by up to 8.26%, the best runner-up, which has been trained directly on them. These results highlight the potential of the proposed visual reasoning scheme for advancing affective computing, while also establishing new benchmarks for future research.	pt_BR
dc.language	eng	pt_BR
dc.publisher	Universidade Tecnológica Federal do Paraná	pt_BR
dc.rights	embargoedAccess	pt_BR
dc.rights.uri	http://creativecommons.org/licenses/by/4.0/	pt_BR
dc.subject	Emoções - Análise	pt_BR
dc.subject	Aprendizado do computador	pt_BR
dc.subject	Visão por computador	pt_BR
dc.subject	Processamento de imagens	pt_BR
dc.subject	Inteligência computacional	pt_BR
dc.subject	Processamento de linguagem natural (Computação)	pt_BR
dc.subject	Emotions - Analysis	pt_BR
dc.subject	Machine learning	pt_BR
dc.subject	Computer vision	pt_BR
dc.subject	Image processing	pt_BR
dc.subject	Computational intelligence	pt_BR
dc.subject	Natural language processing (Computer science)	pt_BR
dc.title	Do multimodal LLMs see sentiment?	pt_BR
dc.title.alternative	LLMs multimodais conseguem perceber sentimentos?	pt_BR
dc.type	masterThesis	pt_BR
dc.description.resumo	Compreender como o conteúdo visual comunica sentimentos é fundamental em uma era em que a interação online é cada vez mais dominada por esse tipo de mídia nas plataformas sociais. No entanto, isso continua sendo um problema desafiador, pois a percepção de sentimento está intimamente ligada a semânticas complexas em nível de cena. Neste artigo, propomos um framework original, MLLMsent, para investigar as capacidades de raciocínio sobre sentimento de Modelos Multimodais de Linguagem de Grande Escala (MLLMs, de Multimodal Large Language Models) sob três perspectivas: (1) utilizando esses MLLMs para classificação direta de sentimento a partir de imagens; (2) associando-os a LLMs pré-treinados para análise de sentimento em descrições de imagens geradas automaticamente; e (3) realizando ajustes finos nos LLMs em descrições de imagens anotadas com sentimentos. Experimentos em um benchmark recente e consolidado demonstram que nossa proposta, particularmente a abordagem com ajuste fino, alcança resultados estado da arte, superando baselines baseados em Léxicos, CNNs e Transformers em até 30,9%, 64,8% e 42,4%, respectivamente, em diferentes níveis de concordância entre avaliadores e categorias de polaridade de sentimento. Notavelmente, em um experimento cross-dataset, sem qualquer treinamento sobre dados de um outro dataset, nosso modelo ainda supera, em até 8,26%, o melhor concorrente direto, que foi treinado especificamente neles. Esses resultados destacam o potencial do esquema de raciocínio visual proposto para o avanço da computação afetiva, ao mesmo tempo em que estabelece novos referenciais para pesquisas futuras.	pt_BR
dc.degree.local	Curitiba	pt_BR
dc.publisher.local	Curitiba	pt_BR
dc.creator.ID	https://orcid.org/0009-0003-9239-2223	pt_BR
dc.creator.Lattes	https://lattes.cnpq.br/3557679239047267	pt_BR
dc.contributor.advisor1	Minetto, Rodrigo	-
dc.contributor.advisor1ID	https://orcid.org/0000-0003-2277-4632	pt_BR
dc.contributor.advisor1Lattes	https://lattes.cnpq.br/8366112479020867	pt_BR
dc.contributor.advisor-co1	Nassu, Bogdan Tomoyuki	-
dc.contributor.advisor-co1ID	https://orcid.org/0000-0001-6441-8543	pt_BR
dc.contributor.advisor-co1Lattes	https://lattes.cnpq.br/4592104393315780	pt_BR
dc.contributor.referee1	Silva, Ricardo Dutra da	-
dc.contributor.referee1ID	https://orcid.org/0000-0002-8002-8411	pt_BR
dc.contributor.referee1Lattes	https://lattes.cnpq.br/8512085741397097	pt_BR
dc.contributor.referee2	Minetto, Rodrigo	-
dc.contributor.referee2ID	https://orcid.org/0000-0003-2277-4632	pt_BR
dc.contributor.referee2Lattes	https://lattes.cnpq.br/8366112479020867	pt_BR
dc.contributor.referee3	Gonçalves, Wesley Nunes	-
dc.contributor.referee3ID	https://orcid.org/0000-0002-8815-6653	pt_BR
dc.contributor.referee3Lattes	http://lattes.cnpq.br/4498921794690866	pt_BR
dc.publisher.country	Brasil	pt_BR
dc.publisher.program	Programa de Pós-Graduação em Engenharia Elétrica e Informática Industrial	pt_BR
dc.publisher.initials	UTFPR	pt_BR
dc.subject.cnpq	CNPQ::ENGENHARIAS::ENGENHARIA ELETRICA	pt_BR
dc.subject.capes	Engenharia Elétrica	pt_BR
Aparece nas coleções:	CT - Programa de Pós-Graduação em Engenharia Elétrica e Informática Industrial

Arquivos associados a este item:

Arquivo	Descrição	Tamanho	Formato
multimodalsentiment.pdf Disponível a partir de 2027-04-27		5,06 MB	Adobe PDF	Visualizar/Abrir

Mostrar registro simples do item Recomendar este item Visualizar estatísticas

Este item está licenciada sob uma Licença Creative Commons