Geração automática de textos alternativos para acessibilidade web com grandes modelos de linguagem multimodais

Elisiario, Victor Alexsandro

Use este identificador para citar ou linkar para este item: http://repositorio.utfpr.edu.br/jspui/handle/1/39461

Registro completo de metadados

Campo DC	Valor	Idioma
dc.creator	Elisiario, Victor Alexsandro	-
dc.date.accessioned	2026-02-26T22:02:20Z	-
dc.date.available	2026-02-26T22:02:20Z	-
dc.date.issued	2025-12-12	-
dc.identifier.citation	ELISIARIO, Victor Alexsandro. Geração automática de textos alternativos para acessibilidade web com grandes modelos de linguagem multimodais. 2025. Dissertação (Mestrado em Informática) - Universidade Tecnológica Federal do Paraná, Cornélio Procópio, 2025.	pt_BR
dc.identifier.uri	http://repositorio.utfpr.edu.br/jspui/handle/1/39461	-
dc.description.abstract	Since the creation of the Web Content Accessibility Guidelines, the Web has become increasingly accessible to people with disabilities. However, related studies report that developers often lack awareness of these specifications, and many applications still present accessibility barriers. In this context, this dissertation proposes an approach that integrates visual data obtained through the Google Cloud Vision API with contextual information extracted from web pages, employing the multimodal models Gemini-1.5-Pro, Gemini-2.5-flash-preview-05-20, and GPT-o4-mini to generate descriptions capable of replacing alternative texts manually created by website authors.The main objective is to evaluate whether the descriptions produced by Multimodal Large Language Models (MLLM) demonstrate sufficient quality and relevance to be adopted as alternative texts for images on the Web. The methodology comprised two complementary studies. The first involved an evaluation of the quality of the generated descriptions, in which six graduate students in Computer Science provided responses after analyzing ten images extracted from Brazilian news portals. For each image, three descriptions were generated by the MLLM, each with a distinct level of contextual incorporation, and these descriptions were blindly evaluated for their relevance compared to the alternative texts provided by the page authors. The second study consisted of a quantitative evaluation involving 12 descriptions generated by MLLMs, considering different levels of contextual information, variations in text length, and distinct language models. For this evaluation, semantic and visual similarity metrics (BERTScore and CLIPScore) were applied to an additional set of 73 images. The results suggest that the descriptions generated by MLLM achieve a quality level comparable to that of human-produced texts. However, the inclusion of additional contextual information did not lead to significant improvements in the evaluations. These findings highlight the potential of multimodal models as tools for promoting digital accessibility, reinforcing the role of artificial intelligence as an ally in building a more inclusive Web, particularly in scenarios where the manual production of image descriptions on a large scale is unfeasible.	pt_BR
dc.language	por	pt_BR
dc.publisher	Universidade Tecnológica Federal do Paraná	pt_BR
dc.rights	openAccess	pt_BR
dc.rights.uri	https://creativecommons.org/licenses/by-nc-sa/4.0/deed.en	pt_BR
dc.subject	Projeto de acessibilidade	pt_BR
dc.subject	Aplicações Web	pt_BR
dc.subject	Pessoas com deficiência visual - Serviços	pt_BR
dc.subject	Barrier-free design	pt_BR
dc.subject	Web applications	pt_BR
dc.subject	People with visual disabilities - Services for	pt_BR
dc.title	Geração automática de textos alternativos para acessibilidade web com grandes modelos de linguagem multimodais	pt_BR
dc.title.alternative	Automatic alternative text generation for web accessibility with multimodal large language models	pt_BR
dc.type	masterThesis	pt_BR
dc.description.resumo	Desde a criação das Diretrizes de Acessibilidade para Conteúdo Web, a Web tem se tornado cada vez mais acessível a pessoas com deficiência. Entretanto, estudos relacionados reportam que desenvolvedores frequentemente desconhecem essas especificações e muitas aplicações ainda apresentam barreiras de acessibilidade. Diante desse cenário, esta dissertação propõe uma abordagem que integra dados visuais obtidos por meio da Google Cloud Vision API com informações contextuais extraídas de paginas web, utilizando os modelos multimodais Gemini-1.5-Pro, Gemini- 2.5-flash-preview-05-20 e GPT-o4-mini para gerar descrições capazes de substituir textos alternativos criados manualmente por autores de sites. O objetivo central e´ avaliar se as descrições produzidas por Grandes Modelos de Linguagem Multimodais (MLLM) possuem qualidade e relevância suficientes para serem adotadas como textos alternativos de imagens na Web. A metodologia foi composta por dois estudos complementares. O primeiro consistiu em uma avaliação da qualidade das descrições geradas, com a participação de seis mestrandos em Informática, que analisaram dez imagens extraídas de portais de notícias brasileiros. Para cada imagem, foram produzidas três descrições pelo MLLM, cada uma com um nível distinto de incorporação de contexto, as quais foram avaliadas as cegas quanto a sua relevância em comparação aos textos alternativos fornecidos pelos autores das páginas. O segundo estudo correspondeu a uma avaliação quantitativa envolvendo 12 descrições geradas por MLLMs, considerando diferentes níveis de informações contextuais, variação no comprimento textual e distintos modelos de linguagem. Para essa avaliação, foram utilizadas métricas de similaridade semântica e visual (BERTScore e CLIPScore) sobre um conjunto adicional de 73 imagens. Os resultados sugerem que as descrições produzidas pelos MLLM apresentam qualidade comparável a de textos produzidos por humanos. Contudo, o uso de informações contextuais adicionais não resultou em melhora significativa nas avaliações. Esses achados evidenciam o potencial do modelos multimodais como ferramentas para a promoção da acessibilidade digital, reforçando o papel da Inteligencia Artificial como aliada na construção de uma Web mais inclusiva, sobretudo em contextos nos quais a produção manual de descrições em larga escala e inviável.	pt_BR
dc.degree.local	Cornélio Procópio	pt_BR
dc.publisher.local	Cornelio Procopio	pt_BR
dc.creator.Lattes	https://lattes.cnpq.br/0046752298368585	pt_BR
dc.contributor.advisor1	Watanabe, Willian Massami	-
dc.contributor.advisor1ID	https://orcid.org/0000-0001-6910-5730	pt_BR
dc.contributor.advisor1Lattes	https://lattes.cnpq.br/8946276875418151	pt_BR
dc.contributor.referee1	Sestito, Camila Dias de Oliveira	-
dc.contributor.referee1Lattes	https://lattes.cnpq.br/0176951751504724	pt_BR
dc.contributor.referee2	Oliveira Junior, Edson Alves de	-
dc.contributor.referee2ID	https://orcid.org/0000-0002-4760-1626	pt_BR
dc.contributor.referee2Lattes	http://lattes.cnpq.br/8717980588591239	pt_BR
dc.contributor.referee3	Sanches, Silvio Ricardo Rodrigues	-
dc.contributor.referee3Lattes	https://lattes.cnpq.br/9931293076574399	pt_BR
dc.contributor.referee4	Watanabe, Willian Massami	-
dc.contributor.referee4Lattes	https://lattes.cnpq.br/8946276875418151	pt_BR
dc.publisher.country	Brasil	pt_BR
dc.publisher.program	Programa de Pós-Graduação em Informática	pt_BR
dc.publisher.initials	UTFPR	pt_BR
dc.subject.cnpq	CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO	pt_BR
dc.subject.capes	Ciência da Computação	pt_BR
Aparece nas coleções:	CP - Programa de Pós-Graduação em Informática

Arquivos associados a este item:

Arquivo	Descrição	Tamanho	Formato
geracaotextosalternativosacessibilidadeweb.pdf		19,39 MB	Adobe PDF	Visualizar/Abrir

Mostrar registro simples do item Recomendar este item Visualizar estatísticas

Este item está licenciada sob uma Licença Creative Commons