Use este identificador para citar ou linkar para este item: http://repositorio.utfpr.edu.br/jspui/handle/1/39461
Registro completo de metadados
Campo DCValorIdioma
dc.creatorElisiario, Victor Alexsandro-
dc.date.accessioned2026-02-26T22:02:20Z-
dc.date.available2026-02-26T22:02:20Z-
dc.date.issued2025-12-12-
dc.identifier.citationELISIARIO, Victor Alexsandro. Geração automática de textos alternativos para acessibilidade web com grandes modelos de linguagem multimodais. 2025. Dissertação (Mestrado em Informática) - Universidade Tecnológica Federal do Paraná, Cornélio Procópio, 2025.pt_BR
dc.identifier.urihttp://repositorio.utfpr.edu.br/jspui/handle/1/39461-
dc.description.abstractSince the creation of the Web Content Accessibility Guidelines, the Web has become increasingly accessible to people with disabilities. However, related studies report that developers often lack awareness of these specifications, and many applications still present accessibility barriers. In this context, this dissertation proposes an approach that integrates visual data obtained through the Google Cloud Vision API with contextual information extracted from web pages, employing the multimodal models Gemini-1.5-Pro, Gemini-2.5-flash-preview-05-20, and GPT-o4-mini to generate descriptions capable of replacing alternative texts manually created by website authors.The main objective is to evaluate whether the descriptions produced by Multimodal Large Language Models (MLLM) demonstrate sufficient quality and relevance to be adopted as alternative texts for images on the Web. The methodology comprised two complementary studies. The first involved an evaluation of the quality of the generated descriptions, in which six graduate students in Computer Science provided responses after analyzing ten images extracted from Brazilian news portals. For each image, three descriptions were generated by the MLLM, each with a distinct level of contextual incorporation, and these descriptions were blindly evaluated for their relevance compared to the alternative texts provided by the page authors. The second study consisted of a quantitative evaluation involving 12 descriptions generated by MLLMs, considering different levels of contextual information, variations in text length, and distinct language models. For this evaluation, semantic and visual similarity metrics (BERTScore and CLIPScore) were applied to an additional set of 73 images. The results suggest that the descriptions generated by MLLM achieve a quality level comparable to that of human-produced texts. However, the inclusion of additional contextual information did not lead to significant improvements in the evaluations. These findings highlight the potential of multimodal models as tools for promoting digital accessibility, reinforcing the role of artificial intelligence as an ally in building a more inclusive Web, particularly in scenarios where the manual production of image descriptions on a large scale is unfeasible.pt_BR
dc.languageporpt_BR
dc.publisherUniversidade Tecnológica Federal do Paranápt_BR
dc.rightsopenAccesspt_BR
dc.rights.urihttps://creativecommons.org/licenses/by-nc-sa/4.0/deed.enpt_BR
dc.subjectProjeto de acessibilidadept_BR
dc.subjectAplicações Webpt_BR
dc.subjectPessoas com deficiência visual - Serviçospt_BR
dc.subjectBarrier-free designpt_BR
dc.subjectWeb applicationspt_BR
dc.subjectPeople with visual disabilities - Services forpt_BR
dc.titleGeração automática de textos alternativos para acessibilidade web com grandes modelos de linguagem multimodaispt_BR
dc.title.alternativeAutomatic alternative text generation for web accessibility with multimodal large language modelspt_BR
dc.typemasterThesispt_BR
dc.description.resumoDesde a criação das Diretrizes de Acessibilidade para Conteúdo Web, a Web tem se tornado cada vez mais acessível a pessoas com deficiência. Entretanto, estudos relacionados reportam que desenvolvedores frequentemente desconhecem essas especificações e muitas aplicações ainda apresentam barreiras de acessibilidade. Diante desse cenário, esta dissertação propõe uma abordagem que integra dados visuais obtidos por meio da Google Cloud Vision API com informações contextuais extraídas de paginas web, utilizando os modelos multimodais Gemini-1.5-Pro, Gemini- 2.5-flash-preview-05-20 e GPT-o4-mini para gerar descrições capazes de substituir textos alternativos criados manualmente por autores de sites. O objetivo central e´ avaliar se as descrições produzidas por Grandes Modelos de Linguagem Multimodais (MLLM) possuem qualidade e relevância suficientes para serem adotadas como textos alternativos de imagens na Web. A metodologia foi composta por dois estudos complementares. O primeiro consistiu em uma avaliação da qualidade das descrições geradas, com a participação de seis mestrandos em Informática, que analisaram dez imagens extraídas de portais de notícias brasileiros. Para cada imagem, foram produzidas três descrições pelo MLLM, cada uma com um nível distinto de incorporação de contexto, as quais foram avaliadas as cegas quanto a sua relevância em comparação aos textos alternativos fornecidos pelos autores das páginas. O segundo estudo correspondeu a uma avaliação quantitativa envolvendo 12 descrições geradas por MLLMs, considerando diferentes níveis de informações contextuais, variação no comprimento textual e distintos modelos de linguagem. Para essa avaliação, foram utilizadas métricas de similaridade semântica e visual (BERTScore e CLIPScore) sobre um conjunto adicional de 73 imagens. Os resultados sugerem que as descrições produzidas pelos MLLM apresentam qualidade comparável a de textos produzidos por humanos. Contudo, o uso de informações contextuais adicionais não resultou em melhora significativa nas avaliações. Esses achados evidenciam o potencial do modelos multimodais como ferramentas para a promoção da acessibilidade digital, reforçando o papel da Inteligencia Artificial como aliada na construção de uma Web mais inclusiva, sobretudo em contextos nos quais a produção manual de descrições em larga escala e inviável.pt_BR
dc.degree.localCornélio Procópiopt_BR
dc.publisher.localCornelio Procopiopt_BR
dc.creator.Latteshttps://lattes.cnpq.br/0046752298368585pt_BR
dc.contributor.advisor1Watanabe, Willian Massami-
dc.contributor.advisor1IDhttps://orcid.org/0000-0001-6910-5730pt_BR
dc.contributor.advisor1Latteshttps://lattes.cnpq.br/8946276875418151pt_BR
dc.contributor.referee1Sestito, Camila Dias de Oliveira-
dc.contributor.referee1Latteshttps://lattes.cnpq.br/0176951751504724pt_BR
dc.contributor.referee2Oliveira Junior, Edson Alves de-
dc.contributor.referee2IDhttps://orcid.org/0000-0002-4760-1626pt_BR
dc.contributor.referee2Latteshttp://lattes.cnpq.br/8717980588591239pt_BR
dc.contributor.referee3Sanches, Silvio Ricardo Rodrigues-
dc.contributor.referee3Latteshttps://lattes.cnpq.br/9931293076574399pt_BR
dc.contributor.referee4Watanabe, Willian Massami-
dc.contributor.referee4Latteshttps://lattes.cnpq.br/8946276875418151pt_BR
dc.publisher.countryBrasilpt_BR
dc.publisher.programPrograma de Pós-Graduação em Informáticapt_BR
dc.publisher.initialsUTFPRpt_BR
dc.subject.cnpqCNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAOpt_BR
dc.subject.capesCiência da Computaçãopt_BR
Aparece nas coleções:CP - Programa de Pós-Graduação em Informática

Arquivos associados a este item:
Arquivo Descrição TamanhoFormato 
geracaotextosalternativosacessibilidadeweb.pdf19,39 MBAdobe PDFThumbnail
Visualizar/Abrir


Este item está licenciada sob uma Licença Creative Commons Creative Commons