Use este identificador para citar ou linkar para este item:
http://repositorio.utfpr.edu.br/jspui/handle/1/39461Registro completo de metadados
| Campo DC | Valor | Idioma |
|---|---|---|
| dc.creator | Elisiario, Victor Alexsandro | - |
| dc.date.accessioned | 2026-02-26T22:02:20Z | - |
| dc.date.available | 2026-02-26T22:02:20Z | - |
| dc.date.issued | 2025-12-12 | - |
| dc.identifier.citation | ELISIARIO, Victor Alexsandro. Geração automática de textos alternativos para acessibilidade web com grandes modelos de linguagem multimodais. 2025. Dissertação (Mestrado em Informática) - Universidade Tecnológica Federal do Paraná, Cornélio Procópio, 2025. | pt_BR |
| dc.identifier.uri | http://repositorio.utfpr.edu.br/jspui/handle/1/39461 | - |
| dc.description.abstract | Since the creation of the Web Content Accessibility Guidelines, the Web has become increasingly accessible to people with disabilities. However, related studies report that developers often lack awareness of these specifications, and many applications still present accessibility barriers. In this context, this dissertation proposes an approach that integrates visual data obtained through the Google Cloud Vision API with contextual information extracted from web pages, employing the multimodal models Gemini-1.5-Pro, Gemini-2.5-flash-preview-05-20, and GPT-o4-mini to generate descriptions capable of replacing alternative texts manually created by website authors.The main objective is to evaluate whether the descriptions produced by Multimodal Large Language Models (MLLM) demonstrate sufficient quality and relevance to be adopted as alternative texts for images on the Web. The methodology comprised two complementary studies. The first involved an evaluation of the quality of the generated descriptions, in which six graduate students in Computer Science provided responses after analyzing ten images extracted from Brazilian news portals. For each image, three descriptions were generated by the MLLM, each with a distinct level of contextual incorporation, and these descriptions were blindly evaluated for their relevance compared to the alternative texts provided by the page authors. The second study consisted of a quantitative evaluation involving 12 descriptions generated by MLLMs, considering different levels of contextual information, variations in text length, and distinct language models. For this evaluation, semantic and visual similarity metrics (BERTScore and CLIPScore) were applied to an additional set of 73 images. The results suggest that the descriptions generated by MLLM achieve a quality level comparable to that of human-produced texts. However, the inclusion of additional contextual information did not lead to significant improvements in the evaluations. These findings highlight the potential of multimodal models as tools for promoting digital accessibility, reinforcing the role of artificial intelligence as an ally in building a more inclusive Web, particularly in scenarios where the manual production of image descriptions on a large scale is unfeasible. | pt_BR |
| dc.language | por | pt_BR |
| dc.publisher | Universidade Tecnológica Federal do Paraná | pt_BR |
| dc.rights | openAccess | pt_BR |
| dc.rights.uri | https://creativecommons.org/licenses/by-nc-sa/4.0/deed.en | pt_BR |
| dc.subject | Projeto de acessibilidade | pt_BR |
| dc.subject | Aplicações Web | pt_BR |
| dc.subject | Pessoas com deficiência visual - Serviços | pt_BR |
| dc.subject | Barrier-free design | pt_BR |
| dc.subject | Web applications | pt_BR |
| dc.subject | People with visual disabilities - Services for | pt_BR |
| dc.title | Geração automática de textos alternativos para acessibilidade web com grandes modelos de linguagem multimodais | pt_BR |
| dc.title.alternative | Automatic alternative text generation for web accessibility with multimodal large language models | pt_BR |
| dc.type | masterThesis | pt_BR |
| dc.description.resumo | Desde a criação das Diretrizes de Acessibilidade para Conteúdo Web, a Web tem se tornado cada vez mais acessível a pessoas com deficiência. Entretanto, estudos relacionados reportam que desenvolvedores frequentemente desconhecem essas especificações e muitas aplicações ainda apresentam barreiras de acessibilidade. Diante desse cenário, esta dissertação propõe uma abordagem que integra dados visuais obtidos por meio da Google Cloud Vision API com informações contextuais extraídas de paginas web, utilizando os modelos multimodais Gemini-1.5-Pro, Gemini- 2.5-flash-preview-05-20 e GPT-o4-mini para gerar descrições capazes de substituir textos alternativos criados manualmente por autores de sites. O objetivo central e´ avaliar se as descrições produzidas por Grandes Modelos de Linguagem Multimodais (MLLM) possuem qualidade e relevância suficientes para serem adotadas como textos alternativos de imagens na Web. A metodologia foi composta por dois estudos complementares. O primeiro consistiu em uma avaliação da qualidade das descrições geradas, com a participação de seis mestrandos em Informática, que analisaram dez imagens extraídas de portais de notícias brasileiros. Para cada imagem, foram produzidas três descrições pelo MLLM, cada uma com um nível distinto de incorporação de contexto, as quais foram avaliadas as cegas quanto a sua relevância em comparação aos textos alternativos fornecidos pelos autores das páginas. O segundo estudo correspondeu a uma avaliação quantitativa envolvendo 12 descrições geradas por MLLMs, considerando diferentes níveis de informações contextuais, variação no comprimento textual e distintos modelos de linguagem. Para essa avaliação, foram utilizadas métricas de similaridade semântica e visual (BERTScore e CLIPScore) sobre um conjunto adicional de 73 imagens. Os resultados sugerem que as descrições produzidas pelos MLLM apresentam qualidade comparável a de textos produzidos por humanos. Contudo, o uso de informações contextuais adicionais não resultou em melhora significativa nas avaliações. Esses achados evidenciam o potencial do modelos multimodais como ferramentas para a promoção da acessibilidade digital, reforçando o papel da Inteligencia Artificial como aliada na construção de uma Web mais inclusiva, sobretudo em contextos nos quais a produção manual de descrições em larga escala e inviável. | pt_BR |
| dc.degree.local | Cornélio Procópio | pt_BR |
| dc.publisher.local | Cornelio Procopio | pt_BR |
| dc.creator.Lattes | https://lattes.cnpq.br/0046752298368585 | pt_BR |
| dc.contributor.advisor1 | Watanabe, Willian Massami | - |
| dc.contributor.advisor1ID | https://orcid.org/0000-0001-6910-5730 | pt_BR |
| dc.contributor.advisor1Lattes | https://lattes.cnpq.br/8946276875418151 | pt_BR |
| dc.contributor.referee1 | Sestito, Camila Dias de Oliveira | - |
| dc.contributor.referee1Lattes | https://lattes.cnpq.br/0176951751504724 | pt_BR |
| dc.contributor.referee2 | Oliveira Junior, Edson Alves de | - |
| dc.contributor.referee2ID | https://orcid.org/0000-0002-4760-1626 | pt_BR |
| dc.contributor.referee2Lattes | http://lattes.cnpq.br/8717980588591239 | pt_BR |
| dc.contributor.referee3 | Sanches, Silvio Ricardo Rodrigues | - |
| dc.contributor.referee3Lattes | https://lattes.cnpq.br/9931293076574399 | pt_BR |
| dc.contributor.referee4 | Watanabe, Willian Massami | - |
| dc.contributor.referee4Lattes | https://lattes.cnpq.br/8946276875418151 | pt_BR |
| dc.publisher.country | Brasil | pt_BR |
| dc.publisher.program | Programa de Pós-Graduação em Informática | pt_BR |
| dc.publisher.initials | UTFPR | pt_BR |
| dc.subject.cnpq | CNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAO | pt_BR |
| dc.subject.capes | Ciência da Computação | pt_BR |
| Aparece nas coleções: | CP - Programa de Pós-Graduação em Informática | |
Arquivos associados a este item:
| Arquivo | Descrição | Tamanho | Formato | |
|---|---|---|---|---|
| geracaotextosalternativosacessibilidadeweb.pdf | 19,39 MB | Adobe PDF | ![]() Visualizar/Abrir |
Este item está licenciada sob uma Licença Creative Commons

