Use este identificador para citar ou linkar para este item: http://repositorio.utfpr.edu.br/jspui/handle/1/31850
Título: Garantindo a qualidade de dados na fusão de dados semânticos: um caso de uso de SHACL em dados de mobilidade e educação
Título(s) alternativo(s): Ensuring data quality in semantic data fusion: a use case for SHACL in mobility and education data
Autor(es): Bertucini, Otávio Thomas
Orientador(es): Berardi, Rita Cristina Galarraga
Palavras-chave: OWL (Linguagem da Ontologia Web)
Web semântica
Banco de dados - Gerência
Estruturas de dados (Computação)
OWL (Web ontology language)
Semantic web
Data base management
Data structures (Computer science)
Data do documento: 5-Dez-2022
Editor: Universidade Tecnológica Federal do Paraná
Câmpus: Curitiba
Citação: BERTUCINI, Otávio Thomas. Garantindo a qualidade de dados na fusão de dados semânticos: um caso de uso de SHACL em dados de mobilidade e educação. 2022. Trabalho de Conclusão de Curso (Bacharelado em Sistemas de Informação) - Universidade Tecnológica Federal do Paraná, Curitiba, 2022.
Resumo: Para se obter análises completas e confiáveis através dos dados a quantidade de dados disponível é um fator muito importante é ideal que conjuntos de dados cresçam e se tornem mais úteis ao longo do tempo. No entanto, apenas aumentar a quantidade de dados disponíveis sem se preocupar a qualidade não torna os dados mais proveitosos para o usuário e pode até mesmo acabar deixando o conjunto inutilizável. Ao fundir dois ou mais conjuntos de dados, registros incorretos ou incoerentes podem ser fundidos, causando a perda de qualidade do conjunto como um todo. As dimensões de qualidade concisão, consistência e precisão são importantes para garantir a integridade e veracidade do conjunto de dados e o conceito de gerenciamento de dados baseado em ontologias (GDBO) pode ajudar para que estas características estejam presentes em conjuntos de dados que crescem ao longo do tempo. Este trabalho tem como objetivo criar um mecanismo de verificação da dimensões de qualidade de acurácia, consistência e concisão ao fundir conjuntos de dados ligados, permitindo que essas três dimensões de qualidade sejam aferidas e buscando oferecer mecanismos para pessoas que queiram aumentar o quantidade de dados possam entender se os conjuntos de dados utilizados têm qualidade. O mecanismo de verificação foi construído na linguagem SHACL (Shapes Constraint Language) e testado em um conjunto de dados semânticos do domínio de mobilidade urbana e educação. Também foi criado um script em Python que permite a execução deste mecanismo em conjunto de dados.
Abstract: An important factor for the quality of knowledge gained from the data is the amount of data available for analysis and therefore it is ideal that data sets grow and become more useful over time. However, just increasing the number of available data without worrying about quality does not make the data more useful to the user and may even end up rendering the set unusable. When merging two or more semantic datasets, incorrect or incoherent data can be merged, causing the loss of quality of the set as a whole. The dimensions of quality, conciseness, consistency, and accuracy are important to ensure the integrity and veracity of the dataset, and the concept of ontology-based data management (OBDM) can help to ensure that these characteristics are present in datasets that grow over time. Of time. This work aims to create a mechanism that allows these three dimensions of quality to be measured, seeking to provide resources for people who want to increase the number of data to understand whether the data sets used have quality. The mechanism was built in the SHACL language and tested on a set of semantic data from the urban mobility and education domain. A script in Python was also created that allows the execution of this mechanism in a dataset.
URI: http://repositorio.utfpr.edu.br/jspui/handle/1/31850
Aparece nas coleções:CT - Sistemas de Informação

Arquivos associados a este item:
Arquivo Descrição TamanhoFormato 
qualidadefusaodadossemanticos.pdf7,32 MBAdobe PDFThumbnail
Visualizar/Abrir


Este item está licenciada sob uma Licença Creative Commons Creative Commons