Use este identificador para citar ou linkar para este item: http://repositorio.utfpr.edu.br/jspui/handle/1/37287
Registro completo de metadados
Campo DCValorIdioma
dc.creatorSakashita, Renan Guensuke Aoki-
dc.date.accessioned2025-06-30T20:43:32Z-
dc.date.available2025-06-30T20:43:32Z-
dc.date.issued2025-02-12-
dc.identifier.citationSAKASHITA, Renan Guensuke Aoki. Detecção de drift nos microdados dos cursos de computação no ENADE. 2025. Trabalho de Conclusão de Curso (Bacharelado em Ciência da Computação) – Universidade Tecnológica Federal do Paraná, Campo Mourão, 2025.pt_BR
dc.identifier.urihttp://repositorio.utfpr.edu.br/jspui/handle/1/37287-
dc.description.abstractLarge-scale assessments are nationwide exams designed to measure the performance of educational institutions in relation to their students’ level. The Enade is one such assessment, conducted to evaluate higher education programs. This exam provides open-format microdata related to students’ socioeconomic aspects, allowing researchers to investigate the relationship between a course’s socioeconomic context and its performance in Enade. Such research can lead to advancements in higher education and enhance the value of large-scale assessments. Enade has been conducted since 2004, and after years of implementation, a large volume of data has been accumulated, which has been explored in studies in the field of Machine Learning. In this field, there is a phenomenon known as model drift, where the performance of learning models is affected due to the dynamic nature of real-world data, including socioeconomic and political factors that frequently change over time. This change in data nature is called drift and is classified into two categories: concept drift and covariate shift. Concept drift refers to a change in the relationship between the input variables and the model’s output variable, while covariate shift refers to significant changes in the distribution of input variables or the relationship between them. Considering various studies that apply learning algorithms to Enade’s microdata, the poor performance achieved by the models, and the large amount of exam data that may present drift, this study evaluates whether the low performance of models can be explained using drift detection techniques. For this, a dataset of computing-related courses was compiled, and two covariate shift detection algorithms were applied: the statistical Kolmogorov-Smirnov Test and a learning-based algorithm using the Light Gradient-Boosting Machine model. Additionally, the Reverse Concept Drift algorithm was used to detect concept drift. Based on the results of these algorithms, a relationship was established between historical events that impacted education and the socioeconomic variables in which drift was identified. As a result, multiple cases of covariate shift and indications of concept drift were detected in Enade’s microdata, explaining the poor performance of models on the dataset.pt_BR
dc.languageporpt_BR
dc.publisherUniversidade Tecnológica Federal do Paranápt_BR
dc.rightsopenAccesspt_BR
dc.rightsAttribution 4.0 International*
dc.rights.urihttp://creativecommons.org/licenses/by/4.0/*
dc.subjectAprendizado do computadorpt_BR
dc.subjectUniversidades e faculdades - Avaliaçãopt_BR
dc.subjectDesempenhopt_BR
dc.subjectMachine learningpt_BR
dc.subjectUniversities and colleges - Evaluationpt_BR
dc.subjectPerformancept_BR
dc.titleDetecção de drift nos microdados dos cursos de computação no Enadept_BR
dc.title.alternativeDrift detection in Enade’s computing courses microdatapt_BR
dc.typebachelorThesispt_BR
dc.description.resumoAvaliações em larga escala são exames aplicados em nível nacional para medir o desempenho de instituições de ensino em relação ao nível de aprendizado de seus estudantes. O Enade constitui-se de uma dessas avaliações, realizado para avaliação de cursos de ensino superior. Deste exame são disponibilizados microdados em formato aberto referentes a aspectos socioeconômicos dos estudantes, permitindo a investigação de relações entre o contexto socioeconômico de um curso e seu desempenho no Enade, possibilitando pesquisas que tragam progressos para o ensino superior e que valorizem os exames de larga escala. O Enade tem sido realizado desde 2004, e após anos de realização do exame, acumulou-se um grande volume de dados, que tem sido explorado por trabalhos na área de Aprendizado de Máquina. Nesta área, tem-se o fenômeno denominado model drift, em que modelos de aprendizado têm seus desempenhos afetados por conta da natureza dinâmica dos dados do mundo real, como questões socioeconômicas e políticas que se alteram com frequência ao longo do tempo. Esta mudança na natureza dos dados é chamada de drift e classifica-se em duas categorias: concept drift e covariate shift. Concept drift trata-se da mudança na relação entre as variáveis de entrada e a variável de saída do modelo, enquanto covariate shift trata-se de mudanças significativas na distribuição dos dados das variáveis de entrada ou na relação entre elas. Considerando vários trabalhos que utilizam algoritmos de aprendizado sobre os microdados do Enade, o mau desempenho alcançado pelos modelos e a grande quantidade de dados disponíveis do exame que podem apresentar drift, este trabalho avalia se o baixo desempenho dos modelos pode ser explicado por meio de técnicas de detecção de drift. Para isso, formou-se um conjunto de dados de cursos da área da computação, e aplicou-se dois algoritmos de detecção de covariate shift: o método estatístico Teste Kolmogorov-Smirnov e um algoritmo baseado em modelos de aprendizado, com o uso do modelo Light Gradient-Boosting Machine; e o algoritmo Reverse Concept Drift para detecção de concept drift. A partir dos resultados destes algorimos, fez-se a relação de eventos históricos que tiveram impacto sobre a área da educação com as variáveis socioeconômicas em que identificaram-se drift. Como resultado, detectou-se diversos casos de covariate shift e indícios de concept drift nos microdados do Enade, explicando-se o baixo desempenho dos modelos sobre o conjunto de dados.pt_BR
dc.degree.localCampo Mourãopt_BR
dc.publisher.localCampo Mouraopt_BR
dc.contributor.advisor1Schwerz, André Luís-
dc.contributor.referee1Schwerz, André Luís-
dc.contributor.referee2Foleis, Juliano Henrique-
dc.contributor.referee3Campiolo, Rodrigo-
dc.publisher.countryBrasilpt_BR
dc.publisher.departmentDepartamento Acadêmico de Computaçãopt_BR
dc.publisher.programCiência da Computaçãopt_BR
dc.publisher.initialsUTFPRpt_BR
dc.subject.cnpqCNPQ::CIENCIAS EXATAS E DA TERRA::CIENCIA DA COMPUTACAOpt_BR
Aparece nas coleções:CM - Ciência da Computação

Arquivos associados a este item:
Arquivo Descrição TamanhoFormato 
deteccaodriftcomputacaoenade.pdf627,96 kBAdobe PDFThumbnail
Visualizar/Abrir


Este item está licenciada sob uma Licença Creative Commons Creative Commons