Use este identificador para citar ou linkar para este item:
http://repositorio.utfpr.edu.br/jspui/handle/1/37287
Título: | Detecção de drift nos microdados dos cursos de computação no Enade |
Título(s) alternativo(s): | Drift detection in Enade’s computing courses microdata |
Autor(es): | Sakashita, Renan Guensuke Aoki |
Orientador(es): | Schwerz, André Luís |
Palavras-chave: | Aprendizado do computador Universidades e faculdades - Avaliação Desempenho Machine learning Universities and colleges - Evaluation Performance |
Data do documento: | 12-Fev-2025 |
Editor: | Universidade Tecnológica Federal do Paraná |
Câmpus: | Campo Mourao |
Citação: | SAKASHITA, Renan Guensuke Aoki. Detecção de drift nos microdados dos cursos de computação no ENADE. 2025. Trabalho de Conclusão de Curso (Bacharelado em Ciência da Computação) – Universidade Tecnológica Federal do Paraná, Campo Mourão, 2025. |
Resumo: | Avaliações em larga escala são exames aplicados em nível nacional para medir o desempenho de instituições de ensino em relação ao nível de aprendizado de seus estudantes. O Enade constitui-se de uma dessas avaliações, realizado para avaliação de cursos de ensino superior. Deste exame são disponibilizados microdados em formato aberto referentes a aspectos socioeconômicos dos estudantes, permitindo a investigação de relações entre o contexto socioeconômico de um curso e seu desempenho no Enade, possibilitando pesquisas que tragam progressos para o ensino superior e que valorizem os exames de larga escala. O Enade tem sido realizado desde 2004, e após anos de realização do exame, acumulou-se um grande volume de dados, que tem sido explorado por trabalhos na área de Aprendizado de Máquina. Nesta área, tem-se o fenômeno denominado model drift, em que modelos de aprendizado têm seus desempenhos afetados por conta da natureza dinâmica dos dados do mundo real, como questões socioeconômicas e políticas que se alteram com frequência ao longo do tempo. Esta mudança na natureza dos dados é chamada de drift e classifica-se em duas categorias: concept drift e covariate shift. Concept drift trata-se da mudança na relação entre as variáveis de entrada e a variável de saída do modelo, enquanto covariate shift trata-se de mudanças significativas na distribuição dos dados das variáveis de entrada ou na relação entre elas. Considerando vários trabalhos que utilizam algoritmos de aprendizado sobre os microdados do Enade, o mau desempenho alcançado pelos modelos e a grande quantidade de dados disponíveis do exame que podem apresentar drift, este trabalho avalia se o baixo desempenho dos modelos pode ser explicado por meio de técnicas de detecção de drift. Para isso, formou-se um conjunto de dados de cursos da área da computação, e aplicou-se dois algoritmos de detecção de covariate shift: o método estatístico Teste Kolmogorov-Smirnov e um algoritmo baseado em modelos de aprendizado, com o uso do modelo Light Gradient-Boosting Machine; e o algoritmo Reverse Concept Drift para detecção de concept drift. A partir dos resultados destes algorimos, fez-se a relação de eventos históricos que tiveram impacto sobre a área da educação com as variáveis socioeconômicas em que identificaram-se drift. Como resultado, detectou-se diversos casos de covariate shift e indícios de concept drift nos microdados do Enade, explicando-se o baixo desempenho dos modelos sobre o conjunto de dados. |
Abstract: | Large-scale assessments are nationwide exams designed to measure the performance of educational institutions in relation to their students’ level. The Enade is one such assessment, conducted to evaluate higher education programs. This exam provides open-format microdata related to students’ socioeconomic aspects, allowing researchers to investigate the relationship between a course’s socioeconomic context and its performance in Enade. Such research can lead to advancements in higher education and enhance the value of large-scale assessments. Enade has been conducted since 2004, and after years of implementation, a large volume of data has been accumulated, which has been explored in studies in the field of Machine Learning. In this field, there is a phenomenon known as model drift, where the performance of learning models is affected due to the dynamic nature of real-world data, including socioeconomic and political factors that frequently change over time. This change in data nature is called drift and is classified into two categories: concept drift and covariate shift. Concept drift refers to a change in the relationship between the input variables and the model’s output variable, while covariate shift refers to significant changes in the distribution of input variables or the relationship between them. Considering various studies that apply learning algorithms to Enade’s microdata, the poor performance achieved by the models, and the large amount of exam data that may present drift, this study evaluates whether the low performance of models can be explained using drift detection techniques. For this, a dataset of computing-related courses was compiled, and two covariate shift detection algorithms were applied: the statistical Kolmogorov-Smirnov Test and a learning-based algorithm using the Light Gradient-Boosting Machine model. Additionally, the Reverse Concept Drift algorithm was used to detect concept drift. Based on the results of these algorithms, a relationship was established between historical events that impacted education and the socioeconomic variables in which drift was identified. As a result, multiple cases of covariate shift and indications of concept drift were detected in Enade’s microdata, explaining the poor performance of models on the dataset. |
URI: | http://repositorio.utfpr.edu.br/jspui/handle/1/37287 |
Aparece nas coleções: | CM - Ciência da Computação |
Arquivos associados a este item:
Arquivo | Descrição | Tamanho | Formato | |
---|---|---|---|---|
deteccaodriftcomputacaoenade.pdf | 627,96 kB | Adobe PDF | ![]() Visualizar/Abrir |
Este item está licenciada sob uma Licença Creative Commons