Use este identificador para citar ou linkar para este item: http://repositorio.utfpr.edu.br/jspui/handle/1/31719
Título: Otimização de hiper-parâmetros de algoritmos de machine learning aplicados no contexto de análise de risco de crédito
Título(s) alternativo(s): Optimization of hyper-parameters of machine learning algorithms applied in the context of credit risk analysis
Autor(es): Silva, Daniel de Oliveira
Orientador(es): Souza, Francisco Carlos Monteiro
Palavras-chave: Aprendizado do computador
Algorítmos computacionais
Análise de crédito
Machine learning
Computer algorithms
Credit analysis
Data do documento: 8-Nov-2022
Editor: Universidade Tecnológica Federal do Paraná
Câmpus: Dois Vizinhos
Citação: SILVA, Daniel de Oliveira. Otimização de hiper-parâmetros de algoritmos de machine learning aplicados no contexto de análise de risco de crédito. 2022. Monografia (Especialização em Ciências de Dados) - Universidade Tecnológica Federal do Paraná, Dois Vizinhos, 2022.
Resumo: A atividade de análise de risco de crédito é importantíssima em diversos setores em que se oferece um produto creditado. Uma área explorada há muito tempo, a análise de risco de crédito visa classificar certeiramente um cliente como um bom ou mau pagador, a fim de realizar bons negócios e evitar prejuízos. Diversas técnicas e métodos são aplicadas para realizar a análise de crédito, sendo estes métodos tradicionais utilizando modelos estatísticos ou a utilização de técnicas de aprendizado de máquina. Visando cada vez mais aumentar a margem de acerto, a utilização de algoritmos de aprendizado de máquina tem melhorado cada vez mais os resultados das análises. Entretanto, a otimização destes algoritmos pode ser um fator importantíssimo para se obter um melhor resultado nas predições. Com isto, o presente trabalho visa realizar uma análise do desempenho de diferentes tipos de algoritmos aplicados no contexto de análise de risco de crédito, utilizando 3 diferentes técnicas de otimização de hiper-parâmetros. Para a realização do mesmo, foram selecionados os algoritmos: regressão logística, árvore de decisão, MLP (Multilayer Perceptron), KNN (k-Nearest Neighbors), SVM (Support Vector Machines), Naive Bayes, Random Forest e XGBoost aplicados em quatro bases de dados voltadas para análise de risco de crédito. Para realizar a otimização de hiper-parâmetros, foram selecionados as técnicas: Bayesearch, Randomsearch e algoritmo genético. A divisão dos dados entre treino e teste foi realizada com a técnica de validação cruzada aninhada, sendo 10 folds para verificar o desempenho dos algoritmos e 2 folds para realizar a otimização de hiper-parâmetros. Para todos os processos, foi utilizada a métrica Curva ROC e AUC. Ao realizar os testes, o algoritmo Random Forest obteve os melhores resultados comparado aos demais algoritmos em todas as bases de dados, onde este resultado somente foi possível devido à otimização de seus hiper-parâmetros, destacando-se a técnica de otimização por algoritmo genético. Com isto, é possível concluir que a otimização de hiper-parâmetros é uma técnica extremamente válida e importantíssima ao aplicar um modelo de aprendizado de máquina no contexto de análise de risco de crédito, tendo em vista que é uma área onde uma pequena melhora no desempenho do modelo resulta em um grande aumento na assertividade de novas predições.
Abstract: The activity of credit risk analysis is very important in several sectors in which a credited product is offered. An area explored for a long time, credit risk analysis aims to accurately classify a customer as a good or bad payer, in order to do good business and avoid losses. Several techniques and methods are applied to perform credit analysis, being these traditional methods using statistical models or the use of machine learning techniques. Aiming to increasingly increase the margin of success, the use of machine learning algorithms has increasingly increased the results of analysis. However, the optimization of these algorithms can be a very important factor to obtain a better result in the predictions. With this, the present work aims to carry out an analysis of the performance of different types of algorithms applied in the context of credit risk analysis, using 3 different hyper-parameter optimization techniques. The following algorithms were selected: logistic regression, decision tree, MLP (Multilayer Perceptron), KNN(k-Nearest Neighbors), SVM (Support Vector Machines), Naive Bayes, Random Forest and XGBoost applied to four databases focused on credit risk analysis. To perform the hyper-parameter optimization, the following techniques were selected: Bayesearch, Randomsearch and genetic algorithm. Data division between training and testing was performed using the nested crossvalidation technique, with 10 folds to verify the performance of the algorithms and 2 folds to perform the hyper-parameter optimization. For all processes, the metric Curve ROC and AUC was used. When performing the tests, the algorithm Random Forest obtained the best results compared to the other algorithms in all databases, where this result was only possible due to the optimization of its hyper-parameters, highlighting the technique of optimization by genetic algorithm. With this, it is possible to conclude that hyper-parameter optimization is an extremely valid and very important technique when applying a machine learning model in the context of credit risk analysis, given that it is an area where a small improvement in performance of the model, results in a large increase in the assertiveness of new predictions.
URI: http://repositorio.utfpr.edu.br/jspui/handle/1/31719
Aparece nas coleções:DV - Ciência de Dados

Arquivos associados a este item:
Arquivo Descrição TamanhoFormato 
otimizacaohiperparametrosmachinelearnin.pdf1,69 MBAdobe PDFThumbnail
Visualizar/Abrir


Este item está licenciada sob uma Licença Creative Commons Creative Commons