Use este identificador para citar ou linkar para este item:
http://repositorio.utfpr.edu.br/jspui/handle/1/32397
Título: | Modelos de aprendizado de máquina para previsão do preço do óleo diesel na região sudeste do Brasil |
Título(s) alternativo(s): | Machine learning models for diesel oil price prediction in southeastern Brazil |
Autor(es): | Turqueti, Henrique Marques |
Orientador(es): | Mantovani, Rafael Gomes |
Palavras-chave: | Diesel Preços - Determinação Aprendizado do computador Diesel fuels Basing-point system Machine learning |
Data do documento: | 9-Nov-2022 |
Editor: | Universidade Tecnológica Federal do Paraná |
Câmpus: | Dois Vizinhos |
Citação: | TURQUETI, Henrique Marques. Modelos de aprendizado de máquina para previsão do preço do óleo diesel na região sudeste do Brasil. 2022. Monografia (Especialização em Ciência de Dados) – Universidade Tecnológica Federal do Paraná, Dois Vizinhos, 2022. |
Resumo: | Diversos fenômenos quantitativos de interesse econômico variam ao longo do tempo, podendo ser representados por meio de séries temporais, como no caso da variação de preços de ações, combustíveis e criptomoedas. Na ciência de dados, é comumente utilizado como técnica para prever seus valores futuros as redes neurais recorrentes, como aquelas com células LSTM (Long Short Term Memory), e outros modelos estatísticos clássicos, como ARIMA (Autoregressive Integrated Moving Average). Dessa forma, o presente trabalho propõe uma análise exploratória prévia do histórico de preços de combustíveis divulgada pelo governo agrupadas por região administrativa, semana e tipo de combustível. A análise exploratória mostra que o óleo diesel possui uma distribuição de preços semelhante nas cinco diferentes regiões e com uma menor volatilidade do que os demais combustíveis. Além disso, ele é responsável por quase metade do volume vendido no ano de 2021. Por ser a região com maior quantidade vendida nesse mesmo ano, o sudeste foi escolhido para ter os dados utilizados no treinamento e validação dos modelos preditivos. Após a escolha do ARIMA como algoritmo base dos modelos clássicos de aprendizado de máquina, ele foi otimizado com e sem variáveis exógenas (preço do barril de petróleo Brent e cotação do dólar em reais), mas apresentou previsões lineares e não condizentes com a volatilidade do histórico de preços. Já o modelo de LSTM otimizado por meio de busca aleatória de parâmetros com validação cruzada obteve erros em um período de teste de 8 semanas iguais a MSE = 0,2908, RMSE = 0,5393 e MAE = 0,4568. Apesar de eles serem superiores aos do ARIMA (MSE = 0,1570, RMSE = 0,3962 e MAE = 0,3527), o modelo de redes neurais recorrentes com LSTM se adaptou à dinâmica de preços, fornecendo resultados em sequências não-lineares, o que condiz com o problema estudado. |
Abstract: | Several quantitative phenomena of economic interest vary over time, and can be represented through time series, as in the case of changes in the price of stocks, fuels and cryptocurrencies. In data science, recurrent neural networks, such as those with LSTM cells, and other classical statistical models, such as ARIMA, are commonly used as a technique to predict their future values. In this way, the present work proposes a preliminary exploratory analysis of the history of fuel prices published by the government grouped by administrative region, week, and type of fuel. The exploratory analysis shows that diesel oil has a similar price distribution in the five different regions and with lower volatility than other fuels. In addition, it is responsible for almost half of the volume sold in 2021. As it is the region with the highest volume sold in that same year, the Southeast was chosen to have the data used in the training and validation of predictive models. After choosing ARIMA as the base algorithm of classical machine learning models, it was optimized with and without exogenous variables (Brent barrel price of oil and dollar exchange rate in reais) but presented linear predictions and not consistent with the volatility of the price history. The LSTM model optimized through random parameter search with cross-validation had errors in an 8-week test period equal to MSE = 0.2908, RMSE = 0.5393 and MAE = 0.4568. Although they are superior to those of ARIMA (MSE = 0.1570, RMSE = 0.3962 and MAE = 0.3527), the recurrent neural networks model with LSTM adapted to the price dynamics, providing results in non-linear sequences, which is consistent with the problem studied. |
URI: | http://repositorio.utfpr.edu.br/jspui/handle/1/32397 |
Aparece nas coleções: | DV - Ciência de Dados |
Arquivos associados a este item:
Arquivo | Descrição | Tamanho | Formato | |
---|---|---|---|---|
aprendizadomaquinaprevisaopreco.pdf | 4,74 MB | Adobe PDF | Visualizar/Abrir |
Este item está licenciada sob uma Licença Creative Commons