Use este identificador para citar ou linkar para este item:
http://repositorio.utfpr.edu.br/jspui/handle/1/35499
Título: | Processo de desenvolvimento de uma feature store a partir de dados de web scraping |
Título(s) alternativo(s): | Feature store development process |
Autor(es): | Silva, Pedro Augutos de Lima e |
Orientador(es): | Gritti, Marcos Cesar |
Palavras-chave: | Sistemas de coleta automática de dados Mineração de dados (Computação) Armazenamento de dados Processamento eletrônico de dados Python (Linguagem de programação de computador) Estruturas de dados (Computação) Automatic data collection systems Data mining Data Warehousing Electronic data processing Python (Computer program language) Data structures (Computer science) |
Data do documento: | 14-Mar-2023 |
Editor: | Universidade Tecnológica Federal do Paraná |
Câmpus: | Curitiba |
Citação: | SILVA, Pedro Augusto de Lima e. Processo de desenvolvimento de uma feature store a partir de dados de web scraping. 2022. Trabalho de Conclusão de Curso de Especialização (Ciência de Dados e suas Aplicações) - Universidade Tecnológica Federal do Paraná, Curitiba, 2022. |
Resumo: | Com o crescimento da indústria de jogos eletrônicos e a dependência de dados para as tomadas de decisões, o trabalho busca apresentar um processo transformação dos dados até estar significativamente estruturado e pronto para a análise ou para ser consumido por um modelo de machine learning. Como exemplo, vamos utilizar dados de eventos de partidas de campeonatos de Counter Strike. Esse processo é composto por uma etapa de web scraping, onde foi necessário desenvolver um script em Python para padronizar o processo, e outra etapa de transformação dos dados utilizando o motor de processamento Spark, uma vez que a quantidade de dados extraídos foi consideravelmente grande. O resultado é uma feature store, onde é um conjunto de dados sobre as estatísticas dos jogadores profissionais em campeonatos com premiações acima de 100 mil dólares. |
Abstract: | With the growth of the electronic games industry and the dependence on data for decision making, the work seeks to present a data transformation process until it is significantly safe and ready for analysis or to be acquired by an machine model learning . As an example, let’s use event data from Counter Strike championship matches. This process consists of an web scraping step, where it was necessary to develop an script in Python to standardize the process, and another data transformation step using the Spark processing engine, since the amount of extracted data was considerably large. The result is an feature store, which is a set of data about the statistics of professional players in championships with prizes above 100 thousand dollars. |
URI: | http://repositorio.utfpr.edu.br/jspui/handle/1/35499 |
Aparece nas coleções: | CT - Ciência de Dados e suas Aplicações |
Arquivos associados a este item:
Arquivo | Descrição | Tamanho | Formato | |
---|---|---|---|---|
CT_CCDA_2020_1_09.pdf | 899,25 kB | Adobe PDF | Visualizar/Abrir |
Os itens no repositório estão protegidos por copyright, com todos os direitos reservados, salvo quando é indicado o contrário.