Use este identificador para citar ou linkar para este item:
http://repositorio.utfpr.edu.br/jspui/handle/1/31690
Título: | Técnicas otimizadas de mineração de dados com Hadoop |
Título(s) alternativo(s): | Optimized data mining techniques with Hadoop |
Autor(es): | Silva, Felipe Bianchi da |
Orientador(es): | Pola, Ives Renê Venturini |
Palavras-chave: | Computação em nuvem Mineração de dados (Computação) Big data Cloud computing Data mining |
Data do documento: | 22-Jun-2023 |
Editor: | Universidade Tecnológica Federal do Paraná |
Câmpus: | Pato Branco |
Citação: | SILVA, Felipe Bianchi da. Técnicas otimizadas de mineração de dados com Hadoop. 2023. Trabalho de Conclusão de Curso (Bacharelado em Engenharia de Computação) - Universidade Tecnológica Federal do Paraná, Pato Branco, 2023. |
Resumo: | Na atualidade é indiscutível que os dados estão aumentando de forma exponencial e são provenientes das mais diversas fontes, esta expansão acarreta a criação de uma massa de dados complexos. Essa massa de dados é denominada Big Data e atrelado a esse conceito existe a necessidade da criação de uma arquitetura de dados que suporte a extração de informações em um grande e variável volume de dados e ainda que faça a transformação desses dados em informações relevantes para os mais variáveis seguimentos, de forma rápida. Essa nova realidade exige novos meios para acompanhar a complexidade dos dados, dentre estas está a computação paralela e distribuída que utiliza um aglomerado de computadores. Entretanto esta forma de computação exige do usuário conhecimento especifico e neste contexto surgiu o Apache Hadoop com a finalidade de resolver os problemas da computação distribuída, através da aplicação de um único arcabouço de código aberto buscando isolar o programador que trabalha com grandes quantidades de dados da necessidade de tratar os problemas tradicionais da computação distribuída. O objetivo deste trabalho é aplicar técnicas de mineração de dados em cluster em conjunto com técnicas de particionamento no arcabouço Hadoop e verificar a acurácia dos dados e tempo de execução de obtidos com esta técnica em comparação a utilização de um único computador, na busca de demonstrar a eficácia do Hadoop em armazenar e tratar esses dados, que estão na proporção de petabytes diariamente, e a sua capacidade de diminuir custos de sistemas de armazenamento e crescimento da capacidade de processamento. |
Abstract: | Nowadays it is indisputable that the data is increasing exponentially and comes from the most diverse sources, this expansion leads to the creation of a mass of complex data. This mass of data is called Big Data and, linked to this concept, there is a need to create a data architecture that supports the extraction of information in a large and variable volume of data and even that makes the transformation of this data into information relevant to the more variable segments, quickly. This new reality requires computing new ways to keep up with the complexity of the data, among which is parallel and distributed computing, which uses a cluster of computers. However, this form of computation requires a specific knowledge from the user and in this context the Apache Hadoop appeared in order to solve the problems of distributed computing, through the application of a single open source framework seeking to isolate the programmer who works with large amounts of data from the need to address the traditional problems of distributed computing. The objective of this work is to apply data mining techniques in cluster together with partitioning techniques in the Hadoop framework and to verify the accuracy of the data and execution time obtained with this technique in comparison to the use of a single computer, in an attempt to demonstrate the effectiveness of Hadoop in storing and processing this data, which is in the proportion of petabytes daily, and its ability to reduce storage system costs and increase processing capacity. |
URI: | http://repositorio.utfpr.edu.br/jspui/handle/1/31690 |
Aparece nas coleções: | PB - Engenharia de Computação |
Arquivos associados a este item:
Arquivo | Descrição | Tamanho | Formato | |
---|---|---|---|---|
tecnicasotimizadasmineracao.pdf | 520,68 kB | Adobe PDF | Visualizar/Abrir |
Este item está licenciada sob uma Licença Creative Commons