Implementação do paradigma MapReduce por meio do Hadoop integrado ao framework Hive: um estudo prático

Silva, Guilherme Santiago Ribeiro; Urban, Lincoln Moro

Use este identificador para citar ou linkar para este item: http://repositorio.utfpr.edu.br/jspui/handle/1/16753

Título:	Implementação do paradigma MapReduce por meio do Hadoop integrado ao framework Hive: um estudo prático
Título(s) alternativo(s):	Implementation of the MapReduce paradigm through Hadoop integrated into the framework Hive: a practical study
Autor(es):	Silva, Guilherme Santiago Ribeiro Urban, Lincoln Moro
Orientador(es):	Bini, Tarcizio Alexandre
Palavras-chave:	Banco de dados relacionais Benchmarking (Administração) Big Data Relational databases Benchmarking (Management)
Data do documento:	24-Mai-2016
Editor:	Universidade Tecnológica Federal do Paraná
Câmpus:	Ponta Grossa
Citação:	SILVA, Guilherme Santiago Ribeiro; URBAN, Lincoln Moro. Implementação do paradigma MapReduce por meio do Hadoop integrado ao framework Hive: um estudo prático. 2016. 78 f. Trabalho de Conclusão de Curso (Graduação) - Universidade Tecnológica Federal do Paraná, Ponta Grossa, 2016.
Resumo:	Atualmente, com o avanço da tecnologia e a criação constante de novas aplicações, muitas empresas deparam-se com uma questão crucial para o segmento dos serviços de TI (Tecnologia da Informação), como por exemplo o armazenamento e manipulação de grandes volumes de dados. Empresas como o Facebook, Twitter, Google, entre outras, têm suas tecnologias e inovações pautadas sobre um novo conceito chamado Big Data. Essa nova tendência possibilitou o desenvolvimento de soluções que atendem a demanda do mercado, visto que os Sistemas Gerenciadores de Banco de Dados Relacionais, mesmo que ainda muito utilizados, deparam-se com problemas de desempenho, escalabilidade e processamento de bases de dados volumosas. Um dos conceitos mais utilizados atualmente, quando trata-se de Big Data, é o paradigma MapReduce. Este foi desenvolvido pela Google e tem seu funcionamento baseado no processamento e distribuição de dados em um conjunto de computadores (cluster), interligados por uma rede, possibilitando assim, uma maior flexibilidade na manipulação desses dados. Considerando o MapReduce um paradigma, algumas tecnologias foram criadas para implementar os seus conceitos, uma delas é o Hadoop, o qual possui módulos que realizam o gerenciamento e a distribuição de bases de dados entre diversas máquinas. O presente trabalho propõe a implementação e execução prática do paradigma MapReduce por intermédio do Hadoop em um ambiente virtualizado. Para tanto, fêz-se uso de um cenário experimental composto de tecnologias de virtualização e técnicas de benchmark, as quais simulam cargas de trabalho analíticas sobre bases de dados sintéticas. Os resultados por sua vez, apontam para a análise no tempo de execução das consultas submetidas a este cenário e também servem como base para trabalhos futuros e pesquisas relacionadas.
Abstract:	Nowadays, with the advancement of technology and the constant creation of new applications, many companies are faced with a crucial issue for the segment of the IT (Information Technology) services as a storage and handling of large volumes of data. Companies like Facebook, Twitter, Google, among others, has its technologies and innovations guided per a new concept called Big Data. This new tendency allow the development of solutions that can meet the market demand, considering that the Relational Database Management Systems, although still widely used, encounter problems with regard to performance, scalability and processing of large databases. One of the most widely used concepts nowadays, when mention the Big Data, is the MapReduce paradigm. This was developed by Google and has its operation based on the processing and distribution of data in a set of computers (cluster), interconnected over a network, thus enabling greater flexibility in handling such data. Considering the MapReduce paradigm, some technologies were created to implement their concepts, one of them is Hadoop, which has modules that perform the management and distribution of databases between multiple machines. This paper proposes the implementation and practical implementation of the MapReduce paradigm through the Hadoop in a virtualized environment. Therefore was used an experimental environment, compound per virtualization technologies and benchmark techniques, which simulate analytical workloads on synthetic databases. The results in turn, point to the analysis in the time of execution of the queries submitted to this environment and also serve as a base for future work and related searches.
URI:	http://repositorio.utfpr.edu.br/jspui/handle/1/16753
Aparece nas coleções:	PG - Tecnologia em Análise e Desenvolvimento de Sistemas

Arquivos associados a este item:

Arquivo	Descrição	Tamanho	Formato
PG_COADS_2016_1_02.pdf		1,6 MB	Adobe PDF	Visualizar/Abrir

Mostrar registro completo do item Recomendar este item Visualizar estatísticas