Use este identificador para citar ou linkar para este item: http://repositorio.utfpr.edu.br/jspui/handle/1/36064
Título: Aprimorando o desempenho da rede através da agregação de links em um ambiente de cluster Spark
Título(s) alternativo(s): Improving network performance through link aggregation in a Spark cluster environment
Autor(es): Barros, Vinicius Cerqueira
Orientador(es): Rista, Luís Cassiano Goularte
Palavras-chave: Big data
Mineração de dados (Computação)
Algorítmos computacionais
Processamento eletrônico de dados - Processamento distribuído
Data mining
Computer algorithms
Electronic data processing - Distributed processing
Data do documento: 12-Fev-2025
Editor: Universidade Tecnológica Federal do Paraná
Câmpus: Pato Branco
Citação: BARROS, Vinicius Cerqueira. Aprimorando o desempenho da rede através da agregação de links em um ambiente de cluster Spark. 2025. Trabalho de Conclusão de Curso (Bacharelado em Engenharia de Computação) - Universidade Tecnológica Federal do Paraná, Pato Branco, 2025.
Resumo: A comunicação entre nós em clusters de processamento distribuído pode representar um gargalo significativo na execução de cargas de trabalho em larga escala. Este trabalho investiga a aplicação do protocolo Multipath TCP (MPTCP) para otimizar a comunicação em clusters Apache Spark, explorando múltiplos caminhos de rede para aumentar a taxa de transferência e reduzir a latência. Além disso, foi analisado o impacto do MPTCP na execução do algoritmo FPGrowth para mineração de padrões frequentes em grandes volumes de dados. A abordagem proposta envolve experimentos comparativos entre o TCP convencional e o MPTCP, avaliando métricas como taxa de transferência, latência e tempo de execução. Os resultados demonstram que a integração do MPTCP ao Apache Spark pode melhorar significativamente a eficiência da comunicação entre os nós do cluster, reduzindo gargalos e otimizando o desempenho do processamento distribuído.
Abstract: Communication among nodes in distributed processing clusters can become a significant bottleneck when executing large-scale workloads. This study investigates the application of the Multipath TCP (MPTCP) protocol to optimize communication in Apache Spark clusters, leveraging multiple network paths to increase data transfer rates and reduce latency. Furthermore, the impact of MPTCP has been analyzed on the execution of the FP-Growth algorithm for frequent pattern mining in large datasets. The proposed approach involves comparative experiments between conventional TCP and MPTCP, evaluating metrics such as data transfer rate, latency, and execution time. The results demonstrate that integrating MPTCP into Apache Spark can significantly enhance communication efficiency between cluster nodes, reducing bottlenecks and optimizing distributed processing performance.
URI: http://repositorio.utfpr.edu.br/jspui/handle/1/36064
Aparece nas coleções:PB - Engenharia de Computação

Arquivos associados a este item:
Arquivo Descrição TamanhoFormato 
aprimorandoredeambientespark.pdf653,03 kBAdobe PDFVisualizar/Abrir


Este item está licenciada sob uma Licença Creative Commons Creative Commons