Hadoop-MapReduce

概述

  • 进行大量数据处理时,用MapReduce进行分布式计算,这样可大量减少计算时间

MapReduce技术简单介绍

image.png
  • Map将任务分割成更小任务,由每台服务器分别执行
  • Reduce将所有服务器返回的结果汇总,整理成最终结果

MapReduce 2.0 - YARN

  • Hoodop的MapReduce架构称为YARN(另一种资源协助者),是效率更高的资源管理器核心
image.png
  • Client客户端,用户向Resource Manage请求执行运算
  • 在NameNode会有Resource Manage统筹管理运算请求
  • 在其他的DateNode会有 Node Manager负责运行,监督每个任务运行情况,并向Resource Manage 汇报状态

MapReduce 的计算框架

image.png
  • Hadoop MapReduce 在运算时需要将中间产生的数据放在硬盘,然而磁盘的I/O是性能的瓶颈,所以会有数据延迟问题
  • 推荐使用Spark,它是基于内存的计算框架

推荐阅读更多精彩内容