Hadoop分布式计算架构流程分析-Hadoop商业环境实战

版权声明:本套技术专栏是作者(秦凯新)平时工作的总结和升华,通过从真实商业环境抽取案例进行总结和分享,并给出商业应用的调优建议和集群环境容量规划等内容,请持续关注本套博客。版权声明:禁止转载,欢迎学习。

1. Hadoop分布式计算架构流程分析

  • 1)在MapReduce程序读取文件的输入目录上存放相应的文件。
  • 2)客户端程序在submit()方法执行前,获取待处理的数据信息,然后根据集群中参数的配置形成一个任务分配规划。
  • 3)客户端提交job.split、jar包、job.xml等文件给yarn,yarn中的resourcemanager启动MRAppMaster。
  • 4)MRAppMaster启动后根据本次job的描述信息,计算出需要的maptask实例数量,然后向集群申请机器启动相应数量的maptask进程。
  • 5)maptask利用客户指定的inputformat来读取数据,形成输入KV对。
  • 6)maptask将输入KV对传递给客户定义的map()方法,做逻辑运算
  • 7)map()运算完毕后将KV对序列化后写到环形缓冲区,环形缓冲区默认是100M,写满80%后,会根据Hash(结合Reduce Task 的数量,不会超过Reduce Task的数量)溢写,溢写过程中使缓存中的KV对按照K分区排序后不断写到磁盘文件从而形成不同的分区,若设置了本地聚合,则会合并Combiner多个溢写文件为一个。
  • 9)MRAppMaster监控到所有maptask进程任务完成之后,会根据客户指定的参数启动相应数- 量的reducetask进程,并告知reducetask进程要处理的数据分区。
  • 10)Reducetask进程启动之后,根据MRAppMaster告知的待处理数据所在位置,从若干台maptask运行所在机器上获取到若干个maptask输出结果文件,并在本地进行重新归并排序,然后按照相同key的KV为一个组,调用客户定义的reduce()方法进行逻辑运算。
  • 11)Reducetask运算完毕后,调用客户指定的outputformat将结果数据输出到外部存储。

2. Hadoop分布式计算流程图

  • 1)分布式的运算程序往往需要分成至少2个阶段。
  • 2)第一个阶段的maptask并发实例,完全并行运行,互不相干。
  • 3)第二个阶段的reduce task并发实例互不相干,但是他们的数据依赖于上一个阶段的所有maptask并发实例的输出。
  • 4)MapReduce编程模型只能包含一个map阶段和一个reduce阶段,如果用户的业务逻辑非常复杂,那就只能多个mapreduce程序,串行运行。
    如下图展示了这个MapReduce过程:


    image
image

3 总结

秦凯新 于深圳

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 158,736评论 4 362
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 67,167评论 1 291
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 108,442评论 0 243
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 43,902评论 0 204
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 52,302评论 3 287
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 40,573评论 1 216
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 31,847评论 2 312
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 30,562评论 0 197
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 34,260评论 1 241
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 30,531评论 2 245
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 32,021评论 1 258
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 28,367评论 2 253
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 33,016评论 3 235
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 26,068评论 0 8
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 26,827评论 0 194
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 35,610评论 2 274
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 35,514评论 2 269

推荐阅读更多精彩内容

  • 团队共识共创营第一期 第一期作业 一. 我是我自己。 我是采油院一名员工 我是爸爸妈妈的二女儿。 我是公公婆婆的儿...
    放飞自我1阅读 110评论 0 0
  • 声明:本人也是菜鸟一只,写的不好的地方,大佬们指点指点。 Jonathon's Blog用代码一路奋战。 新搭建了...
    自律更自由阅读 1,041评论 0 7
  • 0x01 安装 0x02 使用 对于mysql数据库: 其他使用方式
    Hf1dw阅读 365评论 0 0
  • 2016年9月5日 因为昨晚回京太晚,今天睡起来就加快联系后沟通会员,约见朋友。 虽然好几个人不回复微信,答应办会...
    徐晓美阅读 287评论 0 0
  • 3 战成钊狂奔间四下辨识道路,还时不时的回头看看追来的四海杀盟的杀手,几个呼吸间就奔出了上百米,来到了一扇门前...
    谷战阅读 194评论 0 1