记录一下MapReduce

角色:Master & Worker( Master/Reducer )
以统计词频为例,M 表示输入的数据量,N表示输出的数据量,P表示Mapper个数,R表示Reducer个数
M=10000000:1000万个文档
N=3000:输出3000类,统计3000个单词各出现了多少次
P=10000:有10000个Mapper,则每个Mapper分析1000个文档,将特定单词的数据结果传给特定的R,如:

{'today': 371} 传给负责统计 'today' 这个单词的Reducer,
{'many': 5214} 传给负责统计 'many' 这个单词的Reducer

R=100:有100个Reducer汇总,则每个Reducer要汇总30个单词的信息,会收到来自10000个Mapper的数据,如:

来自M1的中间数据 {'today': 371},M2的中间数据{'today': 586} 等等,然后汇总M1~M1000的数据,输出today的总数


推荐阅读更多精彩内容