Hadoop 面试总结

Hadoop 架构

Hadoop组成部分

  1. HDFS
    管理者:namenode
    工作者:DataNode
    辅助管理者:secondaryNameNode
  2. MapReduce
  3. YARN
    管理者:ResourceManage
    工作者:NodeManage

Hadoop 运行机制

MapReduce 详解

运行原理

  1. 在客户端执行submit()方法之前,会先去获取一下待读取文件的信息
  2. job提交给yarn,这时候会带着三个信息过去(job.split(文件的切片信息),jar.job.xml)
  3. yarn会根据文件的切片信息去计算将要启动的maptask的数量,然后去启动maptask
  4. maptask会调用InPutFormat()方法区HDFS上面读取文件,InPutFormat()方法会再去调用RecordRead()方法,将数据以行首字母的偏移量为key,一行数据为value传给mapper()方法
  5. mapper方法做一些逻辑处理后,将数据传到分区方法中,对数据进行一个分区标注后,发送到环形缓冲区中
  6. 环形缓冲区默认的大小是100M,达到80%的阈值将会溢写
  7. 在溢写之前会做一个排序的动作,排序的规则是按照key进行字典序排序,排序的手段是快排
  8. 溢写会产生出大量的溢写文件,会再次调用merge()方法,使用归并排序,默认10个溢写文件合并成一个大文件,
  9. 也可以对溢写文件做一次localReduce也就是combiner的操作,但前提是combiner的结果不能对最终的结果有影响
  10. 等待所有的maptask结束之后,会启动一定数量的reduce task
  11. reduce task会发取拉取线程到map端拉取数据,拉取到的数据会先加载到内存中,内存不够会写到磁盘里,等待所有的数据拉取完毕,会将这些输出在进行一次归并排序
  12. 归并后的文件会再次进行一次分组的操作,然后将数据以组为单位发送到reduce()方法
  13. reduce方法做一些逻辑判断后,最终调用OutputFormat()方法,Outputformat()会再去调用RecordWrite()方法将数据以KV的形式写出到HDFS

环形缓冲区的作用以及数据结构

map task 数量受什么影响

  1. 输入文件大小,需注意 hdfs是块存储,如果hdfs迷人设置的是 128M块大小,一个文件是 200M,那么将会占用两个块,maptask就是 2个
  2. 文件数量 ,不同的文件,也会新启动一个maptask

简述 MapReduce 中的 shuffle

Map 端shuffle

文件split 之后,经过 mapper处理后,加上分区标记,存入环形缓冲区,达到阈值后会落入磁盘,由环形缓冲区写入磁盘时是根据 key 排序的,使用的是快速排序

Map 和 Reduce 中间的 shuffle

此时Map阶段产生了一些小文件,此时需要将小文件合并起来,使用归并排序

Reduce端 shuffle

recuce 端会启动 reduce task 去拉取数据,注意这里是拉取数据,拉取过来的也是多个文件,需要做一个归并排序,并根据key做好分组

此处补充两种排序方法的代码

快速排序

#!/usr/bin/env python
# _*_ coding: utf-8 _*_
# @Time : 2020/2/29 上午10:20 
# @Author : lixinsong 
# @File : quick_sort.py
# @desc :


def quick_sort(alist, start, end):
    """快速排序"""
    if start >= end:  
        return
    mid = alist[start]  
    low = start  
    high = end  
    while low < high:
        while low < high and alist[high] >= mid:
            high -= 1
        alist[low] = alist[high]  
        while low < high and alist[low] < mid:
            low += 1
        alist[high] = alist[low]  
   
    alist[low] = mid  
    
    quick_sort(alist, start, low - 1) 
  
    quick_sort(alist, low + 1, end)  



if __name__ == '__main__':
    a = [2, 1, 4, 8, 2]
    quick_sort(a, 0, len(a)-1)
    print(a)

归并排序

def merge(a, b):
    c = []
    h = j = 0
    while j < len(a) and h < len(b):
        if a[j] < b[h]:
            c.append(a[j])
            j += 1
        else:
            c.append(b[h])
            h += 1

    if j == len(a):
        for i in b[h:]:
            c.append(i)
    else:
        for i in a[j:]:
            c.append(i)

    return c


def merge_sort(lists):
    if len(lists) <= 1:
        return lists
    middle = len(lists)/2
    left = merge_sort(lists[:middle])
    right = merge_sort(lists[middle:])
    return merge(left, right)


if __name__ == '__main__':
    a = [4, 7, 8, 3, 5, 9]
    print merge_sort(a)

集群存储

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 158,425评论 4 361
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 67,058评论 1 291
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 108,186评论 0 243
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 43,848评论 0 204
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 52,249评论 3 286
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 40,554评论 1 216
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 31,830评论 2 312
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 30,536评论 0 197
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 34,239评论 1 241
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 30,505评论 2 244
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 32,004评论 1 258
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 28,346评论 2 253
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 32,999评论 3 235
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 26,060评论 0 8
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 26,821评论 0 194
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 35,574评论 2 271
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 35,480评论 2 267

推荐阅读更多精彩内容

  • 一.Hadoop 1.hdfs写流程 2.hdfs读流程 3.hdfs的体系结构 4.一个datanode 宕机,...
    qydong阅读 2,222评论 0 0
  • 1 MapReduce 概述 MapReduce 是一个分布式运算程序的编程框架,是用户开发基于 Hadoop 的...
    djm猿阅读 405评论 0 0
  • 11. mapreduce 的 shuffle 调优参数 具体参考:MapReduce Shuffle性能调优 M...
    Java旅行者阅读 1,136评论 0 2
  • 这里讲的hadoop1.0版本主要还是学习mr思想大家都知道,当我们需要编写一个简单的MapReduce作业时,只...
    tracy_668阅读 1,166评论 0 2
  • MapReduce 思想:分而治之 Map(分):在分的阶段,我们只需要提供Map阶段的逻辑就好,不需要关心原始数...
    奋斗的蛐蛐阅读 383评论 0 3