大数据文件存储系统HDFS

现在随着企业规模的发展,对于数据存储的要求越来越大,单机存储性能已经成为存储的瓶颈,在这里我们就需要引入分布式存储,通过水平扩展的方式进行容量的扩展,并且提高数据的一致性,安全性,可靠性等关系。

大数据也是发展的前景之一,越来越多的开发者开始进入大数据领域,并且很多企业开始关注,逐步发展自己的大数据业务,数据的重要性不言而喻,那么我们应该怎么进行数据保存,扩展呢?这正是分布式文件系统需要解决的问题。

我们今天所要说的重点是大数据存储的王者HDFS存储系统。

HDFS

什么是HDFS呢?官网是这样解答的,是一种分布式文件系统,设计用于在商用硬件上商用,管理数以千计的服务器,数以万计的磁盘,将大规模的服务器资源当做一个单一的出承诺函系统进行管理,操作大批量数据就像使用普通文件系统一样。

简单理解其架构

架构图,摘自极客时间

HDFS是经典的主从架构,当然为了保证高可用,HDFS也提供了高可用的方案,在3.0版本以上更加提供了多个主节点用来帮助提高系统的可用性。

在其设计理念上,有两个主要的关键组件NameNode与DataNode.简单来说NameNode负责保存一些元数据信息,DataNode负责数据的读取与写入,但是真的只是这么简单吗?

我们从Linux的文件系统就可以看出,文件系统是有目录项,索引节点,逻辑块,超级块四大元素构成。同样的HDFS文件系统也有类似的管理操作。

NameNode

NameNode 究竟负责什么呢?我们今天就来看一下。

在3.0版本以前,NameNode是只存在两个节点的,一个Active节点,一个Standby节点。在3.0以后就可以支持2个以上的NameNode节点了,高可用性得到了提高。

责任

  1. NameNode(Active状态)
  • 整个分布式文件系统的元数据(元数据)管理。元数据包括文件的名字,副本数,存储的block-id(HDFS中使用block作为存储单元,block-id包含了哪个DataNode节点)信息。
  • 接受客户端的读写请求。告知客户端读取的信息去哪里读取,写入数据要写入到哪个机器
  • 启动的时候加载元数据到内存中。内存中存储的是 fsimage(元数据镜像文件,类似于文件系统的目录树)+edits(元数据的操作日志,针对文件系统做的修改操作记录)。我们如果系统出现错误的格式化,当另外节点数据好保存着可以进行数据的恢复。
  • 通过心跳的方式与DataNode进行存活的通信。
  • 数据备份告知。
  1. SecondryNameNode的工作
  • 默认1小时定期合并Active NameNode 下的fsimage与edits,避免edit log过大。是通过创建检查点checkpoint来实现的。
  • 合并完毕后,在发送给Active NameNode ,可以说不算是Active 的备份节点。
  1. HDFS的Federation
    这个是用来扩展单机NameNode 水平扩展的问题的,管理多个命名空间,降低单机操作的读写的压力。

DataNode

DadaNode 主要是数据的读取,写入,存储,冗余等内容。

  • 硬盘故障容错,检测到本地硬盘出现故障,会将其所存储的BlockID内容报告给NameNode,NameNode进行调度按照其他服务器进行备份处理。
  • 存储数据块Block
  • 启动线程与NameNode进行通信,汇报其存储的BlockID信息
  • 保持3秒的心跳链接,超过一定时间认为数据节点丢失。
  • Block的放置策略如下(机架的问题下次再说):
    1. 第一个副本,放置在本机上,如果是集群外提交的,随机选择不太忙的节点存储。有就近的原则
    2. 第二个副本,放置在与第一个副本不同机架上的节点上。
    3. 第三个副本,放置在与第二副本相同机架上的相邻节点上。
    4. 更多副本随机放置。

数据的读取与写入

读取文件流程

读文件
  1. 我们程序是作为客户端的存在,根据api进行操作
  2. 然后访问Namenode,传输给需要读取的文件
  3. Namenode 查看需要的元数据信息,包含路径所存在block-id信息,还有datanode信息。
  4. 根据返回的block-id进行(就近原则)读取,具有先后顺序。
  5. 每读取取完一个block后,会接着读取下一个block块
  6. 注意 4和5的流程是并行处理的。客户端刚开始就并行的读取多个block块的数据,单位是packet为单位接收,本地缓存。
  7. 下载完毕后,在进行组装,根据block追加成为文件,完整的数据就完成下载了。

写文件流程

写文件
  1. 客户端 创建好需要的api操作。
  2. 打开与nameNode的链接,检查目标文件是否存在,目录内容是否存在等信息.
  3. namenode返回可以上传的信息包含要上传的位置datanode 节点信息等。
  4. 客户端请求就近的节点开始上传数据,按照packet为单位,后面备份的节点数据是通过异步调用的通道放大建立管道传输数据。本质上上传了一个节点,其他节点是通过复制传输完成的。
  5. 当第一个block写完之后,客户端再次请求namenode上传第二个block的服务器。重复以上步骤。
  6. 写入也是并发的写入。
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 158,847评论 4 362
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 67,208评论 1 292
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 108,587评论 0 243
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 43,942评论 0 205
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 52,332评论 3 287
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 40,587评论 1 218
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 31,853评论 2 312
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 30,568评论 0 198
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 34,273评论 1 242
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 30,542评论 2 246
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 32,033评论 1 260
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 28,373评论 2 253
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 33,031评论 3 236
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 26,073评论 0 8
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 26,830评论 0 195
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 35,628评论 2 274
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 35,537评论 2 269

推荐阅读更多精彩内容