spark streaming框架简介

1. spark steaming概述

在《spark 基础（上篇）》中，spark streaming是spark体系中的一个流式处理框架。因此，Spark streaming相对于其他流式处理框架就更有优势，用途更加广泛，它能够与spark sql、机器学习以及图像处理框架无缝连接。spark streaming还能够从多种数据源获得数据，同时，能够输出到多种不同的数据平台中，包括文件系统、数据库和实时数据展示平台dashboards。spark streaming的流处理框架如下图1所示：

图1 spark streaming的流处理框架

　　详细的处理流程如下图2所示，spark streaming接收实时数据流输入的数据流后，再将其划分为一个个batch（小批次数据流）供后续Spark engine处理，所以实际上，Spark Streaming是按一个个batch（小批次）来处理数据流的。

图2 spark streaming数据处理流程

　　说到spark streaming就不得不提Dstream，Dstream是spark中继spark core的RDD、spark sql的DataFrame和DataSet后有一基础的数据类型，是spark streaming特有的数据类型。DStream代表了一系列连续的RDD，DStream中每个RDD包含特定时间间隔的数据，存储方式为HashMap<Time,RDD>。其中，Time为时间序列，而RDD我们都很熟悉，它是spark core的基础数据结构。Dstream的结构如下图3所示：

图3 Dstream结构

　　对连续不断的streaming data流的多次切片，就会将流分成多个batch，单个batch内有一套针对多个Dstream的处理逻辑，每个batch的处理逻辑相同。这个处理逻辑相当于spark core对RDD的处理逻辑。针对RDD的处理中，DAGScheduler将DAGGraph按照宽窄依赖划分stage。每个batch内部也存在DstreamGraph，对Dstream的处理也类似于对RDD的处理。例如下图4所示，针对一段代码，在单个batch内部也会生成DstreamGraph和Dstream依赖。

图4 单个bath内部处理流程

　　针对一个spark streaming的处理流中的多个batch，处理逻辑如下图5所示。图中用虚线将左侧的streaming data流分成三个batch，每个batch的处理逻辑如右侧所示。

图5 streaming流批量处理流程

2. spark streaming工作原理

根据如上图5分析可知，spark streaming的大致工作流程如下：
　　首先，需要一个DAG的静态模板来定义batch内的执行逻辑。
　　其次，如上图2所示，针对实时的数据流来说，还需要有控制器，不间断地将数据流分成多个batch，同时在每个batch内部应用DAG静态模板执行处理逻辑。
　　再次，要生成DStream，并不能像一般的数据源那样从存储介质中去读取，而是要从多种数据推送过来的数据，包括kafka、flume以及twitter等等。
　　最后，由于流式处理要不断地循环执行，保障任务的稳定性就显得尤其重要了。
　　因此，针对上述四种需要，spark streaming的整体执行流程就是围绕上述四个需求而设置的，其总体工作流程如下图6所示。如图中脚注，橙色部分显示DAG的静态定义部分，淡蓝色为控制器部分，负责流的拆分，同时执行橙色部分定义的静态模板。绿色部分显示了driver和executor的数据接收部分，最后的紫色部分，显示了spark streaming中很重要的稳定性保障功能，即checkpoint。

图６ spark streaming工作原理图

下面我们来简要介绍下每一部分的主要职责：
　　第一部分：如上图4和图5所示的步骤生成DstreamGraph和Dstream。
　　第二部分：JobScheduler是主要的控制器，负责动态任务的调度，包括JobGenerator和ReceiveTracker两个主要的成员。其中，JobGenerator主要负责将data streaming流按照程序中设置的时间间隔切分成多个batch，并按照静态的DstreamGraph为以后的每一个batch生成DstreamGraph。而ReceiveTracker则负责数据流的接收跟踪和控制，具体的实现见第三部分。
　　第三部分：RecevieTracker启动多个job，并分发到多个executor上。Executor启动ReceiverSupervisor，ReceiverSupervisor启动Receiver来接收数据，ReceiverSupervisor接到数据后，按块的形式存储，并将块的meta信息上报给ReceiverTracker。
　　第四部分：ReceiverTracker接收到块的meta信息后交给ReceivedBlockTracker去管理块信息。ReceivedBlockTracker 也采用 WAL 冷备方式进行备份，在 driver 失效后，由新的 ReceivedBlockTracker 读取 WAL 并恢复 block 的 meta 信息。
第四部分：这部分主要是处于稳定性的考虑，设置的checkpoint机制。因此，checkpoint需要将整个处理流程中的关键节点都做checkpoint，包括DstreamGraph，JobScheduler，数据块的meta信息以及块数据。

3. 与storm流处理框架对比

spark作为Apache spark开源框架的一部分，与当前流程的storm开源框架相比，主要存在以下差别：
1.处理时效
　　spark streaming处理的数据单位是某个时间窗口内的数据流，而storm是针对单条记录处理的。因此,spark streaming可能存在几秒钟的延迟，而storm的延迟能缩短到秒内。
2.容错机制
　　spark streaming有较好的容错机制，当单个节点发生故障后，它可以跟踪每批被处理的数据流，保证每批数据只被处理一次。storm则只能保证单条数据处理不会被遗漏，而却允许数据有重复被处理的现象。
3.运行平台
　　spark streaming和storm都可以运行在自己的集群上，spark streaming能同时运行在Yarn和Mesos集群上，而storm只能运行在Mesos上。

最后编辑于：2017.12.06 05:46:57

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 161,873评论 4赞 370
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 68,483评论 1赞 306
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 111,525评论 0赞 254
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 44,595评论 0赞 218
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 53,018评论 3赞 295
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 40,958评论 1赞 224
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 32,118评论 2赞 317
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 30,873评论 0赞 208
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 34,643评论 1赞 250
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 30,813评论 2赞 253
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 32,293评论 1赞 265
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 28,615评论 3赞 262
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 33,306评论 3赞 242
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 26,170评论 0赞 8
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 26,968评论 0赞 201
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 36,107评论 2赞 285
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 35,894评论 2赞 278

spark streaming框架简介

1. spark steaming概述

2. spark streaming工作原理

3. 与storm流处理框架对比

推荐阅读更多精彩内容