Spark Streaming和Kafka集成深入浅出

写在前面

本文主要介绍Spark Streaming基本概念、kafka集成、Offset管理

本文主要介绍Spark Streaming基本概念、kafka集成、Offset管理

一、概述

Spark Streaming顾名思义是spark的流式处理框架，是面向海量数据实现高吞吐量、高可用的分布式实时计算。关于spark的安装可以参考Spark入门。Spark Streaming并非像Storm那样是真正的流式计算，两者的处理模型在根本上有很大不同：Storm每次处理一条消息，更多详细信息可参考JStorm基本概念介绍；而spark streaming每次处理的是一个时间窗口的数据流，类似于在一个短暂的时间间隔里处理一批数据。

spark streaming实时接收输入数据流，并根据时间将数据流分成连续的多个batch，然后由Spark引擎一次处理一批数据，以批量生成最终结果流，工作流程图：

二、Spak Streaming

2.1、Batch Duration

spark streaming的核心参数，设置流数据被分成多个batch的时间间隔，每个spark引擎处理的就是这个时间间隔内的数据。在Spark Streaming中，Job之间有可能存在依赖关系，所以后面的作业必须确保前面的作业执行完后才会被调度执行。如果批处理时间超过了batch duration，意味着数据处理速率跟不上数据接收速率，那么会导致后面正常的batch提交的作业无法按时执行，随着时间的推移，越来越多的作业被延迟执行，最后导致整个Streaming作业被阻塞，所以需要设置一个合理的批处理间隔以确保作业能够在这个批处理间隔内执行完成。

application UI能详细了解到每个batch的提交时间、数据处理时间、延迟执行时间以及处理的数据条目数。

虽然batchDuration的单位可以达到毫秒级别的，但是经验告诉我们，如果这个值过小将会导致因频繁提交作业从而给整个Streaming带来负担，所以请尽量不要将这个值设置为小于500ms。如果job执行的很快，而batchDuration设置的过长，依然会在上次提交作业间隔batchDuration后才提交下一个(数据流分隔机制决定的)，这样spark集群会有大空闲期，集群资源没有被充分利用。spark streaming应用程序在首次启动时同样会间隔batchDuration才提交job(执行InputDStream.compute方法计算batch的RDD并提交作业)。

2.2、DStream

表示一系列时间序列上连续的RDDs，每一个RDDs代表一定时间间隔内到达的数据，这样就把连续的数据流拆成很多小的RDDs数据块(RDDs数据块内的数据是连续的数据)。可以通过实时数据创建DStream，也可以对现有的DStream进行transformation操作生成，例如map、window、reduceByKeyAndWindow等转换操作。

在spark streaming运行期间，每个DStream都会定期生成一个RDDs，具体的是compute(time) 方法，生成的RDDs代表一个批次内的数据，作为提交job的输入元数据：

在对DStream进行操作时，会被Spark Streaming引擎转化成对底层 RDD操作。

foreachRDD：是一个转换输出操作符，它返回的不是RDD里的一行数据，而是输出DStream后面的RDDs，表示一个批次中的一批数据，一个批次，只有一个RDDs。对于DirectKafkaInputDStream流返回的是KafkaRDD，需要注意的是该操作在运行spark streaming应用程序的driver进程里执行。

2.3、InputDStream

InputDStream继承自DStream，是所有输入流的基类，代表从源接收到的原始数据流DStreams，每一个InputDStream关联到单个Receiver对象，从源数据接收数据并存储到spark内存，等待处理。每一个InputDStream接收到的是单个数据流数据。InputDStream在driver节点上从新数据生成RDDs；如果为了实现input stream在work节点上运行recvicer接收外部数据，需要继承ReceiverInputDStream类。InputDStream的start()、stop()方法，分别用于Spark Streaming系统启动和停止接收数据时调用。

三、kafka集成

3.1、DirectKafkaInputDStream

DirectKafkaInputDStream继承InputDStream，创建方法：

Subscribe有三个参数：topic列表、consumer配置项、topic+partition起始offset，其中fromOffsets是可选的。

driver会根据kafkaParams创建KafkaConsumer，用于Spark Streaming确定batch内的kafka数据(offset)范围。

3.2、KafkaRDD

Spark Streaming每隔一个时间间隔会调用InputDStream.compute方法创建KafkaRDD(在driver上执行)，表示这个batch里接收到的kafka数据，然后在提交作业时作为stream job的输入。KafkaRDD extends RDD，实现了compute方法，用于计数一个分区里的数据、返回KafkaRDDIterator迭代器，迭代器内部next方法调用consumer.get，从kafka拉取数据.

job运行时调用KafkaRDD.compute方法从kafka读取数据，也就是实际get操作发生在task中。

KafkaRDD是一个包括topic、partition、fromeOffset、untilOffset等的数据结构；ConsumerRecord是kafka client的api。

3.3、offset初始化

Spark Streaming在启动时先调用Subscribe.onStart方法，初始化KafkaConsumer，这个Consumer对象是在driver中用于获取offset。如果fromOffsets不为空，kafkaConsumer就seek到指定的offset，然后再调用positon获取offset.

如果fromOffsets是空，即没有seek，当用consumer.position方法时，返回的offset取决于auto.offset.reset配置：earliest，获取partition最早的offset；latest获取partition最近的offset。

3.4、latestOffset

spark Streaming的内部逻辑，上一个job的untilOffset成为下一个job的fromOffset。latestOffset函数计算untilOffset，核心计算思想是先consumer.seekToEnd，然后position函数就可以取得当前最后offset:

四、offset管理

enable.auto.commit参数必须设置false，因为在自动commit的情况下，可能在一个batch内的数据还没有处理完、或者处理失败，但offset就自动提交了，就会导致数据丢失。下面是在zk中管理offset的思路，zk简单方便而且保证了可用性。

在spark Streaming作业开始时，readOffsets函数用于从zk读取上次应用保存的最后处理的消息偏移量，有以下两种不同处理场景：

1、Spark Streaming应用程序首次运行时，从zk read不到数据，那么就创建一个KafkaConsumer对象，用consumer.position的方式获取offset，这时获取到的offset取决于auto.offset.reset参数的设置

2、如果是重启Spark Streaming应用程序，那可以直接从zk读取到应用上次保存的offset

在完成kafka DStream处理后，调用persistOffsets方法持久化保存分区的偏移量

整体过程伪代码:

五、反压

如果在一个batch内收到的消息比较多，这就需要为executor分配更多内存，可能会导致其他spark streaming应用程序资源分配不足，甚至有OOM的风险。特别是第一次启动应用程序，从earliest offset消费数据时，kafka保留的历史消息越多，数据处理时间也就越长。反压可以限制每个batch接收到的消息量，降低数据倾斜的风险，开启反压：

SparkConf.set("spark.streaming.backpressure.enabled", "true")

设置每个kafka partition读取消息的最大速率:

SparkConf.set("spark.streaming.kafka.maxRatePerPartition", "spark.streaming.kafka.maxRatePerPartition")

这个值要结合spark Streaming处理消息的速率和batchDuration，尽量保证读取的每个partition数据在batchDuration时间内处理完，这个参数需要不断调整，以做到尽可能高的吞吐量.

本文首发于公众号：data之道

最后编辑于：2018.05.07 12:58:36

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 158,425评论 4赞 361
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 67,058评论 1赞 291
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 108,186评论 0赞 243
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 43,848评论 0赞 204
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 52,249评论 3赞 286
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 40,554评论 1赞 216
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 31,830评论 2赞 312
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 30,536评论 0赞 197
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 34,239评论 1赞 241
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 30,505评论 2赞 244
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 32,004评论 1赞 258
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 28,346评论 2赞 253
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 32,999评论 3赞 235
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 26,060评论 0赞 8
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 26,821评论 0赞 194
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 35,574评论 2赞 271
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 35,480评论 2赞 267

Spark Streaming和Kafka集成深入浅出

推荐阅读更多精彩内容