深入理解Spark Streaming的执行模型（全局性word count）

本文译自《Diving into Apache Spark Streaming’s Execution Model》，作者: Tathagata Das, Matei Zaharia , Patrick Wendell 发布于 ENGINEERING BLOG July 30, 2015

有了这么多的分布式流处理引擎，人们经常问我们Apache Spark Streaming的独特优点。从早期开始，Apache Spark提供了一个统一的引擎，原生支持批处理和流工作负载。这不同于其他系统，其具有仅设计用于流的处理引擎，或者具有类似的批处理和流API，但是在内部编译到不同的引擎。 Spark的单执行引擎和统一的批处理和流式编程模型比其他传统的流系统带来了一些独特的优势。特别是，四个主要方面是：

从故障和分离器快速恢复
更好的负载平衡和资源使用
结合流数据与静态数据集和交互式查询
与高级处理库的本地集成（SQL，机器学习，图形处理）

在这篇文章中，我们概述了Spark Streaming的架构，并解释它如何提供上述好处。我们还讨论了项目中利用执行模型的一些有趣的正在进行的工作。

Stream Processing Architectures – The Old and the New

在高级别，现代分布式流处理流水线执行如下：

从数据源（例如活日志，系统遥测数据，IoT设备数据等）接收流数据到像Apache Kafka，Amazon Kinesis等一些数据摄取系统。
在集群上并行处理数据。这是流处理引擎设计的目的，我们将在下面详细讨论。
将结果输出到下游系统，如HBase，Cassandra，Kafka等。

为了处理数据，大多数传统的流处理系统设计有连续的运算符模型，其工作如下：

有一组工作节点，每个节点运行一个或多个连续运算符。
每个连续运算符一次处理流数据一个记录，并将该记录转发到流水线中的其他运算符。
存在用于从摄取系统接收数据的“源”运算符和输出到下游系统的“sink”运算符。

连续运算符是一个简单而自然的模型。然而，随着当今趋向于更大规模和更复杂的实时分析，这种传统架构也遇到了一些挑战。我们设计Spark Streaming以满足以下要求：

快速故障和分段恢复 - 随着规模的增大，集群节点出现故障或不可预测的减速（即分段）的可能性更高。系统必须能够自动从故障和分离器中恢复，以实时提供结果。不幸的是，连续运算符到工作节点的静态分配使得传统系统很难从故障和分离器中恢复。
负载平衡 - 工人之间处理负载的不均匀分配可能导致连续运营商系统中的瓶颈。这更可能发生在大型集群和动态变化的工作负载中。系统需要能够基于工作负载动态地调整资源分配。
流式处理，批处理和交互式工作负载的统一 - 在许多使用情况下，以交互方式查询流式数据（毕竟流式处理系统在内存中拥有所有内容）或将其与静态数据集（例如预先计算楷模）。这在连续运营商系统中是困难的，因为它们不被设计为动态地引入用于ad-hoc查询的新运营商。这需要一个可以组合批量，流式和交互式查询的引擎。
高级分析（如机器学习和SQL查询） - 更复杂的工作负载需要不断学习和更新数据模型，甚至可以使用SQL查询查询流式数据的“最新”视图。同样，在这些分析任务之间有一个共同的抽象，使开发人员的工作更容易。

为了满足这些要求，Spark Streaming使用一种称为离散化流的新架构，它直接利用Spark引擎的丰富库和容错。

Architecture of Spark Streaming: Discretized Streams

Spark Streaming不是一次处理流数据一条记录，而是将流数据离散化成微小的亚秒级微批次。换句话说，Spark Streaming的接收器并行接受数据并将其缓存在Spark的工作节点的内存中。然后，延迟优化的Spark引擎运行短任务（几十毫秒）来处理批次并将结果输出到其他系统。注意，与传统的连续运算符模型不同，其中计算被静态地分配给一个节点，Spark任务根据数据的位置和可用资源被动态地分配给工作者。这可以实现更好的负载平衡和更快的故障恢复，我们将在下面说明。

此外，每批数据是弹性分布式数据集（RDD），它是Spark中容错数据集的基本抽象。这允许使用任何Spark代码或库处理流数据。

Benefits of Discretized Stream Processing

让我们看看这个架构如何允许Spark Streaming实现我们之前设置的目标。

Dynamic load balancing

将数据划分为小的微批次允许对资源的计算的细粒度分配。例如，考虑一个简单的工作负载，其中输入数据流需要通过密钥进行分区和处理。在大多数其他系统采用的传统的一次记录方法中，如果其中一个分区比其他分区的计算密集程度更高，则静态分配以处理该分区的节点将成为瓶颈并减慢管道。在Spark Streaming中，作业的任务将自然地在工作负载之间平衡负载 - 一些工作负载将处理几个更长的任务，另一些工作将处理更多的更短任务。

Fast failure and straggler recovery

在节点故障的情况下，传统系统必须在另一个节点上重新启动故障的连续运算符，并重放数据流的某些部分以重新计算丢失的信息。注意，只有一个节点正在处理重新计算，并且管道不能继续，直到新节点在重放之后赶上。在Spark中，计算已经离散化为小的，确定性的任务，可以在任何地方运行而不影响正确性。因此，故障任务可以在集群中的所有其他节点上并行重新启动，从而在所有节点上均匀分布所有重新计算，并且比传统方法更快地从故障中恢复。

Unification of batch, streaming and interactive analytics

Spark Streaming中的关键编程抽象是DStream或分布式流。每批流数据由RDD表示，RDD是Spark对分布式数据集的概念。因此，DStream只是一系列的RDD。这种通用表示允许批处理和流工作负载无缝地互操作。用户可以对每批流数据应用任意Spark函数：例如，很容易将DStream与预先计算的静态数据集（作为RDD）连接。

// Create data set from Hadoop file
val dataset = sparkContext.hadoopFile("file")
// Join each batch in stream with the dataset
kafkaDStream.transform { batchRDD =>
  batchRDD.join(dataset).filter(...)
}

由于批处理的流数据存储在Spark的工作内存中，因此可以按需交互式查询。例如，您可以通过Spark SQL JDBC服务器公开所有的流状态，我们将在下一节中显示。 Spark中批处理，流式处理和交互式工作负载的这种统一非常简单，但在没有这些工作负载的通用抽象的系统中很难实现。

Advanced analytics like machine learning and interactive SQL

Spark互操作性扩展到丰富的库，如MLlib（机器学习），SQL，DataFrames和GraphX。让我们探讨一些用例：

Streaming + SQL and DataFrames

DStreams生成的RDD可以转换为DataFrames（Spark SQL的编程接口），并使用SQL查询。例如，使用Spark SQL的JDBC服务器，您可以将流的状态公开给任何谈论SQL的外部应用程序。
val hiveContext = new HiveContext(sparkContext)

// ...
wordCountsDStream.foreachRDD { rdd =>
  // Convert RDD to DataFrame and register it as a SQL table
  val wordCountsDataFrame = rdd.toDF("word", "count") 
  wordCountsDataFrame.registerTempTable("word_counts") 
}
// ...
// Start the JDBC server
HiveThriftServer2.startWithContext(hiveContext)

然后，您可以使用Spark附带的beeline客户端或Tableau等工具，通过JDBC服务器交互式查询不断更新的“word_counts”表。

show tables;
+--------------+--------------+
| tableName | isTemporary |
+--------------+--------------+
| word_counts | true |
+--------------+--------------+
1 row selected (0.102 seconds)

select * from word_counts;
+-----------+--------+
| word | count |
+-----------+--------+
| 2015 | 264 |
| PDT | 264 |
| 21:45:41 | 27 |

Streaming + MLlib

使用MLlib离线生成的机器学习模型可以应用于流数据。例如，以下代码使用一些静态数据训练KMeans聚类模型，然后使用该模型对Kafka数据流中的事件进行分类。

// Learn model offline
val model = KMeans.train(dataset, ...)
// Apply model online on stream
val kafkaStream = KafkaUtils.createDStream(...)
kafkaStream.map { event => model.predict(featurize(event)) }

我们在我们的Spark Summit 2014 Databricks演示中演示了这种离线学习在线预测。从那时起，我们还在MLLib中添加了流机器学习算法，可以从标记的数据流中连续训练。其他Spark库也可以很容易地从Spark Streaming中调用。

Performance

鉴于Spark Streaming的独特设计，它运行速度有多快？实际上，Spark Streaming对批处理数据和利用Spark引擎的能力导致与其他流系统相当或更高的吞吐量。在延迟方面，Spark Streaming可以实现低至几百毫秒的延迟。开发人员有时会问，微批处理是否会增加太多的延迟。在实践中，批处理延迟只是端到端流水线延迟的一个小组件。例如，许多应用程序通过滑动窗口计算结果，并且甚至在连续的操作员系统中，该窗口仅周期性地更新（例如，每2秒滑动的20秒窗口）。许多管道从多个源收集记录，并等待短时间来处理延迟或乱序数据。最后，任何自动触发算法都倾向于等待一段时间来触发触发。因此，与端到端延迟相比，批处理很少增加显着的开销。事实上，DStream的吞吐量增益通常意味着您需要更少的机器来处理相同的工作负载。
Future Directions for Spark Streaming
Spark Streaming是Spark中使用最广泛的组件之一，而且流媒体用户还有更多的选择。我们团队正在处理的一些最重要的项目将在下面讨论。你可以期望这些在接下来的几个版本的Spark：

背压 - 流工作负载通常可以有突发数据（例如在奥斯卡期间tweet中的突然尖峰），并且处理系统必须能够优雅地处理它们。在即将到来的Spark 1.5版本（下个月）中，Spark将添加更好的反压机制，允许Spark Streaming动态控制此类突发的吞吐速率。此功能代表我们在Databricks和Typesafe的工程师之间的联合工作。
动态缩放 - 控制摄取速率可能不足以处理数据速率的较长期变化（例如白天夜间的持续较高的推特率）。可以通过基于处理需求动态地缩放集群资源来处理这样的变化。这在Spark Streaming架构中非常容易做到 - 由于计算已经分为小任务，如果从集群管理器（YARN，Mesos，Amazon EC2等）获取更多节点，它们可以动态重新分配到更大的集群，。我们计划添加对自动动态缩放的支持。
事件时间和乱序数据 - 在实践中，用户有时会记录不按顺序传送，或者时间戳与提取时间不同。 Spark流将通过允许用户定义的时间提取功能支持“事件时间”。这将包括延迟或乱序数据的松弛持续时间。
UI增强 - 最后，我们希望让开发人员轻松调试其流应用程序。为此，在Spark 1.4中，我们向流式Spark UI添加了新的可视化，使开发人员密切监视其应用程序的性能。在Spark 1.5中，我们通过显示更多输入信息（例如每个批处理中处理的Kafka偏移量）来进一步改进。

要了解有关Spark Streaming的更多信息，请阅读官方编程指南或介绍其执行和容错模型的Spark Streaming研究论文。

完。

最后编辑于：2017.12.06 03:59:07

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 159,835评论 4赞 364
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 67,598评论 1赞 295
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 109,569评论 0赞 244
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 44,159评论 0赞 213
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 52,533评论 3赞 287
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 40,710评论 1赞 222
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 31,923评论 2赞 313
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 30,674评论 0赞 203
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 34,421评论 1赞 246
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 30,622评论 2赞 245
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 32,115评论 1赞 260
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 28,428评论 2赞 254
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 33,114评论 3赞 238
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 26,097评论 0赞 8
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 26,875评论 0赞 197
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 35,753评论 2赞 276
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 35,649评论 2赞 271