sparkstream

image.png

Kafka 分布式的单位是 Partition。如何保证消息有序,需要分几个情况讨论。

  • 同一个 Partition 用一个 write ahead log 组织,所以可以保证 FIFO 的顺序。
  • 不同 Partition 之间不能保证顺序。但是绝大多数用户都可以通过 message key 来定义,因为同一个 key 的 message 可以保证只发送到同一个 Partition。比如说 key 是 user id,table row id 等等,所以同一个 user 或者同一个 record 的消息永远只会发送到同一个 Partition上,保证了同一个 user 或 record 的顺序。
  • 当然,如果你有 key skewness 就有些麻烦,需要特殊处理。

什么是数据倾斜

对 Spark/Hadoop 这样的大数据系统来讲,数据量大并不可怕,可怕的是数据倾斜。数据倾斜指的是,并行处理的数据集中,某一部分(如 Spark 或 Kafka 的一个 Partition)的数据显著多于其它部分,从而使得该部分的处理速度成为整个数据集处理的瓶颈(木桶效应)。

数据倾斜是如何造成的

在 Spark 中,同一个 Stage 的不同 Partition 可以并行处理,而具有依赖关系的不同 Stage 之间是串行处理的。假设某个 Spark Job 分为 Stage 0和 Stage 1两个 Stage,且 Stage 1依赖于 Stage 0,那 Stage 0完全处理结束之前不会处理Stage 1。而 Stage 0可能包含 N 个 Task,这 N 个 Task 可以并行进行

1.具体解决方案

调整并行度分散同一个 Task 的不同 Key: Spark 在做 Shuffle 时,默认使用 HashPartitioner(非 Hash Shuffle ???)对数据进行分区。

2. 自定义Partitioner:

使用自定义的 Partitioner(默认为 HashPartitioner),将原本被分配到同一个 Task 的不同 Key 分配到不同 Task,可以拿上图继续想象一下,通过自定义 Partitioner 可以把原本分到 Task0 的 Key 分到 Task1,那么 Task0 的要处理的数据量就少了。

3. 将 Reduce side(侧) Join 转变为 Map side(侧) Join:

通过 Spark 的 Broadcast 机制,将 Reduce 侧 Join 转化为 Map 侧 Join,避免 Shuffle 从而完全消除 Shuffle 带来的数据倾斜。

4. 为 skew 的 key 增加随机前/后缀:

为数据量特别大的 Key 增加随机前/后缀,使得原来 Key 相同的数据变为 Key 不相同的数据,从而使倾斜的数据集分散到不同的 Task 中,彻底解决数据倾斜问题.

Spark 的 shuffle 过程

Spark shuffle 处于一个宽依赖,可以实现类似混洗的功能,将相同的 Key 分发至同一个 Reducer上进行处理。

Spark有哪些聚合类的算子,我们应该尽量避免什么类型的算子?

在我们的开发过程中,能避免则尽可能避免使用 reduceByKey、join、distinct、repartition 等会进行 shuffle 的算子,尽量使用 map 类的非 shuffle 算子。这样的话,没有 shuffle 操作或者仅有较少 shuffle 操作的 Spark 作业,可以大大减少性能开销。

6Spark为什么快和Hive比较

  • 消除了冗余的 HDFS 读写: Hadoop 每次 shuffle 操作后,必须写到磁盘,而 Spark 在 shuffle 后不一定落盘,可以 cache 到内存中,以便迭代时使用。
  • 消除了冗余的 MapReduce 阶段: Hadoop 的 shuffle 操作一定连着完整的 MapReduce 操作,冗余繁琐。而 Spark 基于 RDD 提供了丰富的算子操作,且 reduce 操作产生 shuffle 数据,可以缓存在内存中
  • JVM 的优化: Hadoop 每次 MapReduce 操作,启动一个 Task 便会启动一次 JVM,基于进程的操作。而 Spark 每次 MapReduce 操作是基于线程的,只在启动 Executor 是启动一次 JVM,内存的 Task 操作是在线程复用的。每次启动 JVM 的时间可能就需要几秒甚至十几秒,那么当 Task 多了,这个时间 Hadoop 不知道比 Spark 慢了多少。

结论 Spark 快不是绝对的,但是绝大多数,Spark 都比 Hadoop 计算要快。这主要得益于其对 mapreduce 操作的优化以及对 JVM 使用的优化。

Spark Streaming容错体系

Spark操作的数据一般存储在有容错功能的文件系统(比如HDFS、S3)上,从这些系统上的数据生成的RDD也具有容错能力,但是这个不适用于Spark Streaming。为了达到相同的容错能力,通过网络接收到的数据还被复制到其他节点上(默认复制1份,总共2份数据),这就导致错误发生时有两类数据需要恢复

  • 刚收到已经被缓存,但还没有被复制到其他节点的数据。因为没有其他副本,恢复的唯一方法是从数据源重新获取一份。
  • 收到了且已经复制到其他节点的数据。这部分数据可以从其他节点恢复。
    此外,我们还要知道有两类可能发生的错误,如下。
  • worker节点失效。一旦计算节点失效,所有内存中的数据都会丢失且无法恢复。
  • Driver节点失效。如果运行Driver进程的节点失效,那么SparkContext也会随之失效,整个Streaming程序会退出,所有附属的执行节点都会退出,内存中的数据全部丢失。
结果输出容错

结果输出(saveAsTextFiles、foreachRDD等)操作本身提供至少一次级别的容错性能,就是说可能输出多次至外部系统,但可能通过一些辅助手段来实现精准一次的容错效果。
当输出为文件时是可以接受的,因为重复的数据会覆盖前面的数据,结果一致,效果相当于精确一次,其他场景下的输出要想实现精确一次的容错,需要一些额外的操作,有如下两种方法。

  • 幂等更新。确保多操作的效果与一次操作的效果相同,比如saveAs***Files即便调用多次,结果还是同一个文件。
  • 事务更新。更新时带上事务信息,确保更新只进行一次,比如使用批次时间和RDD的分区编号构造一个事务ID,在更新时使用事务ID来判断是否已经更新,如果已经更新过则跳过,避免重复,实现精准一次的容错效果。
检查点

由于流式计算7×24小时运行的特点,除了考虑具备容错能力,我们还要考虑容错的代价问题。为了避免错误恢复的代价与运行时间成正比增长,Spark提供了检查点功能,用户定期记录中间状态,避免从头开始计算的漫长恢复
有一情况下必须启用检查点功能,那就是调用了有状态的Transformation操作,比如updateStateByKey或reduceByKeyAndWindow。因为有状态的操作是从程序开始时一直进行的,如果不做检查点,那么计算链接会随着时间一直增长,重新计算的代价也将会是天文数字。

Spark SQL

而且Spark SQL与Apache Hive基本完全兼容,我们可以像使用Hive一样来使用Spark SQL。
使用Spark SQL有两种方式

  • 一种是作为分布式SQL引擎,此时只需要写SQL就可以进行计算,不需要复杂的编码,这也是最受欢迎的一种方式,本节会重点介绍;
  • 另外一种模式是在Spark程序中,通过领域API的形式来操作数据(被抽象为DataFrame)。
    Spark SQL在设计上与Hive兼容,是一种“开箱即用”的兼容方式,即可以直接替代Hive的角色,但内部实现完全不同。可以直接使用Hive的meta数据库,语法上也基本完全兼容HiveQL,不同的地方非常少。一般情况下,完全可以使用HiveQL来操作Spark SQL,发现异常时再通过查询手册等方式来解决。
    Spark SQL支持绝大部分的Hive特性,具体如下所示。
    Hive查询语句,包括:
    • SELECT
    • GROUP BY
    • ORDER BY
    • CLUSTER BY
    • SORT BY
    所有Hive运算符,包括:
    • 关系运算符(=、⇔、==、<>、<、>、>=、<=等)
    • 数学运算符(+、-、*、/和%等)
    • 逻辑运算符(AND、&&、OR、||等)
    • 复杂类型构造器(struct、named_struct)
    • 数学函数(sign、ln、cos等)
    • 字符串函数(instr、length、printf等)
    • 用户自定义函数(UDF)
    • 用户自定义聚合函数(UDAF)
    • 用户自定义序列化格式(SerDes)
    • 求交
    • JOIN
    • {LEFT|RIGHT|FULL} OUTER JOIN
    • LEFT SEMI JOIN
    • CROSS JOIN
    • Unions
    • 子查询
    • SELECT col FROM ( SELECT a + b AS col from t1) t2
    • Sampling
    • Explain
    • 表分区
    • View
    所有Hive DDL函数,包括:
    • CREATE TABLE
    • CREATE TABLE AS SELECT
    • ALTER TABLE
    绝大部分Hive数据类型,包括:
    • TINYINT
    • SMALLINT
    • INT
    • BIGINT
    • BOOLEAN
    • FLOAT
    • DOUBLE
    • STRING
    • BINARY
    • TIMESTAMP
    • DATE
    • ARRAY<>
    • MAP<>
    • STRUCT<>
    从Spark 1.4开始,Spark SQL已经开始支持窗口函数了,包括排名函数rank、dense_rank、percent_rank、ntile、row_number,以及分析函数cume_dist、first_value、last_value、lag、lead。使用时,在函数后面要加Over表达式OVER (PARTITION BY …… ORDER BY ……)。
支持的数据类型

Spark SQL和DataFrame支持大部分Hive类型,具体如下所示。
• 数字类型。ByteType、ShortType、IntegerType、LongType、FloatType、DoubleType和DecimalType。
• 字符串类型。StringType。
• 二进制类型。BinaryType。
• Bool类型。BooleanType。
• 日期时间类型。TimestampType和DateType。
• 复杂类型。ArrayType、MapType和StructType。

DataFrame

Spark SQL除了支持使用SQL方式来查询之外,还提供了编程接口,可以在Spark程序中引用Spark SQL模块。编程时使用的数据抽象是DataFrame,它具有与RDD类似的分布式数据集特点,但还增加了列的概念,这样可以与传统关系型数据库的表对应起来。Spark程序支持的Scala、Java、Python以及R这4种编程语言都可以使用DataFrame。
在Spark中使用DataFrame的过程也很简单,大概需要如下4步:
(1) 初始化环境,一般是创建一个SQLContext对象;
(2) 创建一个DataFrame,可以来源于RDD或其他数据源;
(3) 调用DataFrame操作,是一种领域特定的API,可以实现所有的SQL功能;
(4) 或者通过函数直接执行SQL语句。

DataFrame数据源

DataFrame支持非常多类型的数据源,包括Hive、Avro、Parquet、ORC、JSON、JDBC。而且Spark提供了统一的读写接口。

Catalyst执行优化器

Catalyst是Spark SQL执行优化器的代号,所有Spark SQL语句最终都通过它来解析、优化,最终生成可以执行的Java字节码。因此,Catalyst是Spark SQL最核心的部分。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 159,569评论 4 363
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 67,499评论 1 294
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 109,271评论 0 244
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 44,087评论 0 209
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 52,474评论 3 287
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 40,670评论 1 222
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 31,911评论 2 313
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 30,636评论 0 202
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 34,397评论 1 246
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 30,607评论 2 246
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 32,093评论 1 261
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 28,418评论 2 254
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 33,074评论 3 237
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 26,092评论 0 8
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 26,865评论 0 196
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 35,726评论 2 276
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 35,627评论 2 270

推荐阅读更多精彩内容