利用Kryo序列化库是你提升Spark性能要做的第一件事

本文基于Spark2.1.0版本
套用官文Tuning Spark中的一句话作为文章的标题：

*Often, choose a serialization type will be the first thing you should tune to optimize a Spark application. *

在Spark的架构中，在网络中传递的或者缓存在内存、硬盘中的对象需要进行序列化操作，序列化的作用主要是利用时间换空间：

分发给Executor上的Task
需要缓存的RDD（前提是使用序列化方式缓存）
广播变量
Shuffle过程中的数据缓存
使用receiver方式接收的流数据缓存
算子函数中使用的外部变量

上面的六种数据，通过Java序列化（默认的序列化方式）形成一个二进制字节数组，大大减少了数据在内存、硬盘中占用的空间，减少了网络数据传输的开销，并且可以精确的推测内存使用情况，降低GC频率。

其好处很多，但是缺陷也很明显：

把数据序列化为字节数组、把字节数组反序列化为对象的操作，是会消耗CPU、延长作业时间的，从而降低了Spark的性能。

至少默认的Java序列化方式在这方面是不尽如人意的。Java序列化很灵活但性能较差，同时序列化后占用的字节数也较多。

所以官方也推荐尽量使用Kryo的序列化库（版本2）。官文介绍，Kryo序列化机制比Java序列化机制性能提高10倍左右，Spark之所以没有默认使用Kryo作为序列化类库，是因为它不支持所有对象的序列化，同时Kryo需要用户在使用前注册需要序列化的类型，不够方便。

由于 Spark2.1.0默认对Task使用Java序列化（该序列化方式不允许修改，源码如下），

/**
   * Helper method to create a SparkEnv for a driver or an executor.
   */
  private def create(
      conf: SparkConf,
      executorId: String,
      bindAddress: String,
      advertiseAddress: String,
      port: Int,
      isLocal: Boolean,
      numUsableCores: Int,
      ioEncryptionKey: Option[Array[Byte]],
      listenerBus: LiveListenerBus = null,
      mockOutputCommitCoordinator: Option[OutputCommitCoordinator] = None): SparkEnv = {

    val isDriver = executorId == SparkContext.DRIVER_IDENTIFIER
    ...
    val serializer = instantiateClassFromConf[Serializer](
      "spark.serializer", "org.apache.spark.serializer.JavaSerializer")
    logDebug(s"Using serializer: ${serializer.getClass}")

    val serializerManager = new SerializerManager(serializer, conf, ioEncryptionKey)

    val closureSerializer = new JavaSerializer(conf)  --Task闭包函数使用Java序列化库

所以本文主要针对下面这五种数据类型：

需要缓存的RDD（前提是使用序列化方式缓存）
广播变量
Shuffle过程中的数据缓存
使用receiver方式接收的流数据缓存
算子函数中使用的外部变量

其实从Spark 2.0.0版本开始，简单类型、简单类型数组、字符串类型的Shuffling RDDs 已经默认使用Kryo序列化方式了。

下面，我给出具体的流程，来切换到Kryo序列化库。

先介绍几个相关的配置：

Property Name	Default	Meaning
spark.serializer	org.apache.spark.serializer.JavaSerializer	Class to use for serializing objects that will be sent over the network or need to be cached in serialized form. The default of Java serialization works with any Serializable Java object but is quite slow, so we recommend using org.apache.spark.serializer.KryoSerializer and configuring Kryo serialization when speed is necessary.
spark.kryoserializer.buffer	64k	Initial size of Kryo's serialization buffer. Note that there will be one buffer per core on each worker. This buffer will grow up to spark.kryoserializer.buffer.max if needed.
spark.kryoserializer.buffer.max	64m	Maximum allowable size of Kryo serialization buffer. This must be larger than any object you attempt to serialize. Increase this if you get a "buffer limit exceeded" exception inside Kryo.
spark.kryo.classesToRegister	(none)	If you use Kryo serialization, give a comma-separated list of custom class names to register with Kryo. See the tuning guide for more details.
spark.kryo.referenceTracking	true	Whether to track references to the same object when serializing data with Kryo, which is necessary if your object graphs have loops and useful for efficiency if they contain multiple copies of the same object. Can be disabled to improve performance if you know this is not the case.
spark.kryo.registrationRequired	false	Whether to require registration with Kryo. If set to 'true', Kryo will throw an exception if an unregistered class is serialized. If set to false (the default), Kryo will write unregistered class names along with each object. Writing class names can cause significant performance overhead, so enabling this option can enforce strictly that a user has not omitted classes from registration.
spark.kryo.registrator	(none)	If you use Kryo serialization, give a comma-separated list of classes that register your custom classes with Kryo. This property is useful if you need to register your classes in a custom way, e.g. to specify a custom field serializer. Otherwise spark.kryo.classesToRegister is simpler. It should be set to classes that extend KryoRegistrator. See the tuning guide for more details.
spark.kryo.unsafe	false	Whether to use unsafe based Kryo serializer. Can be substantially faster by using Unsafe Based IO.

配置说明：（当使用Kryo序列化库时）

spark.kryo.classesToRegister：向Kryo注册自定义的的类型，类名间用逗号分隔

spark.kryo.referenceTracking：跟踪对同一个对象的引用情况，这对发现有循环引用或同一对象有多个副本的情况是很有用的。设置为false可以提高性能

spark.kryo.registrationRequired：是否需要在Kryo登记注册？如果为true，则序列化一个未注册的类时会抛出异常

spark.kryo.registrator：为Kryo设置这个类去注册你自定义的类。最后，如果你不注册需要序列化的自定义类型，Kryo也能工作，不过每一个对象实例的序列化结果都会包含一份完整的类名，这有点浪费空间

spark.kryo.unsafe：如果想更加提升性能，可以使用Kryo unsafe方式

spark.kryoserializer.buffer：每个Executor中的每个core对应着一个序列化buffer。如果你的对象很大，可能需要增大该配置项。其值不能超过spark.kryoserializer.buffer.max

spark.kryoserializer.buffer.max：允许使用序列化buffer的最大值

spark.serializer：序列化时用的类，需要申明为org.apache.spark.serializer.KryoSerializer。这个设置不仅控制各个worker节点之间的混洗数据序列化格式，同时还控制RDD存到磁盘上的序列化格式及广播变量的序列化格式。 

更多的Kryo配置及使用细节，参考文末的链接

主要的使用过程就三步：

设置序列化使用的库

conf.set("spark.serializer", "org.apache.spark.serializer.KryoSerializer");  //使用Kryo序列化库

在该库中注册用户定义的类型

conf.set("spark.kryo.registrator", toKryoRegistrator.class.getName());       //在Kryo序列化库中注册自定义的类集合

在自定义类中实现KryoRegistrator接口的registerClasses方法

public static class toKryoRegistrator implements KryoRegistrator {
    public void registerClasses(Kryo kryo) {
        kryo.register(tmp1.class, new FieldSerializer(kryo, tmp1.class));  //在Kryo序列化库中注册自定义的类
        kryo.register(tmp2.class, new FieldSerializer(kryo, tmp2.class));  //在Kryo序列化库中注册自定义的类
    }
}

具体的源码如下（关键点见源码中的注释）：

import java.util.Arrays;
import java.util.Iterator;
import org.apache.spark.SparkConf;
import org.apache.spark.api.java.function.FlatMapFunction;
import org.apache.spark.serializer.KryoRegistrator;
import org.apache.spark.api.java.JavaRDD;
import org.apache.spark.api.java.JavaSparkContext;
import org.apache.spark.api.java.function.Function;
import com.esotericsoftware.kryo.Kryo;
import com.esotericsoftware.kryo.serializers.FieldSerializer;
import org.apache.spark.storage.StorageLevel;
import java.util.regex.Pattern;
import java.io.IOException;
import java.io.InputStream;
import java.io.FileInputStream;
import java.io.BufferedReader;
import java.io.InputStreamReader;
import org.apache.spark.broadcast.Broadcast;

public final class javakryoserializer {
   private static final Pattern SPACE = Pattern.compile(" ");
   // This is our custom class we will configure Kyro to serialize
   static class tmp1 implements java.io.Serializable {
       public int total_;
       public int num_;
   }

   static class tmp2 implements java.io.Serializable {
       public tmp2 (String ss)
       {
           s = ss;
       }
       public String s;
   }

   public static class toKryoRegistrator implements KryoRegistrator {
       public void registerClasses(Kryo kryo) {
           kryo.register(tmp1.class, new FieldSerializer(kryo, tmp1.class));  //在Kryo序列化库中注册自定义的类
           kryo.register(tmp2.class, new FieldSerializer(kryo, tmp2.class));  //在Kryo序列化库中注册自定义的类
       }
   }

   public static void readToBuffer(StringBuffer buffer, String filePath) throws IOException {
       InputStream is = new FileInputStream(filePath);
       String line; // 用来保存每行读取的内容
       BufferedReader reader = new BufferedReader(new InputStreamReader(is));
       line = reader.readLine(); // 读取第一行
       while (line != null) { // 如果 line 为空说明读完了
           buffer.append(line); // 将读到的内容添加到 buffer 中
           buffer.append("\n"); // 添加换行符
           line = reader.readLine(); // 读取下一行
       }
       reader.close();
       is.close();
   }

   public static void main(String[] args) throws Exception {
       SparkConf conf = new SparkConf().setMaster("local").setAppName("basicavgwithkyro");
       conf.set("spark.serializer", "org.apache.spark.serializer.KryoSerializer");  //使用Kryo序列化库，如果要使用Java序列化库，需要把该行屏蔽掉
       conf.set("spark.kryo.registrator", toKryoRegistrator.class.getName());       //在Kryo序列化库中注册自定义的类集合，如果要使用Java序列化库，需要把该行屏蔽掉
       JavaSparkContext sc = new JavaSparkContext(conf);
       StringBuffer sb = new StringBuffer();
       javakryoserializer.readToBuffer(sb, args[0]);
       final Broadcast<tmp2> stringBV = sc.broadcast(new tmp2(sb.toString()));

       JavaRDD<String> rdd1 = sc.textFile(args[1]);
       JavaRDD<String> rdd2 = rdd1.flatMap(new FlatMapFunction<String, String>() {
           @Override
           public Iterator<String> call(String s) {
               return Arrays.asList(SPACE.split(s)).iterator();
           }
       });


       JavaRDD<Integer> rdd3 = rdd2.map(new Function<String, Integer>() {
           @Override
           public Integer call(String s) {
               String length = stringBV.value().s;  //只是为了使用广播变量stringBV，没有实际的意义
               String tmp = length;                 //只是为了使用广播变量stringBV，没有实际的意义
               return s.length();
           }
       });

       JavaRDD<tmp1> rdd4 = rdd3.map(new Function<Integer, tmp1>() {
           @Override
           public tmp1 call(Integer x) {
               tmp1 a = new tmp1();  //只是为了将rdd4中的元素类型转换为tmp1类型的对象，没有实际的意义
               a.total_ += x;
               a.num_ += 1;
               return a;
           }
       });

       rdd4.persist(StorageLevel.MEMORY_ONLY_SER());  //将rdd4以序列化的形式缓存在内存中，因为其元素是tmp1对象，所以使用Kryo的序列化方式缓存
       System.out.println("the count is " + rdd4.count());

       while (true) {}  //调试命令，只是用来将程序挂住，方便在Driver 4040的WEB UI中观察rdd的storage情况
       //sc.stop();
   }
}

上述源码，涉及了闭包中使用的广播变量stringBV（是tmp2类的对象），以及对rdd4（元素是tmp1类的对象）的持久化，由于RDD的持久化占用的内存看起来比较直观，所以主要对比rdd4使用两种序列化库的区别。
使用默认的Java序列化库的情况：缓存后的 rdd4占用内存空间137.7MB

应用程序执行时的信息

4040端口 Driver WEB UI

使用Kryo序列化库的情况：缓存后的 rdd4占用内存空间38.5MB

应用程序执行时的信息

4040端口 Driver WEB UI

可以看出，使用了Kryo序列化库后，rdd4在内存中占用的空间从137.7MB降低到38.5MB，比使用Java序列化库节省了4倍左右的空间（如果使用其他更适合压缩的对象类型，应该能达到官方的所说的提升10倍的压缩比）

当然，如果想进一步的节省内存、硬盘的空间，减少网络传输的数据量，可以配合的使用Spark支持的压缩方式（目前默认是lz4），广播变量、shuffle过程中的数据都默认使用压缩功能。（注意，RDD默认是不压缩的）

Property Name	Default	Meaning
spark.io.compression.codec	lz4	The codec used to compress internal data such as RDD partitions, broadcast variables and shuffle outputs. By default, Spark provides three codecs: lz4, lzf, and snappy.
spark.broadcast.compress	true	Whether to compress broadcast variables before sending them. Generally a good idea.
spark.shuffle.compress	true	Whether to compress map output files. Generally a good idea.
spark.shuffle.spill.compress	true	Whether to compress data spilled during shuffles.
spark.rdd.compress	false	Whether to compress serialized RDD partitions (e.g. for StorageLevel.MEMORY_ONLY_SER in Java and Scala or StorageLevel.MEMORY_ONLY in Python). Can save substantial space at the cost of some extra CPU time.

RDD持久化操作时使用压缩机制（注意，只有序列化后的RDD才能使用压缩机制）

SparkConf 增加下面的配置
conf.set("spark.rdd.compress", "true");

效果很显著吧！rdd4持久化后在内存中占用的空间降低到1MB左右！

应用程序执行的信息

4040端口 Driver WEB UI

使用压缩机制，也会增加额外的开销，也会影响到性能，这点需要注意。

最后编辑于：2017.12.07 01:00:29

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 157,012评论 4赞 359
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 66,589评论 1赞 290
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 106,819评论 0赞 237
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 43,652评论 0赞 202
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 51,954评论 3赞 285
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 40,381评论 1赞 210
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 31,687评论 2赞 310
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 30,404评论 0赞 194
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 34,082评论 1赞 238
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 30,355评论 2赞 241
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 31,880评论 1赞 255
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 28,249评论 2赞 250
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 32,864评论 3赞 232
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 26,007评论 0赞 8
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 26,760评论 0赞 192
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 35,394评论 2赞 269
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 35,281评论 2赞 259

利用Kryo序列化库是你提升Spark性能要做的第一件事

推荐阅读更多精彩内容