聊一聊序列化-Protobuf

认识Protobuf

Protocol buffers are a flexible, efficient, automated mechanism for serializing structured data – think XML, but smaller, faster, and simpler.

Protobuf是Google推出的一种轻量&高效的结构化数据存储格式,是一款跨平台、跨语言、可扩展的序列化结构数据的方法;可用作通信协议、数据存储,etc...

特性

【优点】

  • 使用简单
  • 跨平台、跨语言、可扩展性
  • 维护成本低
  • 向后兼容性好
  • 加密性好:二进制不可读
  • 性能好
    • 体积比XML小3倍
    • 序列化速度比XML快20倍
    • 传输速度快

【缺点】

  • 自解释性差:二进制不可读
  • 需预定义结构

适用场景

  • 传输数据量大
  • 网络环境不稳定

看个例子

message Person {
  /** required and optional 
  *  1.required:必填
  *  2.optional:可选
  */
  // field_type field_name = field_number
  required string name = 1;
  required int32 id = 2;
}

【测试代码】

@Test
public void testProtoBuf() {
    // encode bytes
    byte[] bytes = Person.newBuilder().setName("java").setId(1).build().toByteArray();
    System.out.println(Arrays.toString(bytes));
    
    // decode bytes
    for (byte b : bytes) {
        System.out.println(getBinString(b));
    }
}

private String getBinString(byte b) {
    return String.format("%8s", Integer.toBinaryString(b)).replace(' ', '0');
}

【生成的字节数组及二进制】

// 字节数组
[10, 4, 106, 97, 118, 97, 16, 1]
// 二进制
00001010
00000100
01101010
01100001
01110110
01100001
00010000
00000001

下面我们通过上述二进制的输出了解下protobuf是怎么进行序列化的

序列化

protobuf序列化采用的Tag-Length-Value结构的存储方式

  • Tag:通过一个字节(8位)来存储field_number(前5位)和field_type(后3位)
  • Length:可选值,存储Value的长度,Length-delimited需要存储Length
  • Value:对应字段值的二进制表示

重点介绍一下Tag里面field_type表示,其决定了value是怎么表示;
【Wire Type表】

Wire Type表

通过Wire Type再来看上文的二进制表示

# set name = "java"
# Tag:field_number=1,field_type=2
00001010
# Length:4
00000100
# Value:"java"
01101010
01100001
01110110
01100001

# set id = 1
# Tag:field_number=2,field_type=0
00010000
# Value:1
00000001

Varint

Varint是一种特殊的整型,可变长的数字;其类型主要包含以下几个


Varint

它用一个或多个字节来表示一个数字,值越小的数字使用越少的字节数。这能减少用来表示数字的字节数。

如:
1. 对于 int32 类型的数字,一般需要 4个字节 表示; 若采用 Varint编码,对于很小的 int32 类型 数字,则可以用 1个字节 来表示 
2.虽然大的数字会需要 5 个 字节 来表示,但大多数情况下,消息都不会有很大的数字,所以采用 Varint方法总是可以用更少的字节数来表示数字

我们看一下写int32的源码

private void writeVarint32(int n) {                   
  int idx = 0;  
  while (true) {  
    // 如果只有一个字节,直接中断
    if ((n & ~0x7F) == 0) {  
      i32buf[idx++] = (byte)n;  
      break;  
    } else {  
      // 取出字节串末7位,在最高位添加1构成一个字节
      i32buf[idx++] = (byte)((n & 0x7F) | 0x80);  
      // 无符号右移7位
      n >>>= 7;  
    }  
  }  
  trans_.write(i32buf, 0, idx); 
}   

从以上源码我们能得出

  1. 如果最高位为1,表示后续的 字节 也是该数字的一部分
  2. 如果是 0,表示这是最后一个字节,且剩余 7位 都用来表示数字

因此:

  • 小于 128 的数字 都可以用 1个字节 表示;
  • 大于 128 的数字,比如 300,会用两个字节来表示:10101100 00000010

【负数的特殊处理】
我们知道,在二进制表示中,如果最高位为1,则代表该数为负数;当然Protobuf也很好的解决了这个问题,

`Protobuf`定义了 `sint32 / sint64` 类型表示负数,通过先采用 `Zigzag` 编码(将`有符号数`转换成`无符号数`),再采用 Varint编码,从而用于减少编码后的字节数 

【Zigzag】
Zigzag是一种变长的编码方式,使得绝对值小的数字都可以采用较少字节来表示;其编码解码过程为

  • 编码过程,代码为(n <<1) ^ (n >>31)
    • 将n左移1位
    • 将n右移31位
    • 前两个结果异或操作
  • 解码过程,代码为(n >>> 1) ^ -(n & 1)
    • 无符号右移1位
    • 对(n & 1) 取反
    • 两者异或

FYI

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 159,015评论 4 362
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 67,262评论 1 292
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 108,727评论 0 243
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 43,986评论 0 205
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 52,363评论 3 287
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 40,610评论 1 219
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 31,871评论 2 312
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 30,582评论 0 198
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 34,297评论 1 242
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 30,551评论 2 246
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 32,053评论 1 260
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 28,385评论 2 253
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 33,035评论 3 236
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 26,079评论 0 8
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 26,841评论 0 195
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 35,648评论 2 274
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 35,550评论 2 270