protobuff的序列化和反序列化编码实现

服务器开发中程序数据的两种表示形态:

  1. 保存在内存中的数据。
  2. 需要在网络/磁盘上面传输或存储的数据,这个时候编码需要成为某一种字节序列。

两种类型之间的转换,叫做序列化和反序列化。总结一下我理解的几种序列化/反序列话的方法的优缺点。

1. 使用语言层面的序列化包/库

比如说python有pickle这样的包,可以把rt的数据转换成一种字节编码进行序列化。

优缺点:

  1. 仅限于某一种语言,没有办法跨语言。
  2. 编码的效率似乎不高
  3. 服务器开发中 数据的格式 往往在不停的变化,需要向前兼容和向后兼容。比如一个结构体里面的元素,可能在不停的添加。这样需要序列化的时候,可以多个版本的数据之间兼容。
  4. 看到有人说,这种方式不安全。(我没有体会到)
2. json/xml 序列化工具

这种工具应该是第一种方式的改良,比如说,我可以python --> 序列化为json --> 反序列化 --> go 。这样可以使用跨语言的数据表示。这应该是我理解到的优点。

缺点:

  1. 依然是编码效率低 (相比较二进制的编码而言,类似于人可以看懂的编码的效率是低的)
  2. 依然是没有向前向后兼容
3. 二进制json的工具

这个类型的方式是上一种方式的改进,二进制的编码效率更高。但是,这个二进制的编码的内容和后面提及的protobuff的二进制编码是不一样的。二进制的json可以理解为对json内容用二进制的方式表示,二进制的数据里面是包含json的key和value的。但是,protobuff的二进制是不保存key的,只保存value,这样效率更高。

缺点:

  1. 依然没有办法多版本的数据兼容
  2. 编码效率还可以提高
4. protobuff

protobuff是前面几种方式的改进。

  1. 通过版本号的机制,解决了数据的多版本之间的兼容。
  2. protobuff采用二进制编码,效率比较高。这个和二进制json不同的是,它的二进制数据中是不包含key的,只有value。
  3. protobuff类似可变长编码的机制进行压缩数据,这样的编码效率会进一步的提高。
  4. 可以自动生成多种语言的数据描述文件,实现跨语言。

protobuff

pb是开源的,官方的文档的介绍 https://developers.google.com/protocol-buffers/docs/encoding。简单的学习了一下自己好奇的几个问题pb底层是如何实现的,整理在这里。第一个问题是,pb是如何编码/解码的,第二是pb如何做到向前兼容的。

1. pb是如何编码/解码的?

pb的编码规则的基本思路是TTLV(TAG-TYPE-[LEN]-VALUE)。通过tag指定数据类型,value指定数据的值,LEN指定数据的长度(对数据类型不是固定长度的需要此字段,比如string类型)。

- int类型是如何被编码的?
Tag-Type的组成是 = (tag<<3)|type。tag指的是定义proto文件中每个消息对应的id。比如,datetime的消息id就是1。

message HeartBeatMessage{
       int64  dateTime = 1;
       string hostName = 2;
       string ip = 3;
       string info = 4;
}

type的定义如下:

注意上图中,3 和 4 已经被废弃了,所以 type 取值目前只有 0、1、2、5。

那么对应上面定义的dataTime字段,它的TAG编码是:

tag = 1
type = 0
tag << 3 | type = 0000 1000

对应是数值类型的编码,这里需要指明长度和value。pb采用了varint编码,规则如下:

   0 ~ 2^07 - 1 0xxxxxxx
2^07 ~ 2^14 - 1 1xxxxxxx 0xxxxxxx
2^14 ~ 2^21 - 1 1xxxxxxx 1xxxxxxx 0xxxxxxx
2^21 ~ 2^28 - 1 1xxxxxxx 1xxxxxxx 1xxxxxxx 0xxxxxxx
2^28 ~ 2^35 - 1 1xxxxxxx 1xxxxxxx 1xxxxxxx 1xxxxxxx 0xxxxxxx

varint编码中的每个字节都设置了最高有效位为1则表明后面的字节还是属于当前数据的,如果是0那么这是当前数据的最后一个字节数据。

比如数字:100100对应的varint编码是什么?

十进制     :   100100
对应的二进制:    0000 0001  1000 0111  0000 0100
varint编码:     1000 0100  1000 1110  0000 0110

草图如下:


image.png

- string类型是如何被编码的?

message HeartBeatMessage{
       int64  dateTime = 1;
       string hostName = 2;
       string ip = 3;
       string info = 4;
}

对于定义hostname,假设hostname=“dataNode-1000”,它的tag-type是

tag = 2
type = 2
2<<3|2 = 0001 0010 

下一个字段是len

“dataNode-1000”的长度是13,那么len=13,对应的十六进制=0d

下一个字段是value

dataNode-1000

验证一下,对于如下代码:


image.png

对应的pb编码后的二进制是:


image.png

解析过程如下:


image.png
2. pb如何版本兼容的

处理兼容的代码应该是在这里:(proto生成cpp文件中)


image.png

pb把 tag 和其类型一起打进去字节流,解码程序只要解析出不认识的 tag,就能知道该字段是新协议定义的,再通过其类型可以推断出该字段内容的长度,就能正确的跳过这部分 buffer,继续解析下一个字段。

demo code:
https://github.com/zhaozhengcoder/CoderNoteBook/tree/master/example_code/pb_demo

3. 几个修饰符什么作用

required,optional,repeat 有什么作用?

proto3去掉了required 和 optional的修饰关键字。
https://zhuanlan.zhihu.com/p/46603988

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 158,847评论 4 362
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 67,208评论 1 292
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 108,587评论 0 243
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 43,942评论 0 205
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 52,332评论 3 287
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 40,587评论 1 218
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 31,853评论 2 312
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 30,568评论 0 198
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 34,273评论 1 242
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 30,542评论 2 246
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 32,033评论 1 260
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 28,373评论 2 253
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 33,031评论 3 236
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 26,073评论 0 8
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 26,830评论 0 195
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 35,628评论 2 274
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 35,537评论 2 269