c++ std::string能否存储二进制字符以及'\0'字符?

c++的字符串类std::string能否存储二进制字符以及字符'\0'?


要解决这个问题,我们首先要了解c++的std::string的存储结构。
(注意不同的平台下C++规范对std::string的实现不完全一致,例如sizeof(std::string)在linux x64 gcc-4.4下的输出是8,而在mac gcc 4.2下的输出是24; 这篇文章以Linux x64 gcc Red Hat 4.4.4为运行环境。)

首先检查std::string类的实例大小, 即一个std::string对象占用空间大小。

#include <stdio.h>
#include <string>

int main(int argc, char * argv[])
{
    std::string ss("1234567890");

    printf("sizeof=[%d]\n", sizeof(ss));
    printf("size()=[%d]\n", ss.size());
    printf("data  =[%s]\n", ss.data());

    return 0;
}

运行结果如下:

sizeof=[8]
size()=[10]
data  =[1234567890]

我们可以看到sizeof(ss)的输出大小为固定8字节,和string的内容无关,不管内容字符串有多少长度,这个大小都正好是一个地址长度,这说明std::string实例只有一个成员变量即指向字符串内容的指针,而并没有别的成员变量来记录实际字符串长度了。其类成员内存分配模型如下:

1.jpg

总结起来std::string的成员只有一个指向字符串值的指针。

再看函数size()的输出,正好是字符串内容的长度10个字符,所以size()返回就是10,这个size()函数类似于C语言里返回char *类型数据的长度,即strlen()的返回值(??? 先这么理解)。

下面我们用程序来验证这个问题,即std::string只有一个指针成员变量,这个指针正好指向字符串内容的内存地址。

int main(int argc, char * argv[])
{
    std::string ss("1234567890");
    void * pv = (void *)&ss;
    char * ps = *((char **)pv);

    printf("&ss=[%p]\n", pv);
    printf("*(ss)=[%p]\n", ps);
    printf("&data=[%p]\n", ss.data());
    printf("data=[%s]\n", ss.data());
    return 0;
}

输出结果如下:

&ss=[0x7fffc8d43ff0]
*(ss)=[0x1ba8028]
&data=[0x1ba8028]
data=[1234567890]

可以看到ss对象的地址是0x7fffc8d43ff0,这个地址上存储的值是0x1ba8028,这个值和data()的值是一样的,也就是说明ss的唯一成员变量就是一个地址,这个地址是一个指向字符串内容的指针。
至此我们已经了解的std::string对象的存储模式。


接下来我们再讨论std::string能否存储二进制字符以及'\0'字符的问题。还是通过一个例子说明。

#include <stdio.h>
#include <string.h>
#include <string>

int main(int argc, char * argv[])
{
    std::string ss = std::string("12") + '\0' + "34" + '\11' + "56" + '\255' + "78";

    printf("strlen=[%d]\n", strlen(ss.data()));
    printf("data  =[%s]\n", ss.data());
    printf("sizeof=[%d]\n", sizeof(ss));
    printf("size()=[%d]\n", ss.size());

    return 0;
}

依据前面的经验,我们可以很快得出:strlen输出应该是2,data输出应该是"12",sizeof输出应该是8,可是size()输出应该是多少呢?有两种可能:
a). 输出2,即和strlen一样,因为data的第三个字符为'\0'。
b). 输出11,因为总的字符长度为11。
如果a)是正确的,那么相当于剩下的"34", "\255", "56",以及"78"都找不到了,无法引用了,是个严重的memory leak问题;而如果b)是正确的,那么这个size=11是如何计算出来的呢,尽管在"78"之后有一个'\0’字符, 从'1'开始到"78"之后的'\0'长度正好是11,现在的问题是在"12"和"34"之后也有一个'\0'字符,std::string如何得知字符串内容已经结束了呢?

先看上述代码的实际运行结果:

strlen=[2]
data  =[12]
sizeof=[8]
size()=[11]

我们看到size()的实际输出值是11,可见第二种可能性是正确的,所以memory leak的问题是不存在的,那么剩下的问题是size()如何得出正确的值。


通过前面分析我们已经知道两点,1.这个size肯定是需要记录下来的,存在某一个地方;2.类std::string的实例大小是8,即一个指针大小,而这个指针正好确实是指向了字符串内容的地址;貌似没有地方存储这个size大小的值了。

做过应用程序内存分配库函数API的同学估计已经猜到了,std::string可能会把这个size存在什么地方了:),另外如果学习过C++ new数组操作的童鞋估计也猜到了,例如char * ch = new char[50],c++会在ch地址的前面位置存储这个长度50 。
下面我们再给出一个例子来验证这个猜测。

#include <stdio.h>
#include <string>

int main(int argc, char * argv[]) {
    std::string ss = "1234567890";
    void * pv = (void *)&ss;
    char * ps = *((char **)pv);

    printf("pv=%p\n", pv);
    printf("ps=%p\n", ps);

    size_t len = ss.size();

    return 0;
}

用GDB单步调试

(gdb) b _ZNKSs4sizeEv
Breakpoint 1 at 0x400688
(gdb) r
pv=0x7fffffffe030
ps=0x601028
(gdb) disassemble
Dump of assembler code for function _ZNKSs4sizeEv:
=> 0x000000388f49c050 <+0>:     mov    (%rdi),%rax
   0x000000388f49c053 <+3>:     mov    -0x18(%rax),%rax
   0x000000388f49c057 <+7>:     retq   
End of assembler dump.
(gdb) info register rdi
rdi            0x7fffffffe030   140737488347184
(gdb) si
(gdb) info register rax
rax            0x601028 6295592
(gdb) si
(gdb) info register rax
rax            0xa      10
(gdb) disassemble
Dump of assembler code for function _ZNKSs4sizeEv:
   0x000000388f49c050 <+0>:     mov    (%rdi),%rax
   0x000000388f49c053 <+3>:     mov    -0x18(%rax),%rax
=> 0x000000388f49c057 <+7>:     retq   
End of assembler dump.
(gdb) x/64 0x601028-32 
0x601008:       49      0       10      0
0x601018:       10      0       0       0
0x601028:       875770417       943142453       12345   0
0x601038:       135121  0       0       0
0x601048:       0       0       0       0
0x601058:       0       0       0       0
0x601068:       0       0       0       0
0x601078:       0       0       0       0
0x601088:       0       0       0       0
0x601098:       0       0       0       0
0x6010a8:       0       0       0       0
0x6010b8:       0       0       0       0
0x6010c8:       0       0       0       0
0x6010d8:       0       0       0       0
0x6010e8:       0       0       0       0
0x6010f8:       0       0       0       0

单步来分析这些指令的含义

(gdb) b _ZNKSs4sizeEv

设置程序断点std::string::size(),这个是mangle的函数名。

(gdb) r
pv=0x7fffffffe030
ps=0x601028

执行到断点的时候,程序中的两个print语句已经执行完成,我们记住这两个值,下面会用到。

(gdb) disassemble
Dump of assembler code for function _ZNKSs4sizeEv:
=> 0x000000388f49c050 <+0>: mov (%rdi),%rax
0x000000388f49c053 <+3>: mov -0x18(%rax),%rax
0x000000388f49c057 <+7>: retq
End of assembler dump.

反汇编std::string::size()代码,我们可以看到它只有三条指令。

(gdb) info register rdi
rdi 0x7fffffffe030 140737488347184

查看rdi寄存器的值,我们看到是0x7fffffffe030,这和前面打印出来的pv的值是一样的,也就是说%rdi存储的是ss对象的地址。
在之前介绍x64函数传参规范的时候,我们知道函数的第一个参数使用%rdi传递的,有人可能会问了size()没有参数啊,其实C++的实例函数都是默认把this指针作为函数的第一个参数;std::string::size()可理解成C代码的size(std::string * ss);

(gdb) si
(gdb) info register rax
rax 0x601028 6295592

执行完指令mov (%rdi),%rax,把(%rdi)的值load到%rax寄存器;我们看到此时%rax寄存器的值和前面打印出来的ps的值是一样的,就是ss的内容字符串的地址。

(gdb) si
(gdb) info register rax
rax 0xa 10
(gdb) disassemble
Dump of assembler code for function _ZNKSs4sizeEv:
0x000000388f49c050 <+0>: mov (%rdi),%rax
0x000000388f49c053 <+3>: mov -0x18(%rax),%rax
=> 0x000000388f49c057 <+7>: retq

执行完指令mov -0x18(%rax),%rax,把-0x18(%rax)的值load到%rax寄存器,我们可以看到此时%rax的值就是字符串的长度。再把字符串内容地址前后64字节内容打出来看看:

(gdb) x/64 0x601028-32 
0x601008:       49      0       10      0
0x601018:       10      0       0       0
0x601028:       875770417       943142453       12345   0
0x601038:       135121  0       0       0
0x601048:       0       0       0       0
0x601058:       0       0       0       0
0x601068:       0       0       0       0
0x601078:       0       0       0       0
0x601088:       0       0       0       0
0x601098:       0       0       0       0
0x6010a8:       0       0       0       0
0x6010b8:       0       0       0       0
0x6010c8:       0       0       0       0
0x6010d8:       0       0       0       0
0x6010e8:       0       0       0       0
0x6010f8:       0       0       0       0

据此我们可以推测std::string对象使用字符串内容地址的前面0x18开始存储的是size的值,也就是字符串地址前面的第24字节开始的8字节长度存储size的值;类字符串buffer内存分配模型如下:

2.jpg

最后通过几个例子验证一下:

#include <stdio.h>
#include <string>

void foo(const std::string & ss) {
    char * ps = *((char **)&ss);
    printf("size=%d,*(ps - 0x18)=%d\n", ss.size(), *((long *)(ps - 24)));
}

int main(int argc, char * argv[])
{
    std::string ss("");
    foo(ss);

    ss = "1";
    foo(ss);

    ss = std::string("12") + '\0' + "34" + '\11' + "56" + '\255' + "78";
    foo(ss);

    return 0;
}

运行结果

size=0,*(ps - 0x18)=0
size=1,*(ps - 0x18)=1
size=11,*(ps - 0x18)=11
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 162,547评论 4 374
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 68,787评论 2 308
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 112,175评论 0 254
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 44,752评论 0 223
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 53,169评论 3 297
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 41,056评论 1 226
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 32,195评论 2 321
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 30,980评论 0 214
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 34,724评论 1 250
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 30,872评论 2 254
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 32,344评论 1 265
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 28,667评论 3 264
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 33,379评论 3 245
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 26,202评论 0 9
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 26,992评论 0 201
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 36,189评论 2 286
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 35,987评论 2 279

推荐阅读更多精彩内容