二进制的☆秘☆密☆

如何用命令行工具审查二进制文件

引言

相像一下你手头有一个可执行的二进制文件，只要你运行它电脑就会立刻爆炸。聪明的你马上调用 chmod -x 来防止这个情况发生。但是你仍然很好奇，想知道这个程序的各种信息，比如它是否是 64 位的，用什么编译器编译的，依赖于什么库等等。这时你应该怎么做呢？

Linux 下有一系列的工具都是用来做这些事，让你在不执行一个程序的情况下查看其各种信息。

准备

我在自己的机器上编译一个简单的 C 文件：

$ cat > bar.c 
#include <stdio.h>

void foo() {
    puts("hello world.");
}

int main() {
    foo();
    return 0;
}
$ gcc -g bar.c -o bar
$ ./bar
hello world.

后文会用到产生的二进制文件 bar 作为例子。

基础信息

一上来当然应该用万能的 file 来看看它是啥：

$ file bar
bar: ELF 64-bit LSB executable, x86-64, version 1 (SYSV), dynamically linked (uses shared libs), for GNU/Linux 2.6.32, BuildID[sha1]=0xd677a3aba13e5b248c20e0d96c5d9328ae66231d, not stripped

file 的工作原理是根据系统中的 magic 文件，读取 bar 开头的部分来判定文件的类型。之后对于某些文件类型可以继续的读取相关信息并解析出来。这里 file 认出了 bar 是一个 ELF 格式的可执行文件，并从 ELF 头来读出了关于大小端，32/64架构，是否动态链接等等信息。末尾的 not stripped 指的是文件包含调试信息。

要看到像文章开头那样高端的十六进制加 ASCII 码表示，我们可以使用 xxd:

$ xxd bar | head -4
0000000: 7f45 4c46 0201 0100 0000 0000 0000 0000  .ELF............
0000010: 0200 3e00 0100 0000 3004 4000 0000 0000  ..>.....0.@.....
0000020: 4000 0000 0000 0000 880d 0000 0000 0000  @...............
0000030: 0000 0000 4000 3800 0800 4000 2500 2200  ....@.8...@.%.".

可以清楚的看到最开始四位中的 ELF，这也是 ELF 格式故意定义的标识。

用 strings 可以看到文件中的 C 风格字符串：

$ strings bar | tail -4
UH-H    `
UH-H    `
[]A\A]A^A_
hello world.

这里很清楚的就能看到程序中的 "hello world."，可以想象程序中的字符串常量是多么的脆弱。通过上面的 xxd 我们还可以轻易的修改它：

$ echo "0005da: 6865 6c6c 6f20" | xxd -r - bar
$ ./bar
hello hello

通过 xxd -r 我们把 "world." 对应的数据换成了 "hello "，重新执行程序输出也发生了相应的改变。

编译，链接和调试相关

用 nm 可以列出 ELF 中包含的 "Symbols"，比较明显的就是其自己内部的 C 函数名，以及用到外部的其他函数。由于我们编译时特地保留了调试信息，用 nm -l 可以看到 Symbol 对应的到哪个文件的哪一行：

$ nm -l bar | tail -5
000000000040051c T foo  /tmp/bar.c:3
00000000004004f0 t frame_dummy
000000000040052c T main /tmp/bar.c:7
                 U puts@@GLIBC_2.2.5
0000000000400490 t register_tm_clones

上面显示的三栏分别是 Symbol 的地址，类型和名字加上附加信息。类型中 T 代表符号在 ELF 的 .text section 中，也就是说这个符号的代码包含在该文件中。而 "U" 是说该符号还未定义，也就是需要运行时由 ld.so 链接并满足。

bar 甚至于绝大多数常见 Linux 可执行文件都是动态链接的。ldd 可以用来查看其依赖的动态链接库，也就是要运行 bar 所需要的其他 .so 文件们：

$ ldd bar
    linux-vdso.so.1 (0x00007fffecf1b000)
    libc.so.6 => /lib/x86_64-linux-gnu/libc.so.6 (0x00007f0e6e123000)
    /lib64/ld-linux-x86-64.so.2 (0x00007f0e6e4e1000)

其中 libc.so.6 就是上面提到的 soname。libc 中的内容是 C 标准库的东西。如同这篇文章里提到的，"C 语言最大的成就之一就是让大家认为 C 是不需要 Runtime 的"，事实上绝大部分程序都跑不开对 libc 的依赖。最下面的 ld-linux-x86-64.so.2 就是之前提到的 ld.so，显然的不同架构使用的 ld.so 也是分开的。最开始的 linux-vdso.so.1 说实话我也是第一次注意到... 但根据文档来看似乎是不太需要普通用户关心的东西。

比如我把 bar 拷贝到另一台系统目录结构有些差异的机器上，那么某些库可能找不到。ldd 在这种时候也能给出比较清楚的解释。另外 Windows 上也有一个类似的工具叫做 depends.exe 用来查找 dll 依赖。

要确定 bar 到底是用哪个版本的编译器编译出来的，简单粗暴的方法就是使用 strings -a 来读取包括非用户区的所有字串符：

$ strings -a bar | grep GCC
GCC: (Debian 4.7.2-5) 4.7.2
GCC: (Debian 4.8.2-21) 4.8.2

事实上这里用的的确是 4.7.2，我也说不清后面的 4.8 是从哪里来的。要注意的是这些信息基本上是只在 ELF 文件带有调试信息的时候才会保留下来。

调试信息当然也是直接存在 ELF 文件中的。ELF 用不同的 section 来存放不同类型的数据，在执行的时候将 section 拼成 segment 来载入到内存。这里的 section 值的就是 .text, .data 这样的数据段。而 segment 正是我们熟悉的 Segment Fault 里面的那个 segment。我们可以用工具读取 ELF 文件并解析其内容。这里可以使用 readelf 和 objdump，两者功能上似乎没有太大的区别，本文后面用 readelf 作为示范。

用 readelf -l 列出所有的 segment 和其包含的 section 之间的关系。由于显示结果比较长，这里只列出裁减过的一部分：

$ readelf -l bar
Elf file type is EXEC (Executable file)
Entry point 0x400430
There are 8 program headers, starting at offset 64

Program Headers:
  Type           Offset             VirtAddr           PhysAddr
                 FileSiz            MemSiz              Flags  Align
                 .............................
  LOAD           0x0000000000000000 0x0000000000400000 0x0000000000400000
                 0x0000000000000704 0x0000000000000704  R E    200000
  LOAD           0x0000000000000708 0x0000000000600708 0x0000000000600708
                 0x0000000000000240 0x0000000000000248  RW     200000
                 .............................

 Section to Segment mapping:
  Segment Sections...
                 .............................
   02     .plt .text .fini .rodata 
   03     .data .bss 
                 .............................

首先来看看 section，这个估计大家都有一点印象：

.text 存放的是编译过后的代码，也就是可以执行的机器指令。
.rodata 存放的是只读的数据，比如像我们程序中的 "hello world" 常量字符串。
.data 存放的是可读写的数据，比如 int foo 这样的全局变量。
.bss 存放的是未初始化的数据段。

对应的我们有两个 section 分别是 02 和 03，两者的最大差别在于 FLAGS 那一栏。这里的 FLAGS 跟 Linux 文件系统的权限是一个意思，RWE 分别对应可读，可写和可行。02 是可读可执行不能写的，所以 .text, .rodata 两个 section 被分配到了这个 segment。系统在载入 02 时会根据 FLAGS 对其进行保护，如果你数组越界写到了 02 这个不可写的 segment 上，就会产生 Segment Fault。同理因为 .data 和 .bss 都是需要可以被写的，所以他们被分配到了 03 上。显然如果 03 中的数据能被当做指令执行会异常危险，所以系统也会保证如果 PC 指到这边的话也会报错。

readelf 也可以用来查看某个 section 中的内容。很容易想象 .rodata 中应该有 "hello world." 这个字符串，这里用 readelf -x .rodata 来确认一下：

$ readelf -x .rodata bar

Hex dump of section '.rodata':
  0x004005d0 01000200 68656c6c 6f20776f 726c642e ....hello world.
  0x004005e0 00                                  .

事实上不是所有的 section 都会被分到 segment 并载入内存。用 readelf -S 可以列出所有的 section：

$ readelf -S bar
There are 37 section headers, starting at offset 0xd88:

Section Headers:
  [Nr] Name              Type             Address           Offset
       Size              EntSize          Flags  Link  Info  Align
  [ 0]                   NULL             0000000000000000  00000000
       0000000000000000  0000000000000000           0     0     0
                 .............................
  [12] .init             PROGBITS         00000000004003d0  000003d0
       000000000000001a  0000000000000000  AX       0     0     4
  [13] .plt              PROGBITS         00000000004003f0  000003f0
       0000000000000040  0000000000000010  AX       0     0     16
  [14] .text             PROGBITS         0000000000400430  00000430
       0000000000000194  0000000000000000  AX       0     0     16
  [15] .fini             PROGBITS         00000000004005c4  000005c4
       0000000000000009  0000000000000000  AX       0     0     4
  [16] .rodata           PROGBITS         00000000004005d0  000005d0
       0000000000000011  0000000000000000   A       0     0     4
                 .............................
  [25] .data             PROGBITS         0000000000600938  00000938
       0000000000000010  0000000000000000  WA       0     0     8
  [26] .bss              NOBITS           0000000000600948  00000948
       0000000000000008  0000000000000000  WA       0     0     4
  [27] .comment          PROGBITS         0000000000000000  00000948
       0000000000000039  0000000000000001  MS       0     0     1
  [28] .debug_aranges    PROGBITS         0000000000000000  00000981
       0000000000000030  0000000000000000           0     0     1
  [29] .debug_info       PROGBITS         0000000000000000  000009b1
       00000000000000b2  0000000000000000           0     0     1

可以看到像 .comment 和 debug 相关的 section 明显没有被分到任何 segment 里。.comment 里面放的正是之前看到的编译器信息：

$ readelf -x .comment bar

Hex dump of section '.comment':
  0x00000000 4743433a 20284465 6269616e 20342e37 GCC: (Debian 4.7
  0x00000010 2e322d35 2920342e 372e3200 4743433a .2-5) 4.7.2.GCC:
  0x00000020 20284465 6269616e 20342e38 2e322d32  (Debian 4.8.2-2
  0x00000030 31292034 2e382e32 00                1) 4.8.2.

而各种 debug 相关的信息则需要 gdb 这样的工具来读取并解析：

$ gdb -batch -ex "info sources" bar
Source files for which symbols will be read in on demand:
/tmp/bar.c

可以看到 gdb 能够找到源文件的路径。

使用 strip 可以将调试信息从 ELF 中消去:

$ strip bar
$ readelf -S bar
There are 29 section headers, starting at offset 0xa80:
                 .............................

可以看到 section 数量减少了很多。

最后

不知道你有没有想到这些东西在实际工作中有什么用处。说实话这些可以用的地方不是太多... 但偶尔碰需要处理环境相关的情况，或者验证编译出的文件是否有问题，这些东西应该能派的上用场。

最后编辑于：2017.11.26 22:46:14

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 158,736评论 4赞 362
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 67,167评论 1赞 291
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 108,442评论 0赞 243
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 43,902评论 0赞 204
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 52,302评论 3赞 287
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 40,573评论 1赞 216
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 31,847评论 2赞 312
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 30,562评论 0赞 197
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 34,260评论 1赞 241
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 30,531评论 2赞 245
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 32,021评论 1赞 258
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 28,367评论 2赞 253
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 33,016评论 3赞 235
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 26,068评论 0赞 8
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 26,827评论 0赞 194
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 35,610评论 2赞 274
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 35,514评论 2赞 269

二进制的☆秘☆密☆

二进制的☆秘☆密☆

引言

相关基础知识

准备

基础信息

编译，链接和调试相关

最后

推荐阅读更多精彩内容