程序的链接(三):符号和符号表

在前面的文章程序的链接(一)提到,链接的第一步就是符号的解析。要理解符号的解析过程,得先搞明白以下几点:

  • 什么是符号
  • 什么是符号的定义,什么是符号的引用
  • 链接符号的类型有哪些,各自有什么特点
  • 符号表的结构
  • 链接器对符号的解析规则

下面就来一步步搞明白这些点。


符号就是其实程序中的变量名、函数名。

符号的定义和引用,可见下图:


image.png

注意:局部变量temp分配在栈中,不会在函数外部被引用,因此不是符号定义。


链接符号的类型

每个可重定位目标模块m都有一个符号表,它包含了在m中定义和引用的符号。有三种链接器符号:

  • Global symbols(模块内部定义的全局符号)

由模块m定义并能被其他模块引用的符号。例如,非static C函数和非static C全局变量
如,main.c 中的全局变量名buf

  • External symbols(外部定义的全局符号)

由其他模块定义并被模块m引用的全局符号
如,main.c 中的函数名swap

  • Local symbols(本模块的局部符号)

仅由模块m定义和引用的本地符号。例如,在模块m中定义的带static的C函数和全局变量
如,swap.c中的static变量名bufp1.
注意:链接器的局部符号不是指程序中的局部变量(分配在栈中的临时性变量),链接>器不关心这种局部变量

链接器的符号类型,示例如下:


image.png

目标文件中的符号表

目标文件的.symtab节记录着符号表信息,符号表示一个结构体数组,每个表项(16字节)的结构如下:


image.png

使用readelf -s 可查看目标文件的符号表信息,以上面的main.o和swap.o为例:


image.png

image.png

符号定义的本质

符号定义的本质是:指被分配了存储空间。如果是函数名则指代码所在区;如果是变量名则指其所在的静态数据区。

所有定义的符号的值就是其目标所在的首地址。

因此,符号的解析就是将符号引用和符号定义建立关联后,将引用符号的地址重定位为相关联的符号定义的地址。


全局符号的强、弱

全局符号有强、弱的特性。

  • 强符号:函数名和已初始化的全局变量名是强符号。
  • 弱符号:未初始化的全局变量名是弱符号。

举例如下:


image.png

链接器对符号的解析规则
符号解析时,只能有一个确定的定义(即每个符号仅占一处存储空间)。
所以,如果碰到符号存在多重定义时,就得有相应的处理规则:

  • Rule 1:强符号不能多次定义

强符号只能被定义一次,否则链接错误。

  • Rule 2:若一个符号被定义为一次强符号和多次弱符号,则按强符号定义为准。
  • Rule 3:若有多个弱符号定义,则任选其中一个。

使用命令 gcc -fno-common链接时,会告诉链接器在遇到多个弱定义的全局符号时输出一条警告信息。

下面是几个多重定义符号的解析示例:


image.png

image.png

image.png

image.png

关于全局符号的多重定义的问题:

  • 尽量避免使用全局变量
  • 一定要使用的话,就按以下规则使用
  • 尽量使用本地变量(static)
  • 全局变量要赋初值
  • 外部全局变量要使用extern
    多重定义全局变量会造成一些意想不到的错误,而且是默默发生的,编译系统不会警告,并会在程序执行很久后才能表现出来,且远离错误处。特别是在模块很多的大型软件中,这类错误很难修正。

以上,就是关于符号和符号表的要点,接下来就可以继续了解符号解析的过程了。

推荐阅读更多精彩内容