静态链接的一点小总结(二) 《程序员的自我修养》·笔记

静态链接的一点小总结(二)

空间与地址分配

  • 问题引入
      可执行文件与目标文件的格式是类似的,所以,可以说可执行文件中的代码段和数据段都是由输入的目标文件中合并而来的。
      解决方法:

    • 按序叠加
      顾名思义,该方法就是将各个目标文件依次合并叠加

      问题
        合并的过程中,每个段都需要有一定的地址和空间的对齐要求,对于规模稍大的应用程序,对应的输出文件会有成百上千的段,很显然,这种做法很浪费空间。
    • 相似段合并
      就是将同种性质的段进行合并。如下图所示:



        需要注意的是:".bss段"在目标文件和可执行文件中并不会占用文件空间,但是在装载时(重定位后进行装载)会占用地址空间。链接器在合并各个段的时候,也会将".bss段"进行合并(只是没有内容),并且分配虚拟空间。

    “链接器为目标文件分配地址和空间”的两层含义
    1.输出的可执行文件中的空间
    2.装载后的虚拟地址中的虚拟地址空间
    3.需要注意的是,对.text和.data而言,他们在可执行文件和虚拟地址中都需要分配空间,因为他们在这两者中都存在;但是对于.bss段而言,分配空间仅仅限于虚拟地址空间,因为它在可执行文件并没有内容(只有大小的记录)。

    • 两步链接
      1.空间与地址分配:扫描所有的输入文件,获得它们的各个段的长度、属性和位置。将输入文件中的符号表中所有的符号定义和符号引用收集起来,统一放到一个全局符号表。 合并相应段,计算出合并后的段的长度和位置,并建立映射关系。
      2.符号解析与定位:这是链接的核心,使用上一步获取到的信息,读取输入文件中的段信息、重定位信息,进行符号解析和重定位、调整代码中的地址等,进而完成链接。链接前后,目标文件隔断的分配、虚拟地址如下图所示:

        为什么链接器要将ab的代码段分配到ox08048094,数据段分配到ox08049108,而不是从 虚拟地址的0地址开始分配呢?这涉及操作系统的进程虚拟地址空间分配规则,在linux下,ELF可执行文件默认从地址0x08048000开始分配。
      注意:链接后程序中使用的地址已经是虚拟地址,我们关心VMA和size忽略文件偏移。
    • 符号地址的确定
        在虚拟内存中,由上述链接过程可知,各个段的虚拟地址已经知道了,并且各个符号现的段内地址也是知道的,则各个符号的虚拟地址就可以确定了。
        符号的虚拟地址确定了,就可以进行重定位了。
  • 符号的解析与重定位

    • 重定位表
        哪些指令是要被调整的呢?这些指令的哪些部分需要调整?怎么调整?ELF文件中有个叫重定位表的结构专门来保存这些与重定位相关的信息。
        重定位表也叫做重定位段,是ELF文件中的一个段;如果.text有需要被重定位的符号,就会有一个.rel.text的重定位代码段,同理重定数据段也是一样。
        重定位表中存储的主要是重定位入口以及对应的偏移,偏移指的是该入口对应的重定位段中的位置。
    • 符号解析--我们经常遇到的"undefined reference to ''"
        重定位的过程中,每一个重定位的入口都是对一个符号的引用。当连接器要对某个符号的引用进行重定位的时候,就需要确定这个符号的目标地址。
      此时*,链接器就会去查找由所有输入目标文件的符号表组成的全局符号表,找到相应的符号后(结构体中有相应的成员)方可进行重定位。
  • 静态链接过程
      静态链接需要用到静态库,静态库可以简单的看成一组目标文件的集合,即很多目标文件压缩打包后的文件。

    • C语言的运行库中有很多与系统功能相关的代码,编译完成后就会生成相同数量的目标文件,之后使用"ar"压缩程序将这些目标文件压缩到一起,并对那些目标文件进行编号和索引,就会形成linux中libc.a这个静态库文件。
    • 编译完成相应的用户程序之后进行链接操作,使用ld链接器。ld链接器会自动寻找所有的需要的符号以及它们所在的目标文件,并将这些目标文件从libc.a中解压出来(进而构建全局符号表...)(需要注意的是解压的文件不一定就是用户程序需要链接的目标文件,也可能在被解压的目标文件中有各种各样的嵌套,都要解压),最终将它们链接在一起成为可执行文件。
  • 静态连接过程的控制

    • 有一些特殊的程序,如: 操作系统内核、 BIOS 一些在没有操作系统的情况下运行的程序(bootloader/嵌入式系统程序等) 内核驱动等 它们往往受限于一些特殊条件,如需要指定输出文件的各段虚拟地址、段的名称、段的存放顺序等,因为这些特殊的环境,特别是硬件条件的限制,往往对程序的各段地址有特殊的要求。链接器大致提供了三种方式控制链接过程:
      1.命令行参数;
      2.链接指令放在目标文件中,编译器经常使用这种方法向链接器传递参数。PE目标文件 的.drectve段以用来传递参数;
      3.使用链接控制脚本,也是最灵活、最强大的链接控制方法。

推荐阅读更多精彩内容