main函数执行前后 《程序员的自我修养》·笔记

【前言】main函数执行前后的宏观过程(C++)

  • linux系统下压板程序的入口是"_start",这个函数是linux系统库(Glibc)的一部分,当我们的程序和Glibc链接在一起形成最终的可执行文件的之后,这个函数就是程序执行初始化的入口函数。
  • 程序初始化部分完成一系列初始化过程之后,会调用main函数来执行程序的主体。在main函数执行完成以后,再返回到初始化部分,进行一些清理工作,然后结束进程。
  • 对C++而言:(ELF文件为其定义了两个特殊的段)
    • .init 该段保存的是可执行的命令,它构成了进程的初始化代码。因此,当一个程序开始运行的时候,在main函数被调用之前,Glibc的初始化部分安排执行这个段中的代码
    • .fini 该段保存着进程终止命令代码。因此,当一个程序的main函数正常退出的时候,Glibc会安排执行这个段中的代码。
  • 这两个段的存在有特别的目的,如果一个函数放到.init段,在mai函数执行前系统就会执行它(就是因为它在这个段)。同理,如果一个函数放到.fini段,在main函数返回后该函数就会被执行。利用这两个特性,C++实现了全局构造和析构函数。

一个典型程序的大致运行步骤

  • 操作系统创建进程后,把控制权交到了程序入口,这个入口往往是程序运行库中的某个入口函数。
  • 入口函数对运行库和程序运行环境进行初始化,包括堆、I/O、线程、全局变量的构造等等。
  • 入口函数在完成初始化之后,调用main函数,正式开始执行函数主体部分。
  • main函数执行完毕之后,返回到入口函数,入口函数进行清理工作,包括全局变量析构、堆销毁、关闭I/O等,然后进行系统调用结束进程。

入口函数的实现

  • Glibc的入口函数
    • _start函数
        该入口是由ld链接器默认的链接脚本指定的,当然用户也可以通过参数进行设定。_start由汇编代码实现。大致用如下伪代码表示:
void _start()
{
  %ebp = 0;
  int argc = pop from stack
  char ** argv = top of stack;
  __libc_start_main(main, argc, argv, __libc_csu_init, __linc_csu_fini,
  edx, top of stack);
}
具体过程可以参见下图:


  在调用_start之前,装载器就会将用户的参数和环境变量压入栈中,如图所示,栈顶元素是argc,接着就是argv和环境变量的数组。
  其中argv除了指向参数表外,还隐含紧接着环境变量表。这个环境变量表要在__libc_start_main里从argv内提取出来
  实际执行代码的是__libc_start_main。

- __libc_start_main函数
    - 函数头
```
int __libc_start_main(
        int (*main)(int, char **, char *),
        char * __unbounded *__unbounded ubp_av,
        __typeof(main) init,
        void (*fini)(void),
        void (*rtld_fini)(void),
        viud *__unbounded stack_end)
      可以啊看出,一共有7个参数,其中main由第一个参数传入,紧接着就是argc和argv(这里叫做ubp_av,应为其中还包括了环境变量表)。此外的3个函数指针:
    (1)init:main调用之前的初始化工作;
    (2)fini:main结束之后的收尾工作;
    (3)rtld_fini:和动态加载有关的收尾工作。
    最后的stack_end标明了栈底的位置,即最高的栈地址。
        - \__libc_start_main代码中的一个特殊的宏(宏INIT_ARGV_and_ENVIRON)
        宏展开之后如下:
        `char **ubp_rv = &ubp_av[argc+1];`
        `__environ = ubo_ev;`
        `__libc_stack_end = stack_end;`
          上述代码实际上就是从_start源代码分析得到的栈布局,重点是让_environ指针指向紧跟子啊argv数组后面的环境变量数组。如下图:
        ![](http://7xl3j2.com1.z0.glb.clouddn.com/cxy-21.png)
        - __libc_start_main代码中的一系列重要的函数
        ```
          __pthread_initialize_minimal();
        __cxa_atexit(rtld_fini, NULL, NULL);
        __libc_init_first(argc, argv, __environ);
        __cxa_atexit(fini, NULL, NULL);
        (*init)(argc, argv, __environ);
        - __cxa_atexit函数是glibc的内部函数,等同于atexit,在main之后调用。
        - 所以可以看出,参数传入的fini和rtld_fini均是用于main结束之后调用的。在\__libc_start_main末尾,关键是如下两行的代码:
        `result = main(argc, argv, _environ);`
        `exit(result);`
        main函数最终被调用,并退出。
        【补充】程序正常结束有两种情况:main函数正常返回;程序中exit()退出。但是在\__libc_start_main中可以看出,即使main正常返回了,exit还是会被调用。所以说exit()是程序退出的必经之路。

推荐阅读更多精彩内容