编译和链接

摘自《程序员自我修养》

对于平时的应用程序开发,我们很少关注编译和连接过程,因为通常的开发环境都是流行的集成开发环境(IDE),这样的IDE一般都将编译和连接的过程一步完成,通常将这种编译和连接合并到一起的过程称为构建

#include <stdio.h>
int main()
{
    printf("Hello World");
    return 0;
}

当我们构建一个main函数并执行输出hello world的过程中,其中就包含了四个步骤:预处理(预编译)、编译、汇编、 链接

预编译

预编译过程主要处理那些源代码文件中的以“#”开始的预编译指令,比如“#include”、“#define”等,主要规则如下:

  • 将所有#define删除,并且展开所有的宏定义。
  • 处理所有的条件预编译指令,如#if #ifdef #eif #else #endif
  • 处理#include预编译指令,将被包含的文件Haru到预编译指令的位置。这个过程可能是一个递归的过程,有可能文件中还包含其他文件。
  • 删除所有的注释
  • 添加行号及文件标识符。如#2 "hello.c" 2,以便于编译器产生调试用的行号信息及用于编译时产生编译错误或高警示能显示行号。
  • 保留所有的#pragma编译指令,编译器需要

经过预编译的文件已经不包含任何注释及宏定义,其中宏定义的删除只是进行了展开替换操作。

编译

编译过程就是把预处理完的文件进行一系列词法分析、语法分析、语义分析及优化后生产相应的汇编代码文件,这个过程是整个程序构建的核心部分。

从最直观的角度来讲,编译器就是将高级语言翻译成机器语言的一个工具。使用机器语言或者汇编语言编写的程序依赖于特定的机器,一个为某种CPU编写的程序在另外的CPU下完全无法运行。编译过程一般分为6个步骤:扫描、语法分析、词法分析、语义分析、源代码优化、代码生成和目标代码优化。

词法分析

源代码进入编译器后首先被输入到扫描器,扫描器只是简单的进行此法分析,通过有限状态机的算法将源代码的字符序列分割成一系列的记号。此法分析差生的记号一般可以分为以下几类:关键字、标识符、字面量(数字、字符串等)和特殊符号(加号、等号等)。同事扫描器也将标识符存放到符号表,将数字、字符串常量存放到文字表等,以备后面使用。

语法分析

语法分析器将对由扫描器产生的记号进行语法分析并产生语法树。在语法分析的过程中语句被转化成特定的表达式,同事很多运算符号的优先级和含义也被确定下来,如果出现表达式不合法的情况编译器就会报告语法分析阶段的错误。

语义分析

语法分析主要是完成对表达式的语法层面的分析,但是它并不了解这个语句是否真的有含义。编译能分析的只能是静态语义,也即是在编译阶段可以确定的语义。动态语义只能在运行期才能确定。

静态语义通常包括声明和类型匹配、类型转换。如当一个浮点型的表达式赋值给一个整形的表达式时,其中隐含了一个浮点型到整型的替换过程,语义分析过程中需要完成这个步骤。比如讲一个浮点型赋值给一个指针的时候,语义分析程序会发现这个类型不匹配,编译器会报错。动态语义一般指在运行期出现的语义想干的问题,比如将0作为除数是一个运行期语义的错误。

中间语言生成

编译器有很多层次优化,并且在源代码就会有优化。这里提到的是源码级别的而优化器在不同编译器中可能会有不同的定义或有其它的一些差异。源代码优化器会在源代码级别进行优化,如(2+6)表达式就可能会直接优化为8,因为这个值在编译期就可以确定了。由于直接在语法树上做优化比较困难,所以源代码优化器往往把语法树转换为中间代码,它是语法树的顺序表示。非常接近目标代码,但是不保护数据尺寸,变量地址,寄存器名字等。

中间代码使得编译器分为前端和后端,前端负责产生平台无关的中间代码,后端将中间代码转为平台相关的代码。如果是跨平台的编译器,可以针对不同的平台使用同一个前端,不同的平台用多个后端。

目标代码的生成与优化

中间代码使得编译器分为前端和后端,其中后端主要包括代码生成器目标代码优化器

代码生成器的主要功能是将中间代码转化成城机器代码,这个过程十分依赖于目标机器,因为不同的机器有着不同的字长、寄存器、整数数据类型和浮点数据类型等,

目标代码优化器的主要作用是对上面生成的目标代码进行优化,比如选择合适的寻址方式、使用唯一来替代乘法运算、删除多余的指令等。

汇编

汇编器将汇编代码转变成机器可以执行的指令并最终输出二进制格式的目标文件

gcc -c hello.s -o hello.o

链接

扯淡序言:很久很久以前,在一个非常遥远的银河系...人们编写程序时,将所有的源代码都写在同一个文件中,发展到后来一个程序代码的文件长达数百万行,以至于这个地方的人嘞已经没有能力维护这个程序了。人们开始寻找新的办法,一场新的软件开发革命即将爆发...

回顾历史,致敬先驱:在最开始的时候,程序员先把一个程序通过机器语言在纸上写好,当程序要被运行时,程序员人工地将他写的程序写入到存储设备上,最原始的存储设备就是纸带,即在纸上面打相应的孔。但当程序需要修改时这些位置要重新计算,十分繁重耗时,并且容易出错。这种重新计算各个目标的地址过程叫做重定位。如果有多条纸带的程序,这些程序之间可能会有类似的卡纸袋之间的额跳转,这种程序经常修改导致跳转目标地址变化在程序拥有多个模块的时候更为严重,规模变大以后越来越复杂和繁琐。因此先驱们发明了汇编语言,汇编语言使用接近人嘞的各种符号和标记来帮助记忆,从而及打的解放了生产力。

现代的软件规模往往很大,数百万行的代码放在一个模块里面难以想象,所以现在的大型软件往往拥有成千上万个模块,模块之间相互依赖而又相对独立。这种按照层次化及模块化存储和阻止源代码有很多好处,比如代码更容易阅读、理解、重用,每个模块可以单独开发、编译、测试,改变部分代码不需要编译整个程序等。但是相应而来的如何将模块之间组合成一个单一的程序也是必须解决的问题:模块间符号引用,模块间通过符号来通信类似于拼图版,定义符号的模块多出一块区域,引用该符号的模块搞好少了那个区域——链接

模块拼装——静态链接

当一个系统过大时我们不得不将一个复杂的程序逐步分割成小的系统已达到各个突破的目的。一个复杂的软件也是如此,人们吧每个源代码模块独立的编译,然后按照需要将它们“组装”起来的过程就是链接。链接的主要内容就是把各个模块之间相互引用的部分都处理好,是的哥哥模块之间能够正确衔接。链接过程主要包含地址空间分配符号决议重定位

664334-948a3bcaf9a8eaac.jpg

如图,每个模块的源代码文件经编译成目标文件,目标文件和库(Library)一起链接行程最终的可执行文件。最常见的就是运行时库(Runtime Library),它是支持程序运行的基本函数集合。库本身是一组目标文件的包,包含一些常用代码编译为目标文件打包之后的集合。

现代编译和链接过程并非想象那么复杂,它还是一个容易理解的概念,比如我们在程序模块main.c使用另外一个模块func.c中的函数foo()。我们在main.c模块中每一处调用的foo的时候都必须确切知道foo函数的地址,所以它暂时把这些调用foo的指令的目标地址搁置,等待最后链接的时候由链接器去将这些指令的目标地址进行修正,则填入正确的foo函数地址。当func.c模块重新编译,foo函数的地址有可能改变时,那么我们在main.c中所有使用到foo的地址的指令将要全部重新调整。这些繁琐的工作将成为程序员的噩梦。使用链接器,你可以直接引用其他模块的函数和全局变量而无需知道它们的地址,因为链接器,你可以直接引用其他模块的函数和全局变量而无须知道它们的地址,因为链接器在链接的时候会根据引用的符号foo,自动去相应的func.c模块查找foo的地址,然后将main.c模块中所有引用到foo的指令重新修正,让它们的目标地址为真正的foo函数的地址。这就是静态链接的最基本功能和作用。

重定位

当链接某一个文件时编译器并不知道某一个变量的目标地址,所以编译器在没法确定地址的情况下将mov (汇编中加载变量的指令)的目标地址置为0等待编译器将该文件链接起来的时候再将其纠正,这个地址修正的过程被叫做重定位,每个要被修正的地方叫一个重定位入口。重定位所要做的就是给程序中每个这样的绝对地址引用的位置“打补丁”,使他们指向正确的地址。

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 158,117评论 4 360
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 66,963评论 1 290
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 107,897评论 0 240
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 43,805评论 0 203
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 52,208评论 3 286
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 40,535评论 1 216
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 31,797评论 2 311
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 30,493评论 0 197
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 34,215评论 1 241
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 30,477评论 2 244
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 31,988评论 1 258
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 28,325评论 2 252
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 32,971评论 3 235
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 26,055评论 0 8
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 26,807评论 0 194
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 35,544评论 2 271
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 35,455评论 2 266

推荐阅读更多精彩内容

  • 5G+次新,这只超跌个股你发现了吗? 今天是节后的最后一个交易日了,那么到底是应该持股过节还是持币过节?吴磊的建议...
    一些云端阅读 92评论 0 0
  • 观察孩子真不是听上去那么简单,你需要耐心,需要用精准的文字把孩子的语言和动作等细节记录下来,还要知道从哪些...
    阿欣II阅读 742评论 0 0
  • 终于知道为什么开始上断舍离之后就开始困惑了,做作业也都找不到感觉,因为上完富爸爸我就把“定位”抛之脑后,为了断舍离...
    赵玉婷_3686阅读 253评论 0 7
  • 另一个陌生的涂山漱 快下车了。涂山语给漱姐姐发信息。之后牵着涂山雷的手,被人群拥挤到出站口。刚出了站,有个女子牵着...
    白茶心阅读 363评论 4 2