本章通过一个精简的指令集Y86-64,对处理器的体系结构进行了一个较为系统地介绍。主要包括指令的构成,处理器执行指令的各个阶段,处理器实现指令的硬件结构,以及流水线思想的引入。
一个处理器支持的指令和指令的字节级编码称为它的指令集体系结构 (Instruction-Set Architecture, ISA)。ISA在编译器编写者和处理器设计者之间提供了一个概念抽象层,编译器编写者只需要知道允许哪些指令,以及它们是如何编码的;而处理器设计者必须建造出执行这些指令的处理器。
Y86-64指令集体系结构
本章定义了一个简单的指令集“Y86-64”指令集,作为处理器实现的运行示例。相比于“x86-64”指令集,Y86-64做了精简,但仍然足够完整。这个指令集就是我们处理器实现的目标。
程序员可见状态
Y86-64程序中的每条指令都会读取或修改处理器状态的某些部分,这称为程序员可见状态。这里的程序员可以是写程序的人,也可以是产生机器代码的编译器。
Y86-64有15个64位的程序寄存器;有3个一位的条件码,保存着最近的算术或逻辑指令所造成影响的有关信息;程序计数器存放着当前正在执行指令的地址;状态码Stat表明程序执行的状态。
Y86-64指令集
如图为Y86-64的指令集,左边是指令的汇编代码,右边是对应的字节编码。所有数字都是十六进制表示。
每条指令的编码长度为1~10个字节不等。其中第一个字节表示指令的类型,该字节分为两部分,高四位是指令代码
,低四位是指令具体功能
(function,fn)。
有的指令可能包含寄存器指示符字节,指定一个或两个寄存器(rA和rB)。对于没有寄存器操作数的指令,比如call指令
和分支指令jXX
,就没有寄存器指示符字节;而那些只需要一个寄存器操作数的指令irmovq, pushq, popq
,则将另一个寄存器指示符设为0xF。这种约定在处理器实现中很有用。
有的指令还包含一个附加的8字节常数字。这个字能作为irmovq
的立即数数据,rmmovq
和mrmovq
的地址指示符的偏移量,以及分支指令jXX
和调用指令call
的目的地址。
x86-64的movq
指令分成了4个不同的指令:irmovq,rrmovq,mrmovq和rmmovq,分别显示地指明源和目的地的格式。源可以是立即数(i)、寄存器(r)或内存(m)。同x86-64一样,我们不允许从一个内存地址直接传送到另一个内存地址,也不允许将立即数传送到内存。
halt
指令会停止指令的执行,并将状态码设为HLT。
nop
指令表示一个空操作。
call
指令和ret
指令分别实现函数的调用和返回。
push
和pop
指令分别实现入栈和出栈操作。
有了上述指令编码,我们就可以将Y86-64的汇编代码翻译成字节代码了,比如给定汇编指令rmmovq %rsp, 0x123456789abcd
,根据前面指令代码的定义,可得字节代码的第一个字节为40
;寄存器%rsp对应的寄存器编号为4
,基址寄存器%rdx对应的寄存器编号为2
,因此该指令的字节代码中第二个字节为42
;偏移量放在8字节常数字中,对其进行反序操作,最终我们得到该指令的二进制表示4042cdab896745230100
。
指令集的一个重要性质就是字节编码必须有唯一的解释。Y86-64就有这个性质,因为每条指令的第一个字节有唯一的代码和功能组合,给定这个字节,我们就可以决定所有其他附加字节的长度和含义,这个性质保证了处理器可以无二义性地执行目标代码。反过来说,如果不知道一段代码序列的起始位置,我们就不能准确地确定怎样将序列划分成单独的指令。
Y86-64异常
状态码Stat描述了程序执行的总体状态。在Y86-64中,除AOK
以外的代码都会使处理器停止。
Y86-64的指令处理
处理器在执行单条指令时,往往也包含很多操作。将它们组织成特殊的阶段序列,即使指令的动作差异很大,但是所有指令都遵循统一的序列。我们将Y86-64执行指令的过程组织成如下6个阶段:
- 取址:从程序计数器(PC)指向的内存地址读取指令字节。在Y86-64指令系统中,指令的长度不是固定的,因此取址会根据
指令代码
判断指令是否含有寄存器指示符、是否含有常数来计算当前的指令长度。 - 译码:从寄存器文件读取数据。寄存器文件有两个读端口,可以同时进行两个读操作,得到值为
valA
和valB
。通常,它读入指令rA
和rB
字段指明的寄存器,不过有些指令是读寄存器%rsp
的。 - 执行:算术逻辑单元(ALU)主要执行三类操作,算术逻辑运算、计算内存引用的有效地址、针对push和pop指令的运算。
- 访存:将数据写入内存,或从内存读出数据。
- 写回:将(最多两个)执行结果写会到寄存器文件中。
- 更新:将PC更新为下一条指令的地址。
处理器无线循环地执行这些阶段,发生异常时,处理器就会停止。在更完整的设计中,处理器会进入异常处理模式。
Y86-64处理器的硬件结构
时钟是一个周期信号,决定什么时候要把新值加载到存储设备中。我们描述一个称为SEQ(sequential)
的处理器,每个时钟周期上,SEQ执行处理一条完整指令所需的所有步骤。
要控制处理器中活动的时序,只需要寄存器和内存的时钟控制。硬件处理能够获得和之前介绍的指令顺序执行一样的效果,即使实际上所有状态的更新同时发生,且只在时钟上升开始下一个周期时。
每次时钟由低变高时,处理器开始执行一条新指令。
通过时钟来控制状态单元的更新,以及值通过组合逻辑来传播,已经足够控制SEQ实现中每条指令执行的计算了。
SEQ实现方法不能充分利用硬件单元,因为每个单元只在整个时钟周期的一部分时间内才被使用。我们可以引入流水线来获得更好的性能。
流水线的通用原理
在流水线化的系统中,待执行的任务被划分为若干个独立的阶段。比如在自助餐厅流水线上,顾客按照相同的顺序经过各个阶段,即使某些人可能不需要某些阶段,前面顾客从甜点进入饮料阶段时,下一顾客就可以进入甜点阶段,而不是要等一个顾客完成了所有从头到尾的过程才让下一个顾客开始。
流水线化的一个重要特性就是提高了系统的吞吐量(throughput),也就是单位时间内服务的顾客总数。而延迟(latency)就是服务一个顾客所需要的时间。延迟也就是吞吐量的倒数。
对应到计算流水线,顾客就是指令,每个阶段完成指令执行的一部分。延迟就是从头到尾执行一条指令所需要的时间。
如图所示,在非流水线的系统中,延迟为320ps,吞吐量为3.12GIPS;在流水线的系统中,每条指令被分为三个阶段,每个阶段120ps,则延迟为360ps,吞吐量为8.33GIPS。系统的吞吐量提高到原来的8.33/3.12=2.67
倍,代价是增加了一些硬件,以及少量的延迟360/320=1.12
。
在流水线系统中,我们将时钟周期设为120ps,稳定状态下,三个阶段都应该是活动的,每个时钟周期,一条指令离开系统,一条新的进入。从流水线图的第三个时钟周期可以看出这一点,这是I1在阶段C,I2在阶段B,I3阶段A。
流水线的阶段之间的指令转移是由时钟信号控制的,每隔120ps,信号从0上升到1,控制指令从一个流水线阶段移动到下一个阶段。
流水线的局限性
上图给出了一个理想的流水线化的系统,将指令分成三个独立的阶段,每个阶段需要的时间是原来的三分之一。但是会出现一些其他因素,降低流水线的效率:
- 不一致的划分
如图所示,计算依然被分为了三个阶段,但是此时运行时钟的速率由最慢的阶段的延迟限制,因此我们必须将时钟周期设为150+20=170ps,得到吞吐量为5.88GIPS。此时每个时钟周期,阶段A都会空闲100ps,而阶段C会空闲50ps。
- 流水线过深
如图把计算分成6个阶段,每个阶段50ps,则系统的最小时钟周期为50+20=70ps,吞吐量为14.29GIPS,性能提高。但是此时流水线寄存器的延迟占比120/420=28.6%,造成了很大开销。
流水线化通过让不同的阶段并行操作,改进了系统的吞吐量性能。在任意一个给定时刻,多个指令被不同的阶段处理,但是在引入这种并行性的过程中,我们要非常小心,以提供与程序的顺序执行相同的程序级行为。