Class类文件结构

声明:本文摘抄自《深入理解Java虚拟机》一书,本文完全为自我学习,请感兴趣的同学购买正版,支持原创

Java虚拟机不和包括Java语言在内的任何语言绑定,它只与“Class文件”这种特定的二进制文件所关联。Class文件中包含了Java虚拟机指令集和符号表以及若干辅助信息。

Class文件结构

Class文件是以8位字节为基础单位的二进制流,各项数据项目严格按照顺序紧凑的排列在Class文件之中,中间没有添加任何分割符,这使的整个Class文件中存储的内容几乎全部是程序运行所必须的数据,没有空隙存在。当遇到需要占用8字节以上空间的数据项时,则会按照高位在前的方式分割成若干个8为字节进行存储。

根据Java虚拟机规范,Class文件格式采用类似与C语言结构体的伪结构来存储数据,这种结构只有两种数据类型:无符号数和表。对Class文件解析都是基于这两种数据类型进行的。

无符号数属于基本数据类型,以u1,u2,u4,u8来分别表示1个字节,2个字节,4个字节和8个字节的无符号数,无符号数可以用来描述数字,索引引用,数量值或者按照UTF-8编码构成的字符串值。

表是由多个无符号数或其他表为数据项构成的复合数据类型,所有表都习惯性以“_info”结尾。表用于描述有层次关系的复合结构的数据。


Class文件结构

无论是无符号数还是表,当需要描述同一类型但数量不定的多个数据时,经常会使用一个前置的容量计数器加若干个连续的数据项的形式,这时称这一连续的某一类型的数据为某一类型的集合。

魔数与Class文件的版本

每个Class文件的头4个字节称为魔数(Magic Number),它的唯一作用就是确定这个文件是否为一个能被虚拟机接受的Class文件。很多文件存储标准中都使用魔数来进行身份识别,譬如图片格式,如gif或者jpeg等在文件头中都存在魔数。Class文件的魔数为“0xCAFEBABE”。

紧接着魔数后4个字节存储的是Class文件的版本号:第5和第6个字节是次版本号(Minor Version),第7和第8字节是主版本号(Major Version)。高版本的JDK能向下兼容以前版本的Class文件,但不能运行以后版本的Class文件,即使文件格式并未发生任何变化,虚拟机也拒绝执行超过其版本号的Class文件。

Class文件版本号
常量池

紧接着主版本号之后就是常量池入口。常量池是Class文件结构中与其他项目关联最多的数据类型,也是占用Class文件空间最大的数据之一。由于常量池中常量个数是不固定的,所以在常量池的入口需要一项u2类型的数据,来代表常量池中常量个数(constant_pool_count)。与Java中语言习惯不一样的是,这个容量计数是从1而不是0开始的(第0项常量空出来有特殊考虑)。Class文件结构中只有常量池的容量计数是从1开始,对于其他集合类型,包括接口索引集合,字段表集合,方法集合等容量计数都与一般习惯相同,是从0开始的。

常量池中主要存放两大类常量:字面量(Literal)符号引用(Symbolic Refereces)
字面量比较接近与Java语言层面的常量概念,如文本字符串,声明为final类型的常量值等。
符号引用则属于编译原理方面的概念,包括了下面三类常量:

  • 类和接口的全限定名(Fully Qualified Name)
  • 字段的名称和描述符(Descriptor)
  • 方法的名称和描述符

常量池目前共有14种结构,常量池是最繁琐的数据,因为这14种常量类型各自均有自己的结构。


Java 相关规范:http://docs.oracle.com/javase/specs/index.html
Java虚拟机规范《The Java Virtual Machine Specification》
[JDK7]:http://docs.oracle.com/javase/specs/jvms/se7/html/index.html
[JDK8]:http://docs.oracle.com/javase/specs/jvms/se8/html/index.html

推荐阅读更多精彩内容