HEIF格式解析

1. 什么是HEIF

HEIF格式的全名为 High Efficiency Image File Format（高效率图档格式），是由动态图像专家组（MPEG）在2013年推出的新格式（参见https://nokiatech.github.io/heif/）。
苹果在iOS11系统中引入HEIF格式用于替代原来的JPG格式的图片。使用HEVC的编码技术存储图像数据，进一步减少存储容量和提升图像质量。据WWDC17数据，使用HEIF会达到JPEG压缩比的2倍。

图0 - heif compression from WWDC17

2. 如何获取HEIF格式的图片

使用iOS11系统的iPhone手机，在相机的设置中格式选择高效，拍摄下来的照片会保存为HEIF格式。
由于目前其他系统(Windows/Android)还不支持该格式图片的显示，所以在将iPhone中的照片导入到Windows PC时，iOS系统会将其转码为JPG格式图片。目前只有macOS High Sierra版本的mac系统支持HEIF格式图片，在将iPhone中的图片导入到该系统的mac上时可以保持原有的格式（一般后缀名为.heic，表示图像的编码格式为HEVC格式）。
iOS设备通过AirDrop发给其他iOS设备时，如果接收方为iOS 10及以下OS版本时，发送方也会将heif图片转码成JPG格式发送。

3. HEIF格式说明

3.1 ISO Base Media File Format

HEIF格式是基于 ISO Base Media File Format格式衍生出来的图像封装格式，所以它的文件格式同样符合ISO Base Media File Format (ISO/IEC 14496-12)中的定义（ ISOBMFF）。
文件中所有的数据都存储在称为Box的数据块结构中，每个文件由若干个Box组成，每个Box有自己的类型和长度。在一个Box中还可以包含子Box，最终由一系列的Box组成完整的文件内容，结构如下图所示，图中每个方块即代表一个Box。
我们常见的MP4文件同样是ISOBMFF结构，所以HEIF文件结构和MP4文件结构基本一致，只是用到的Box类型有区别。
HEIF文件如果是单幅的静态图片的话，使用item的形式保存数据，所有item单独解码；如果保存的为图片序列的话，使用track的方式保存。此处我们只分析item形式的保存。

图1 - ISOBMFF

3.2 Box结构

ISO/IEC 14496-12中这样描述Box的结构

图2 - Box

size字段表示该Box的大小，type字段表示该Box的类型，一般使用4个可打印的字符组合表示，也称为FOURCC，如图1中的ftyp、moov、meta、mdat等。这一部分可以理解为Box的header，size中指定的Box大小去掉header后，剩下的部分为body的内容，不同类型的Box中body部分的定义也不同，分别用来表示不同的含义。

3.3 HEIF格式图片的文件结构

3.3.1 整体结构

如下图，是使用iOS11系统的iphone7手机拍摄的图片的文件结构

图4 - HEIC文件结构

它的最外一层由ftyp、meta和mdat三个Box组成，然后meta Box由包含有多个子Box，符合图1的描述。

3.3.2 FileTypeBox

FileTypeBox在文件中有且仅有一个，它的类型字段值为ftyp，位于文件起始位置，其中的brand定义了文件中所存放的媒体类型，它的定义如下

图5 - ftyp Box

如果文件为HEIF格式，它的major_brand字段会是以下表格中所示：

图6 - brand

我们测试用的文件内容如下

图7 - ftyp

红圈标识的即为major_brand字段的内容，此处为heic，表示该文件中存储的为HEVC(Main or Main Still Picture profile)格式编码的图片。

3.3.3 media data box

media data box的类型为mdat，它用来存储实际图片数据。数据的具体位置由meta box中定义。

3.3.4 meta box

meta box为一个container box，它里面包含有多个子box，各个子box一起定义了图像数据的位置格式等信息。

hdlr：HandlerBox，指明该meta信息描述的媒体类型，此处为pict
dinf：在此处无用
pitm：PrimaryItemBox，文件中会保存有多个item，使用该box指明要主item
iinf：ItemInfoBox，该box中指明文件中共有多少个item，并包含有子box表明每个item的信息
iref：ItemReferenceBox，该box包含有多个子box，每个子box指明一组相互有关联的item
iprp：ItemPropertiesBox，它有ipco和ipma两个子box
ipco box列出了所有item的所有属性
ipma box中指明每个item都有哪些属性
如下图所示，ipco box列出了color、hvcC、ispe、irot、pixi等信，ipma中指明了item和属性之间的关联
id为1-48的item统一和3、1、2三个属性关联，分别是ispe、clor和hvcC，其中hvcC类型的box中数据体部分为HevcDecoderConfigurationRecord结构的数据，从中可以获取SPS、PPS、VPS等编码参数相关数据
id为49的item拥有4、5、6三个属性
id为50的item拥有7、8、9、5、10几个属性

图8 - iprp
idat：ItemDataBox，item的数据除了保存在mdat中，还可以保存在idat box中，具体会保存在什么位置，由iloc box中指明
iloc：ItemLocationBox，该box指明了每个item在文件中的保存位置
如图9所示，如果某个item的method字段为0，表示该item的数据保存在mdat box中，且此处指明保存位置的offset字段值为在整个文件中的偏移量，如果item的method字段为1，表明该item的数据保存在上面说的idat box中。

图9 - iloc

4. 图像的解码显示

通过iloc box获取到具体某个item的数据的保存位置，即可从文件中提取出该数据，这些数据实际内容即为HEVC格式编码的数据，再利用ipco box中的hvcC数据，获取相应的SPS、PPS和VPS信息，即可使用HEVC解码器将数据解码为一幅图像。
实际使用iphone7拍摄出来的照片，文件中共有51个item，对应的id为1-51，其中1-48的item信息基本一致，类型为hvc1，提取出item数据后可以使用HEVC解码器解码出图像，但是观察发现图像均为完整照片的一部分。
pitm box中指明主item为49，所以显示的时候需要依据id为49的item的格式显示，该item类型为grid，该类型表明整个图像被分割成多个小图像分别进行编码保存。解析该item数据可以得到完整图像被分割为6x8的小图像，且通过iref box中可知，49号item想关联的item为1-48号item，所以要显示完整图像时需要将1-48号item分别解码，将获取的图像按照6x8的分割合并起来，形成一幅完整的图像即为最终图像。
从iref 和ipco box中可知，50号item数据为图像的缩略图，它有区别与1-48的编码参数和格式，与49号item相关联，说明为49号item（即完整图像）的缩略图。
51号item类型为Exif，保存了相机相关信息。

5. 查看工具

基于QT的开源查看工具：https://github.com/ksvc/MediaParser，欢迎star！

转载请注明：
作者金山视频云，首发简书 Jianshu.com