ARM NEON 编程系列2 - 基本指令集

转载自：http://www.cnblogs.com/xylc/p/5410517.html

方便笔记和后续学习，如有侵权请联系删除

前言

本系列博文用于介绍ARM CPU下NEON指令优化。

博文github地址：github

NEON指令集

主流支持目标平台为ARM CPU的编译器基本都支持NEON指令。可以通过在代码中嵌入NEON汇编来使用NEON，但是更加常见的方式是通过类似C函数的NEON Instrinsic来编写NEON代码。就如同NEON hello world一样。NEON Instrinsic是编译器支持的一种buildin类型和函数的集合，基本涵盖NEON的所有指令，通常这些Instrinsic包含在arm_neon.h头文件中。

本文以android-ndk-r11c中armv7的arm_neon.h为例，讲解NEON的指令类型。

寄存器

ARMV7架构包含：

16个通用寄存器（32bit），R0-R15

16个NEON寄存器（128bit），Q0-Q15（同时也可以被视为32个64bit的寄存器，D0-D31）

16个VFP寄存器（32bit），S0-S15

NEON和VFP的区别在于VFP是加速浮点计算的硬件不具备数据并行能力，同时VFP更尽兴双精度浮点数（double）的计算，NEON只有单精度浮点计算能力。更多请参考stackoverflow:neon vs vfp

基本数据类型

64bit数据类型，映射至寄存器即为D0-D31

相应的c/c++语言类型（stdint.h或者csdtint头文件中类型）在注释中说明。

//typedef int8_t[8] int8x8_t;typedef__builtin_neon_qiint8x8_t__attribute__((__vector_size__ (8)));//typedef int16_t[4] int16x4_t;typedef__builtin_neon_hiint16x4_t__attribute__((__vector_size__ (8)));//typedef int32_t[2] int32x2_t;typedef__builtin_neon_siint32x2_t__attribute__((__vector_size__ (8)));//typedef int64_t[1] int64x1_t;typedef__builtin_neon_diint64x1_t;//typedef float16_t[4] float16x4_t;//（注：该类型为半精度，在部分新的CPU上支持，c/c++语言标注中尚无此基本数据类型）typedef__builtin_neon_hffloat16x4_t__attribute__((__vector_size__ (8)));//typedef float32_t[2] float32x2_t;typedef__builtin_neon_sffloat32x2_t__attribute__((__vector_size__ (8)));//poly8以及poly16类型在常用算法中基本不会使用//详细解释见：//http://stackoverflow.com/questions/22224282/arm-neon-and-poly8-t-and-poly16-ttypedef__builtin_neon_poly8poly8x8_t__attribute__((__vector_size__ (8)));typedef__builtin_neon_poly16poly16x4_t__attribute__((__vector_size__ (8)));#ifdef__ARM_FEATURE_CRYPTOtypedef__builtin_neon_poly64poly64x1_t;#endif//typedef uint8_t[8] uint8x8_t;typedef__builtin_neon_uqiuint8x8_t__attribute__((__vector_size__ (8)));//typedef uint16_t[4] uint16x4_t;typedef__builtin_neon_uhiuint16x4_t__attribute__((__vector_size__ (8)));//typedef uint32_t[2] uint32x2_t;typedef__builtin_neon_usiuint32x2_t__attribute__((__vector_size__ (8)));//typedef uint64_t[1] uint64x1_t;typedef__builtin_neon_udiuint64x1_t;

128bit数据类型，映射至寄存器即为Q0-Q15

相应的c/c++语言类型（stdint.h或者csdtint头文件中类型）在注释中说明。

//typedef int8_t[16] int8x16_t;typedef__builtin_neon_qiint8x16_t__attribute__((__vector_size__ (16)));//typedef int16_t[8] int16x8_t;typedef__builtin_neon_hiint16x8_t__attribute__((__vector_size__ (16)));//typedef int32_t[4] int32x4_t;typedef__builtin_neon_siint32x4_t__attribute__((__vector_size__ (16)));//typedef int64_t[2] int64x2_t;typedef__builtin_neon_diint64x2_t__attribute__((__vector_size__ (16)));//typedef float32_t[4] float32x4_t;typedef__builtin_neon_sffloat32x4_t__attribute__((__vector_size__ (16)));//poly8以及poly16类型在常用算法中基本不会使用//详细解释见：//http://stackoverflow.com/questions/22224282/arm-neon-and-poly8-t-and-poly16-ttypedef__builtin_neon_poly8poly8x16_t__attribute__((__vector_size__ (16)));typedef__builtin_neon_poly16poly16x8_t__attribute__((__vector_size__ (16)));#ifdef__ARM_FEATURE_CRYPTOtypedef__builtin_neon_poly64poly64x2_t__attribute__((__vector_size__ (16)));#endif//typedef uint8_t[16] uint8x16_t;typedef__builtin_neon_uqiuint8x16_t__attribute__((__vector_size__ (16)));//typedef uint16_t[8] uint16x8_t;typedef__builtin_neon_uhiuint16x8_t__attribute__((__vector_size__ (16)));//typedef uint32_t[4] uint32x4_t;typedef__builtin_neon_usiuint32x4_t__attribute__((__vector_size__ (16)));//typedef uint64_t[2] uint64x2_t;typedef__builtin_neon_udiuint64x2_t__attribute__((__vector_size__ (16)));typedeffloatfloat32_t;typedef__builtin_neon_poly8poly8_t;typedef__builtin_neon_poly16poly16_t;#ifdef__ARM_FEATURE_CRYPTOtypedef__builtin_neon_poly64poly64_t;typedef__builtin_neon_poly128poly128_t;#endif

结构化数据类型

下面这些数据类型是上述基本数据类型的组合而成的结构化数据类型，通常为被映射到多个寄存器中。

typedefstructint8x8x2_t{int8x8_tval[2];}int8x8x2_t;...//省略......#ifdef__ARM_FEATURE_CRYPTOtypedefstructpoly64x2x4_t{poly64x2_tval[4];}poly64x2x4_t;#endif

基本指令集

NEON指令按照操作数类型可以分为正常指令、宽指令、窄指令、饱和指令、长指令。

正常指令：生成大小相同且类型通常与操作数向量相同到结果向量。

长指令：对双字向量操作数执行运算，生产四字向量到结果。所生成的元素一般是操作数元素宽度到两倍，并属于同一类型。L标记，如VMOVL。

宽指令：一个双字向量操作数和一个四字向量操作数执行运算，生成四字向量结果。W标记，如VADDW。

窄指令：四字向量操作数执行运算，并生成双字向量结果，所生成的元素一般是操作数元素宽度的一半。N标记，如VMOVN。

饱和指令：当超过数据类型指定到范围则自动限制在该范围内。Q标记，如VQSHRUN

NEON指令按照作用可以分为：加载数据、存储数据、加减乘除运算、逻辑AND/OR/XOR运算、比较大小运算等，具体信息参考资料[1]中附录C和附录D部分。

常用的指令集包括：

初始化寄存器

寄存器的每个lane（通道）都赋值为一个值N

Result_tvcreate_type(Scalar_t N)Result_tvdup_type(Scalar_t N)Result_tvmov_type(Scalar_t N)

lane（通道）在下面有说明。

加载内存数据进寄存器

间隔为x，加载数据进NEON寄存器

Result_t vld[x]_type(Scalar_t* N)

Result_t vld[x]q_type(Scalar_t* N)

间隔为x，加载数据进NEON寄存器的相关lane（通道），其他lane（通道）的数据不改变

Result_t vld[x]_lane_type(Scalar_t* N,Vector_t M,intn)Result_t vld[x]q_lane_type(Scalar_t* N,Vector_t M,intn)

从N中加载x条数据，分别duplicate（复制）数据到寄存器0-(x-1)的所有通道

Result_t vld[x]_dup_type(Scalar_t* N)

Result_t vld[x]q_dup_type(Scalar_t* N)

lane（通道）：比如一个float32x4_t的NEON寄存器，它具有4个lane（通道），每个lane（通道）有一个float32的值，因此c++ float32x4_t dst = vld1q_lane_f32(float32_t* ptr,float32x4_t src,int n=2)的意思就是先将src寄存器的值复制到dst寄存器中，然后从ptr这个内存地址中加载第3个（lane的index从0开始）float到dst寄存器的第3个lane（通道中）。最后dst的值为：{src[0],src[1],ptr[2],src[3]}。

间隔：交叉存取，是ARM NEON特有的指令，比如c++ float32x4x3_t = vld3q_f32(float32_t* ptr)，此处间隔为3，即交叉读取12个float32进3个NEON寄存器中。3个寄存器的值分别为：{ptr[0],ptr[3],ptr[6],ptr[9]}，{ptr[1],ptr[4],ptr[7],ptr[10]}，{ptr[2],ptr[5],ptr[8],ptr[11]}。

存储寄存器数据到内存

间隔为x，存储NEON寄存器的数据到内存中

voidvstx_type(Scalar_t* N)voidvstxq_type(Scalar_t* N)

间隔为x，存储NEON寄存器的相关lane（通道）到内存中

Result_t vst[x]_lane_type(Scalar_t* N,Vector_t M,intn)Result_t vst[x]q_lane_type(Scalar_t* N,Vector_t M,intn)

读取/修改寄存器数据

读取寄存器第n个通道的数据

Result_tvget_lane_type(Vector_t M,intn)

读取寄存器的高/低部分到新的寄存器中，数据变窄（长度减半）。

Result_tvget_low_type(Vector_t M)Result_tvget_high_type(Vector_t M)

返回在复制M的基础上设置通道n为N的寄存器数据

Result_tvset_lane_type(Scalar N,Vector_t M,intn)

寄存器数据重排

从寄存器M中取出后n个通道的数据置于低位，再从寄存器N中取出x-n个通道的数据置于高位，组成一个新的寄存器数据。

Result_tvext_type(Vector_t N,Vector_t M,intn)Result_tvextq_type(Vector_t N,Vector_t M,intn)

其他数据重排指令还有：

vtbl_tyoe,vrev_type,vtrn_type,vzip_type,vunzip_type,vcombine ...

等以后有时间一一讲解。

类型转换指令

强制重新解释寄存器的值类型，从SrcType转化为DstType，其内部实际值不变且总的字节数不变，举例：vreinterpret_f32_s32(int32x2_t)，从int32x2_t转化为float32x2_t。

vreinterpret_DstType_SrcType(Vector_t N)

算数运算指令

[普通指令] 普通加法运算 res = M+N

Result_tvadd_type(Vector_t M,Vector_t N)Result_tvaddq_type(Vector_t M,Vector_t N)

[长指令] 变长加法运算 res = M+N，为了防止溢出，一种做法是使用如下指令，加法结果存储到长度x2的寄存器中，如：vuint16x8_t res = vaddl_u8(uint8x8_t M,uint8x8_t N)。

Result_tvaddl_type(Vector_t M,Vector_t N)

[宽指令] 加法运算 res = M+N，第一个参数M宽度大于第二个参数N。

Result_tvaddw_type(Vector_t M,Vector_t N)

[普通指令] 加法运算 res = trunct(M+N)（溢出则截断）之后向右平移1位，即计算M和N的平均值

Result_tvhadd_type(Vector_t M,Vector_t N)

[普通指令] 加法运算 res = round(M+N)（溢出则循环）之后向右平移1位，即计算M和N的平均值

Result_tvrhadd_type(Vector_t M,Vector_t N)

[饱和指令] 饱和加法运算 res = st(M+N)，如：vuint8x8_t res = vqadd_u8(uint8x8_t M,uint8x8_t N)，res超出int8_t的表示范围（0，255），比如256，则设为255.

Result_tvqadd_type(Vector_t M,Vector_t N)

[窄指令] 加法运算 res = M+N，结果比参数M/N的长度小一半，如 uint8x8_t res = vaddhn_u16(uint16x8_t M,uint16x8_t N)

Result_tvaddhn_type(Vector_t M,Vector_t N)

[普通指令] 减法运算 res = M-N

Result_tvsub_type(Vector_t M,Vector_t N)

[普通指令] 乘法运算 res = M*N

Result_tvmul_type(Vector_t M,Vector_t N)Result_tvmulq_type(Vector_t M,Vector_t N)

[普通指令] 乘&加法运算 res = M+N*P

Result_tvmla_type(Vector_t M,Vector_t N,Vector_t P)Result_tvmlaq_type(Vector_t M,Vector_t N,Vector_t P)

[普通指令] 乘&减法运算 res = M-N*P

Result_tvmls_type(Vector_t M,Vector_t N,Vector_t P)Result_tvmlsq_type(Vector_t M,Vector_t N,Vector_t P)

类似加法运算，减法和乘法运算也有一系列变种...

数据处理指令

[普通指令] 计算绝对值 res=abs(M)

Result_tvabs_type(Vector_t M)

[普通指令] 计算负值 res=-M

Result_tvneg_type(Vector_t M)

[普通指令] 计算最大值 res=max(M,N)

Result_tvmax_type(Vector_t M,Vector_t N)

[普通指令] 计算最小值 res=min(M,N)

Result_tvmin_type(Vector_t M,Vector_t N)

...

比较指令

[普通指令] 比较是否相等 res=mask(M == N)

Result_tvceg_type(Vector_t M,Vector_t N)

[普通指令] 比较是否大于或等于 res=mask(M >= N)

Result_tvcge_type(Vector_t M,Vector_t N)

[普通指令] 比较是否大于 res=mask(M > N)

Result_tvcgt_type(Vector_t M,Vector_t N)

[普通指令] 比较是否小于或等于 res=mask(M <= N)

Result_tvcle_type(Vector_t M,Vector_t N)

[普通指令] 比较是否小于 res=mask(M < N)

Result_tvclt_type(Vector_t M,Vector_t N)

...

归约指令

[普通指令] 归约加法，M和N内部的元素各自相加，最后组成一个新的结果

Result_tvpadd_type(Vector_t M,Vector_t N)

[普通指令] 归约最大比较，M和N内部的元素比较得出最大值，最后组成一个新的结果

Result_tvpmax_type(Vector_t M,Vector_t N)

[普通指令] 归约最小比较，M和N内部的元素比较得出最小值，最后组成一个新的结果

Result_tvpmin_type(Vector_t M,Vector_t N)

最后编辑于：2017.12.11 03:55:07

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 159,716评论 4赞 364
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 67,558评论 1赞 294
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 109,431评论 0赞 244
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 44,127评论 0赞 209
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 52,511评论 3赞 287
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 40,692评论 1赞 222
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 31,915评论 2赞 313
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 30,664评论 0赞 202
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 34,412评论 1赞 246
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 30,616评论 2赞 245
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 32,105评论 1赞 260
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 28,424评论 2赞 254
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 33,098评论 3赞 238
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 26,096评论 0赞 8
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 26,869评论 0赞 197
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 35,748评论 2赞 276
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 35,641评论 2赞 271