Objective-C 的 Tagged Pointer 实现

写这篇文章源于组内同事的一个分享,在分享过程中,我们对 Tagged Pointer 有一些疑问,但是网上又没有找到很好的相关资料来进行解释。分享完之后,我读了 Tagged Pointerobjc 源码中相关的内容,对这一点有了比较深入和细致的了解,就此记录一下。

Tagged Pointer 介绍

Tagged Pointer 是苹果在 2013 年在 Objective-C 中增加的一个技术,主要是为了解决当时推出 64 位系统架构,指针变量由 32 位增加到 64 位。大家都知道 Objective-C 对象都是分配在堆上面的,在栈上面有一个指针地址指向堆的内存地址,但是对于一些变量比如:@1 @"abc",如果同时在栈上面和在堆上面都去分配内存空间的话,那么就太浪费存储空间了;所以苹果采取了一个方式将一些比较小的数据直接存储在指针变量中,这些指针变量就称为 Tagged Pointer

那具体是如何实现的呢?以及都有哪些类型的数据可以使用这些技术呢?

Tagged Pointer 实现

在讲述实现之前大家先看几个 Tagged Pointer 的指针地址,我们在 macOS 平台下和在 iOS 平台下分别运行如下代码:

NSNumber *number1 = @1;
NSLog(@"number1 %p %@", number1, [number1 class]);
NSNumber *number2 = @2;
NSLog(@"number2 %p %@", number2, [number2 class]);

NSString *a = [[@"a" mutableCopy] copy];
NSLog(@"a %p %@", a, [a class]);
NSString *ab = [[@"ab" mutableCopy] copy];
NSLog(@"ab %p %@", ab, [ab class]);

macOS print:
number1 0x127 __NSCFNumber
number2 0x227 __NSCFNumber
a 0x6115 NSTaggedPointerString
ab 0x626125 NSTaggedPointerString

iOS print:
number1 0xb000000000000012 __NSCFNumber
number2 0xb000000000000022 __NSCFNumber
a 0xa000000000000611 NSTaggedPointerString
ab 0xa000000000062612 NSTaggedPointerString

通过观察上面的打印地址不妨作一些简单的推测。其中地址 0x1270x227 不同的就是 1 2 那我们可以这么认为,1 2 代表的就是对应的数字 1 2,而后面的 27 中的某些信息则标识了这个指针为 Tagged Pointer 。地址 0x61150x626125 前面不同的是 61 6261,而这两个数字正好对应字符 a abASCII 编码值,而后面不同的 1525 中的某些信息则标识了这个指针为 Tagged Pointer。后面对应打印的 class 类型也可以印证。但 NSNumber 苹果并没有设计一个单独的 class 来表示 Tagged Pointer。在看 iOS 的打印也有类似的规律。

那怎么判断一个指针是不是 Tagged Pointer 呢?可以通过 objc 源码看到对应的判断方法如下:

static inline bool 
_objc_isTaggedPointer(const void *ptr) 
{
    return ((intptr_t)ptr & _OBJC_TAG_MASK) == _OBJC_TAG_MASK;
}

#if OBJC_MSB_TAGGED_POINTERS
#   define _OBJC_TAG_MASK (1ULL<<63)
#else
#   define _OBJC_TAG_MASK 1
#endif

#if TARGET_OS_OSX && __x86_64__
    // 64-bit Mac - tag bit is LSB
#   define OBJC_MSB_TAGGED_POINTERS 0
#else
    // Everything else - tag bit is MSB
#   define OBJC_MSB_TAGGED_POINTERS 1
#endif

通过上面的代码可以看到判断是否是 Tagged Pointer 仅仅是将地址和 _OBJC_TAG_MASK 这个常量做了一个简单的与运算,而 _OBJC_TAG_MASK 常量在不同平台下值值也不同,在 macOS__x86_64__ 下值为1(使用低位优先规则 LSB),其他的平台值为 1ULL<<63(使用高位优先规则 MSB)。那么这样的话只要最高位或者最低位为 1,那么这个指针就是 Tagged Pointer

为什么可以通过设定最高位或者最低位是否为 1 来标识呢?
这是因为在分配内存的时候,都是按 2 的整数倍来分配的,这样分配出来的正常内存地址末位不可能为 1 ,这样通过将最低标识为 1 ,就可以和其他正常指针做出区分。那么为什么最高位为 1 ,也可以标识呢?这是因为64 位操作系统,设备一般没有那么大的内存,所以内存地址一般只有 48 个左右有效位,也就是说高位的 16 位左右都为 0,所以可以通过最高位标识为 1 来表示 Tagged Pointer。那么既然一位就可以标识 Tagged Pointer 了其他的信息是干嘛的呢?我们可以想象,要有一些 bit 位来表示这个指针对应的类型,不然拿到一个Tagged Pointer 的时候我们不知道类型,就无法解析成对应的值。

那么具体是怎么来表示类型的呢?继续翻看源码可以找到如下定义:

enum
{
    OBJC_TAG_NSAtom            = 0, 
    OBJC_TAG_1                 = 1, 
    OBJC_TAG_NSString          = 2, 
    OBJC_TAG_NSNumber          = 3, 
    OBJC_TAG_NSIndexPath       = 4, 
    OBJC_TAG_NSManagedObjectID = 5, 
    OBJC_TAG_NSDate            = 6, 
    OBJC_TAG_RESERVED_7        = 7, 

    OBJC_TAG_First60BitPayload = 0, 
    OBJC_TAG_Last60BitPayload  = 6, 
    OBJC_TAG_First52BitPayload = 8, 
    OBJC_TAG_Last52BitPayload  = 263, 

    OBJC_TAG_RESERVED_264      = 264
};

当我们看到这些定义的时候,就恍然大悟了。0 ~ 7 分别表示类型。而另外 OBJC_TAG_First60BitPayload 等定义分别表示前 60 位或者 52 位为负载内容,还是后 60 位或者后 52 位为负载内容。
那么这时候我们试着去解读 0x127 这个指针:首先转换为对应的二进制 则为 .... 0001 0010 0111 最后一位 1 表示是 Tagged Pointer,由于我们推测倒数第九位的 1 对应真实值 1,那么这个就不可能是前 52 位为负载,只能是前 60 位为负载,那么还剩下 011 十进制是 3 正好是 OBJC_TAG_NSNumber 的值。这时候我们只剩下 0010 这个不能解释。
不急我们试着去执行一下其他的一些代码来看看是否能发现一些端倪,执行以下代码:

int int1 = 1;
long long long1 = 1;
float float1 = 1.0;
double double1 = 1.0;
NSNumber *intNumber1 = @(int1);
NSNumber *longNumber1 = @(long1);
NSNumber *floatNumber1 = @(float1);
NSNumber *doubleNumber1 = @(double1);
NSLog(@"intNumber1 %p %@", intNumber1, [intNumber1 class]);
NSLog(@"longNumber1 %p %@", longNumber1, [longNumber1 class]);
NSLog(@"floatNumber1 %p %@", floatNumber1, [floatNumber1 class]);
NSLog(@"doubleNumber1 %p %@", doubleNumber1, [doubleNumber1 class]);

macOS print:
intNumber1 0x127 __NSCFNumber
longNumber1 0x137 __NSCFNumber
floatNumber1 0x147 __NSCFNumber
doubleNumber1 0x157 __NSCFNumber

哈哈,这时候中间的值代表了什么就一目了然了。2 对应的是 int 类型,3 对应的是 long 类型, 4 对应的是 float 类型,5 对应的是 double 类型。这样就可以完全解释 0x127 这个指针了。而且也很容易猜出字符串地址不同的 1525 中的 1 2,分别对应字符串的长度。以此类推就不难解释其他的地址,甚至一些OBJC_TAG_NSIndexPath OBJC_TAG_NSDate 等类型的地址。

Tagged Pointer 其他的一些点

现在我们已经完全明白了 Tagged Pointer 是如何表示的。除此之外,我们还可以考虑一些其他的,比如表示NSNumber 的时候,由于剩下 56 位是负载那么表示的最大值只能为 2^56-1,大家也可以去验证。而字符串如果按 ASCII 来编码的话,56 位只能存储下 7 个字符,事实是不是这样呢? 你可以自己去验证,但是这里可以告诉你,答案是否定的,具体相关的知识,大家可以参考这篇文章Tagged Pointer Strings。另外由于 Tagged Pointer 是一个伪对象,所以内部并没有 isa 指针。Tagged Pointer 为我们带来了 3 倍存储空间的节省,以及 106 倍的访问速度,通过这点也可以看出来苹果背后为性能做出的一些优化。

参考

推荐阅读更多精彩内容