NSString和String的长度分别怎么计算

NSString的length是怎么计算的？

苹果API文档是这样解释NSString的length方法：返回一个UTF-16编码单元（码元）的个数。

UTF-16是Unicode字符编码五层次模型的第三层：字符编码表（Character Encoding Form，也称为 "storage format"）的一种实现方式。即把Unicode字符集的抽象码位映射为16位长的整数（即码元）的序列，用于数据存储或传递。Unicode字符的码位，需要1个或者2个16位长的码元来表示，因此这是一个变长表示。

UTF-16比起UTF-8，好处在于大部分字符都以固定长度的字节 (2字节) 储存，但UTF-16却无法兼容于ASCII编码。

通过UTF-16的定义，我们知道英文字母和一般汉字在UTF-16中用两个字节表示，即占一个码元，而一般的Emoji表情用四个字节表示，即占两个码元。所以英文字母和汉字在NSString中的length为1，而一般的Emoji表情在NSString中length为2。

一个复杂表情到底能有多长

NSString* str = @"‍‍‍👩‍👩‍👦‍👦";
NSData* data = [str dataUsingEncoding:NSUTF8StringEncoding];
NSLog(@"emoji str-len:%d data-len:%d",str.length,data.length);

输出：

emoji str-len:11 data-len:25

为何一个表情的长度能有11？

查看表情编码地址：https://apps.timwhitlock.info/unicode/inspect

编码.png

通过分析，这个复杂表情其实是由四个小表情(两男两女)和三个连接符号组合出来的：

每个小表情在UTF-16中占四个字节，即2个码元
每个连接符号在UTF-16中占两个字节，即1个码元。

所以,在NSString中length为 42 + 31 = 11 （UTF-16码元个数）

但是当把NSString转换成UTF-8格式的NSData时，数据是这样存储的：

每个小表情在UTF-8中占四个字节
每个连接符号在UTF-8中占三个字节

所以转成NSData后的存储总长度为 44 + 33 = 25 （字节个数）。

补充：这种组合出来的复杂表情是苹果自己定义的，不属于Unicode编码范围，但每个小表情属于Unicode编码范围，所以将此表情发给安卓端，会被显示成多个连续的小表情。而连接符本身显示出来不占宽度，所以跟没有连接符效果一样。

如何完整的删掉一个复杂表情？

NSString* str = @"a问问‍‍‍👩‍👩‍👦‍👦";
NSRange range = [str rangeOfComposedCharacterSequenceAtIndex:str.length-1];
str = [str substringToIndex:range.location];
NSLog(@"emoji location:%d len:%d str:%@",range.location,range.length,str);

输出：

emoj location:3 len:11 str:a问问

String的长度是怎么计算的

原文地址

因为Swift的String没有length方法,所以获取字符串长度是用count,然而OC的NSString用的则是.length获取长度,在有emoji的情况下,长度取的就不对

获取正确的length（等同于NSString的length）

/// "🐶"
let str = "\u{1F436}" 

/// oc的NSString的字符串长度，也就是utf16编码的长度
let leng = (str as NSString).length

/// swift的String的count（unicode码个数）
let len = str.count

/// utf16编码的长度(间接说明OC的NSString编码是utf16的编码)
let len1 = str.utf16.count

/// utf8编码的长度
let len2 = str.utf8.count

拓展资料:

Unicode编码以及是如何排序的
 NSString与unicode

最后编辑于：2019.06.10 11:30:48