MIT Hakmem算法学习

当需要统计一个十进制数n的二进制表示中的1的个数时,我们通常让最低位与1进行&运算n&1,然后更新n=n>>1,直到n=0

今天学习一个BitCount算法——MIT Hakmem算法,注:文章中如123表示十进制数 ,0b101/(101)2表示二进制数,0111表示八进制数,0x123表示十六进制数。

1. 问题

统计32位整形数中二进制表示时的1的个数

2. 思路

2.1 十进制与二进制之间转换

对于一个二进制数0b1001转换成十进制数n
n = a_0*2^0 + a_1*2^1 + a_2*2^2+...+a_k*2^k
因此想求二进制表示时有多少个1,只需要将上述以2为底的多项式中2^m (0<=m<=k)全部消去,剩下的多项式系数的和sum=a_0+a_1+...+a_k就是要求的1的位数。

2.2 证明

证明对任何自然数nN次幂,对n-1取模后都为1
证明(数学归纳法):
假设n^{k-1}\%(n-1)=1成立
于是有n^k\%(n-1) = [(n-1)*n^{k-1} + n^{k-1}] = (n-1)*n^{k-1}\% (n-1) + n^{k-1}\%(n-1) = 0+ n^{k-1}\%(n-1) = 1
又因为当k=1时,n^{1-1}\% (n-1) = n^0 \% (n-1) = 1
综上所述:对于任何非负整数Nn^N \% (n-1)=1f成立。

2.3 问题转化

对于一个系数为{ai},底为n的多项式P(N),
P(N)\%(n-1) = sum\{ai\} \% (n-1)
sum\{ai\}<(n-1)P(N)\%(n-1) = sum\{ai\},将该思路带到上述二进制转时间至的以2为底的多项式中,但是首先需要对以2为底的多项式进行改造,
改造成以n为底的多项式,这里n需要满足什么条件?
我们知道sum\{ai\} < (n-1),对于一个无符号整形数来说,最多有321,所以sum\{ai\}<=32, 带入32<(n-1),所以n >33.
因此我们可以取n = 2^6=64>33作为改造的多项式的底。
也就是将这个32位数每6位看做一个单位,这样就可以分成6组,如
(11 111111 111111 111111 111111 111111)2

3. 实现

我们将6位看做一个单位,于是新的多项式就是
n = a0*64^0 + a1*64^1 + ... +
ai表示的就是一个单位里二进制1的个数,那我们现在的任务就是计算着一个单位中的二进制1的个数是多少?
例:统计二进制数 (100101)21的个数?
最简单我们这样来计算:
a = ob100101
count = &0b000001 + (a>>1)&0b000001 +(a>>2)&0b000001 +(a>>3)&0b000001 +(a>>4)&0b000001 + (a >> 5)&0b000001

我们每次让a和二进制数0b000001进行&运算,得到最低位是否为1,然后右移一位,重复计算最低位。
一个单位计算完成,其他单位可以以同样的方式并行计算,对于32位数我们使用(1000001000001000001000001000001)2和n进行&,然后右移,这里为了方便我们将该二进制数用八进制代替为010101010101

public static int bitCount(int n){
        int t = (n & 010101010101)
                + ((n >>1) & 010101010101)
                + ((n >> 2) & 010101010101)
                + ((n >> 3) & 010101010101)
                + ((n >> 4) & 010101010101)
                + ((n >> 5) & 010101010101);
        return t % 63;
    }

4. 优化1

我们在计算一个单位(6位)时,采用每次右移1位,右移了5次,我们如果在这6位中以3位为一个单位只需要移动2次,即:
t = a & 0b001001 + (a>>1)&0b001001 + (a>>2)&0b001001;
t & 0b000111 + (t>>3)&0b000111

public static int bitCountI(int n){
        int t = (n & 0b1001001001001001001001001001001)
                + ((n >> 1) & 0b1001001001001001001001001001001)
                + ((n >> 2) & 0b1001001001001001001001001001001);
        t = (t + (t >> 3)) & 0b11000111000111000111000111000111;
        return t % 63;
    }
也可以用八进制代替二进制
0b1001001001001001001001001001001 = 011111111111
0b11000111000111000111000111000111 = 030707070707

5. 优化2

继续优化一个单位1的个数统计,我们知道(111)2转成十进制数的多项式为:
4a+2b+c,此时我们要求a+b+c,于是我们将n>>1得2a+b,n>>2得a,
于是(4a+2b+c)-(2a+b)-a=a+b+c
得:

public static int bitCountIII(int n){
        int t = n
                - ((n>>1) & 0b11011011011011011011011011011011)
                - ((n>>2) & 0b1001001001001001001001001001001);
        t = (t + (t>>3)) & 0b11000111000111000111000111000111;
}
 0b11011011011011011011011011011011 = 033333333333
0b1001001001001001001001001001001 = 011111111111
0b11000111000111000111000111000111 = 030707070707

推荐阅读更多精彩内容