《编程珠玑》第2章三个问题

问题一：

给定一个最多包含40亿个随机排列的32位整数的顺序文件，找出一个不在文件中的32位整数。在具有足够内存的情况下，如何解决该问题？如果有几个外部的“临时”文件可用，但是仅有几百字节的内存，又该如何解决该问题？

先考虑有足够的内存，我们可以采用位图技术，即使用536870912个8位字节形成的位图来表示已看到的整数。最后再对位图遍历一遍，找到某个位为0即可。实现代码如下：

#define BITSPERWORD 32
#define SHIFT 32
#define MASK 0x1F
#define N 4000000000

int a[1 + N / BITSPERWORD];

void set(int i) {
    a[i >> SHIFT] |= (1 << (i & MASK));
}

void clr(int i) {
    a[i >> SHIFT] &= ~(1 << (i & MASK));
}

int test(int i) {
    return a[i >> SHIFT] & (i << (i &MASK));
}

int main(void) {
    int i;
    for (i = 0; i < N; i++) {
        clr(i);
    }
    while (scanf("%d", &i) != EOF) {
        set(i);
    }
    for (i = 0; i < N; i++) {
        if (test(i)) {
            printf("%d\n", i);
        }
    }
    return 0;
}

然而，该问题还问到在仅有几百个字节内存和几个稀疏顺序文件的情况下如何找到缺失的整数？我们从表示每个整数的32位的视角来考虑二分搜索。算法的第一趟（最多）读取40亿个输入整数，并把起始位为0的整数写入一个顺序文件，并把起始位为1的整数写入另一个顺序文件为1写入另一个顺序文件。这两个文件中，有一个文件最多包含20亿个整数，我么接下来将该文件用作当前输入并重复探测过程，但这次探测的是第二个位。如果原始的输入文件包含n个元素，那么第一趟将读取n个整数，第二趟最多读取n/2个整数，以此类推。参考代码如下：

int split(int* a, int* b, int*c, int alen, int bit) {
    int biter, citer, i;
    int v=0, re = 0, *t;

    while(bit--){ //bit从32开始
        v = (1 << bit);
        for(i=biter=citer=0; i < alen; i++) {
            if(a[i] & (1<<bit)) { //将当前位为0和1的整数分到不同的数组
                b[biter++] = a[i];
            } else {
                c[citer++] = a[i];
            }
        }
        if(biter <= citer) {
            re += v;
            t = a;
            a = b;
            b = t;
            alen = biter;
        } else {
            t = c;
            c = a;
            a = t;
            alen = citer;
        }
    }
    return re;
}

问题二

将一个n元一维向量向左旋转i个位置。例如，当n=8且i=3时，向量abcdefgh旋转为defghabc。

方法一：
首先移动x[0]到临时变量t，然后移动x[i]至x[0]，x[2i]至x[i]，依次类推(x中的所有下标对n取模)，直至返回到取x[0]中的元素，此时改为从t取值然后终止过程。如果该过程没有移动全部元素，就从x[1]开始再次进行移动，直到所有的元素都已经移动为止。参考代码如下：

void rotate(int *nums, int len, int rotdist) {
    int i;
    for (i = 0; i < gcd(rotdist, len); i++) {
        int t = nums[i];
        int j = i;
        while (true) {
            int k = (j + rotdist) % len;
            if (k == i) {
                break;
            }
            nums[j] = nums[k];
            j = k;
        }
        nums[j] = t;
    }
}

方法二：
旋转向量x其实就是交换向量ab的两端，得到向量ba。这里a表示x中的前i个元素。假设a比b短。将b分为b_l和b_r，使得b_r具有与a相同的长度。交换a和b_r，也就是将ab_lb_r转换为b_rb_la。序列a此时已经处于其最终的位置，因此现在的问题就集中到交换b的两部分。由于新问题与原来的问题具有相同的形式，我们可以递归得解决之。参考代码如下：

void swap(string &str, int leftBegin, int rightBegin, int count) {
    while (count--) {
        char temp = str[leftBegin];
        str[leftBegin] = str[rightBegin];
        str[rightBegin] = temp;
        
        leftBegin++;
        rightBegin++;
    }
}

void rotate(string &str, int rotdis) {
    int len = (int) str.size();
    int i = rotdis;
    int p = rotdis;
    int j = len - rotdis;
    
    while (i != j) {
        if (i > j) {
            swap(str, p - i, p, j);
            i -= j;
        } else {
            swap(str, p - i, p + j - i, i);
            j -= i;
        }
    }
    swap(str, p - i, p, i);
}

给定一个英语词典，找出其中的所有变味词集合。例如，"pots"、"stop"、"tops"互为变味词，因为每一个单词都可以通过改变其他单词中字母的顺序来得到。

方法一
我们可以计算每个单词的hash值，如果是变味词，可以保证hash值肯定相同。但并不能保证相同的hash值就一定是变味词，有可能两个单词不是变味词，但恰好具有相同的hash值，这个时候就需要解决冲突，类似于散列表中的散列冲突。我们可以用一个map的key来保存单词的hash值，value保存该hash值的单词保存的位置。因为某个hash值可能存在多种变味词，因此value本身是一个列表。比如有个单词A，首先计算A的hash值，然后用hash值从map中获取对应的存放位置。因为存放位置可能有多个，我们需要每个都去判断是不是属于它的存放位置。参考代码如下：

class Solution {
private:
    int prime[26] = {2, 3, 5, 7, 11, 13, 17, 19, 23, 29, 31, 37, 41, 43, 47, 53, 59, 61, 67, 71, 73, 79, 83, 89, 97, 101};
public:
    vector<vector<string>> groupAnagrams(vector<string>& strs) {
        unordered_map<int, vector<int>> mapper;
        vector<vector<string>> result;
        for (string &str : strs) {
            int hashVal = caculateHashVal(str); //计算对应的hash值
            unordered_map<int, vector<int>>::iterator pos;
            unordered_map<int, vector<int>>::iterator end = mapper.end();
            //若没有找到，则将其放在列表的最后一个位置
            if ((pos = mapper.find(hashVal)) == end) {
                putInEnd(result, mapper, hashVal, str);
            } else {
                //找到后需要逐个判断是否属于它的存放位置
                vector<int> &v = pos->second;
                bool isExist = false;
                for (int index : v) {
                    string &str1 = result[index][0];
                    if (isSameGroup(str1, str)) {
                        result[index].push_back(str);
                        isExist = true;
                        break;
                    }
                }
                if (!isExist) {
                    putInEnd(result, mapper, hashVal, str);
                }

            }

        }
        for (vector<string> &v : result) {
            sort(v.begin(), v.end());
        }
        return result;

    }

    int caculateHashVal(string &str) {
        int result = 0;
        for (char c : str) {
            int num = c - 'a';
            result += num * prime[num];
        }
        return result;
    }

    void putInEnd(vector<vector<string>> &result, unordered_map<int, vector<int>> &mapper, int hashVal, string &str) {
        int len = result.size();
        result.resize(len + 1);
        mapper[hashVal].push_back(len);
        result[len].push_back(str);
    }

    bool isSameGroup(string &str1, string &str2) {
        int len = str1.size();
        if (str2.size() == len) {
            int flags[26];
            memset(flags, 0, sizeof(int) * 26);
            for (char c : str1) {
                flags[c - 'a']++;
            }
            for (char c : str2) {
                flags[c - 'a']--;
            }
            for (int i = 0; i < 26; i++) {
                if (flags[i] != 0) {
                    return false;
                }
            }
            return true;
        }
        return false;
    }

};

方法二
我们可以标识字典里的每一个词，使得在相同变味词类中的单词具有相同的标识。然后，将具有相同标识的单词集中在一起。这将原始的变味词问题简化为两个子问题：选择标识和集中具有相同的单词。
对于第一个问题，我们可以使用基于排序的标识：将单词中的字母表顺序排列。"deposit"的标识就是"deiopst"，这也是"dopiest"和其他任何该类单词的标识。要解决第二个问题，我们将所有的单词按照其标识的顺序排序。

public List<List<String>> groupAnagrams(String[] strs) {
    HashMap<String, List<String>> map = new HashMap<>();
    for (String s : strs) {
        char[] ar = s.toCharArray();
        Arrays.sort(ar);
        String sorted = String.valueOf(ar);
        List<String> list = map.get(sorted);
        if (list == null) list = new ArrayList<String>();
        list.add(s);
        map.put(sorted, list);
    }
    List<List<String>> res = new ArrayList<>();
    for (List<String> l : map.values()) {
        Collections.sort(l);
        res.add(l);
    }
    return res;
}

最后编辑于：2017.11.27 06:00:52

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 159,015评论 4赞 362
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 67,262评论 1赞 292
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 108,727评论 0赞 243
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 43,986评论 0赞 205
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 52,363评论 3赞 287
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 40,610评论 1赞 219
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 31,871评论 2赞 312
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 30,582评论 0赞 198
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 34,297评论 1赞 242
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 30,551评论 2赞 246
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 32,053评论 1赞 260
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 28,385评论 2赞 253
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 33,035评论 3赞 236
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 26,079评论 0赞 8
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 26,841评论 0赞 195
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 35,648评论 2赞 274
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 35,550评论 2赞 270

《编程珠玑》第2章三个问题

推荐阅读更多精彩内容