有10个文件,每个文件1G,每个文件的每一行存放的都是用户的query,每个文件的query都可能重复。要求按照query的频度排序。

将所有查询进行hash(query)%10,映射成新的10个文件,大约每个1GB。对每个文件使用hash_map统计频率并排序,然后对10个结果再归并排序。

推荐阅读更多精彩内容