面试时候的一道海量数据的题目

这题是去哪儿二面的时候,我的老学长面试官给我出的题目.我觉得能拿来扯一扯,就写了.

题目描述:给你国内所有高校的往年的毕业生的毕业信息资料(强调了下数据很大很大),并将这一堆数据进行整合.整合后的结果为同一个人只保留他的最高学历的毕业信息.只给你一台内存为4G的电脑,问你该如何高效地处理这一堆数据.(PS:这是根据当时我简历写的那个项目来扯的,我当时的是某个省的高校近5年的毕业生信息处理)

这题目呢,就是一个典型的海量数据处理了.一开始我有点天真了,居然想着通过倒排文档来整合,图样图森破啊.这个想法直接被否定了,然后让我想想另一个解决办法.后来的想法是哈希,根据每个毕业生的身份证信息来进行哈希,把毕业生数据按照身份证前6位进行哈希(前面不是省啊,市啊什么的嘛,就这么哈希了),然后这样每次4G的内存肯定是能够处理的了(我不知道毕业生信息到底是多大,所以就化小了),然后就对这堆东西进行身份证,姓名进行查重,取最高学历的信息直接存下来就好了.这次我感觉,啊哈哈哈,应该能过了吧.然后,他又问:"如果我想要快一点,你会怎么做?".我说:"用多几台电脑呗,几台一起整肯定比一台要快."他说:"还是这样的一台电脑,我想快点,你要怎么做."我说;"嗯...这样的话,应该可以用流水线作业模型(前几天不小心看了个N年前诺基亚N9加工的视频,所以就想到了用这东西来处理)来并行处理吧."后面学长又问我"为什么这样做能提升处理速度."我说:"用流水线模型之所以会加速整个过程,是因为过去得把一组数据的三个过程(三个过程是1.将数据读入内存,2.处理数据,3.将数据存到另一个文件里)全部处理完之后,才能进行下一个组数据的处理,现在就可以三个过程并行着进行了.这样会使得程序每次不能处理4G的数据了,每次只能处理4/3G,不过这个应该不会用那么多啦,应该影响不会很大吧...."他说:"嗯,还行,这个问题算过了."(PS:这不是面经,就是说一道题而已,题目OVER)

这个问题讲完了,第一次写,写不好就喷吧,不过应该没人看.

怎么这么短....我还是详细展开下说吧....

1.什么是流水线模型.百度百科上的解释是:流水线(pipeline)技术是指在程序执行时多条指令重叠进行操作的一种准并行处理实现技术。

2.流水线模型适用范围(PS:纯属小生的个人观点,有错请指出哈,立马改).我认为任务应该满足:1,可以被切分.2,重叠执行.就比如车辆生产.要各个部件生产出来,然后再组装起来,各个部件生产和组装就是大任务切分成小任务.然后先生产零件再组装再测试什么什么的就是重叠了.还有别的,请自行Google,百度.

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 158,736评论 4 362
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 67,167评论 1 291
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 108,442评论 0 243
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 43,902评论 0 204
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 52,302评论 3 287
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 40,573评论 1 216
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 31,847评论 2 312
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 30,562评论 0 197
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 34,260评论 1 241
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 30,531评论 2 245
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 32,021评论 1 258
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 28,367评论 2 253
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 33,016评论 3 235
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 26,068评论 0 8
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 26,827评论 0 194
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 35,610评论 2 274
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 35,514评论 2 269

推荐阅读更多精彩内容