海量日志数据,提取出某日访问百度次数最多的那个IP

分析:
IP总个数2^32 = 4G,如果单机用一个hash表来存储,光IP部分就得4G*4 = 16G,不现实

把文件按照hash(IP)%1000的方式分割成1000个小文件,相同IP的日志肯定落到了同一个文件中,针对每一个小文件,用hash_map统计出次数最多的那个IP,得到1000个“最多”的IP,然后在这1000个“最多”的IP中找到最大的即可。

推荐阅读更多精彩内容

  • 教你如何迅速秒杀掉:99%的海量数据处理面试题 本文经过大量细致的优化后,收录于我的新书《编程之法》第六章中,新书...
    Helen_Cat阅读 6,651评论 0 39
  • 摘要:本文将向您讲述诸多数据处理面试题以及方法的总结。 第一部分、十道海量数据处理面试题 1、海量日志数据,提取出...
    拾壹北阅读 1,431评论 0 28
  • 第一部分、十道海量数据处理面试题 1、海量日志数据,提取出某日访问百度次数最多的那个IP。 此题,在我之前的一篇文...
    零一间阅读 552评论 0 5
  • 题目: 每一个ip访问百度,其ip地址都会被记录到后台日志文件中,假设一天的访问日志有100G,求出一天中访问百度...
    猫和芝士蛋糕阅读 1,621评论 1 1
  • 海量数据处理,就是在海量数据上的存储、处理、操作。海量的意思就是数据量太大,所以导致要么是无法在较短时间内迅速解决...
    seriously_1阅读 980评论 0 1
  • 你若陪我跑过这里,我便许你一世媚丽! 这个520 没有鲜花 没有巧克力 只有一双腿 跑过深圳大街小巷 然后走近你 ...
    戏精跑者阅读 127评论 2 2
  • 不知是第几次望着母亲温润的眼睛 同她告别了 站在一旁的弟弟也不说话 微笑间我读懂他的不舍得 黄色旧旧的出租车关不上...
    南逢酒馆阅读 113评论 0 0
  • 萧峰接过化验单,眼睛一花,发觉自己根本看不清化验单上的字迹。他只好闭上眼睛,过了一会才重新看化验单。血小板:30万...
    惊闻语阅读 276评论 4 3
  • 闲来无事,在家小画,不知不觉半天过去。 画画是我喜欢的事,每每无事就画上一幅,陶冶情操,平和心境。画完,心满意足,...
    琉璃mm阅读 74评论 0 0
  • 阿文和阿里同一所大学毕业,两个人都是积极进取的好青年,但是三年后的处境却截然不同:阿文还是呆在岗位上,领着一成不变...
    猫妈聊教育阅读 194评论 0 3