8.1 你好,我是一只Hadoop

大家好,好久不见啦。我是李大仁。

近一年都在忙着PM skill社区运营工作, 每天要看很多优秀产品作者的文章,受益匪浅。

《产品经理的技术修养》一书断更许久,这是续更的第一篇,首发于公众号、同步于PM skill社区。

Jack

8.1 大数据和Hadoop家族

image

小奈:表哥,你知道么。昨天我同事更新简历,然后就被hr约谈了。据说是有一种大数据简历监控服务,可以监控到公司员工简历更新动态。

李大仁:没错的,是有这样一家公司,不过这家大数据简历公司,已经被警方端了,所有员工都被带走。随后,有部分员工被陆续放出。

该公司疑似在没有获得授权下抓取用户简历。

之前创新工厂还投资过。号称有上亿简历。

****小奈****:大数据好可怕啊,我还能更新简历么?

李大仁:大数据并不可怕,而且大数据也不仅仅是你理解的那样。

小奈:大数据究竟是什么?我想系统的了解下。

李大仁讲故事模式:

之前也给你讲过,在浏览器输入url后的故事了。我们来回顾一下。

当你在浏览器输入url之后,网页像商品一样,从远方服务器通过网络管道传输回来,显示在浏览器上。

image

这个便是早期的web网页应用。这里我们将web应用比喻为商品,用户则是村里购物的小李。早期的架构就像是小作坊生产商品,再通过公路运输。

后来随着村里经济发展,大量像小李网络购物的村民。商家小作坊模式已经适应不了。有一家叫谷歌的商家,提出了工厂联合生产-统一装配高速公路运输的模式(Map切割工作-reduce合并结果)。

商品分为好几个部分,每个工厂就可以并行生产(分布式集群并行计算),然后统一装配运输。这种联合模式工厂(Hadoop)大大提升了商品的生产效率。

这就是大数据,简单来说就是一种“分而治之”的哲学。

我是联合模式工厂,我叫Hadoop:

image

作为一个大数据工厂的基础设施,我分为两部分。HDFS(Hadoop Distributed FileSystem )分布式文件系统,这个是机身。另一部分是MapReduce(分布式计算模型),这个是引擎。

HDFS是HBase(高可用、大型机身),作为大数据工厂设施机身的开山鼻祖,在数据文件存储这块意义非凡。

Map-Reduce引擎的原理如下,通过切分计算工作,最后再聚合计算结果。

image

我是Hadoop,各个村子都用上我了,村里都拥有了大数据的能力和财富。那么多人用我,自然而然,我的家族也庞大起来,形成一个生态。

image

HBase:是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统,是为有数十亿行和数百万列的超大表设计的,这是一种分布式数据库,利用HBase技术可在廉价PC Server上搭建起大规模结构化存储集群。

image

Apache Zookeeper: 是一个为分布式应用所设计的分布的、开源的协调服务,它主要是用来解决分布式应用中经常遇到的一些数据管理问题,简化分布式应用协调及其管理的难度,提供高性能的分布式服务。

查看小程序或原文,与我一起深入了解hadoop家族

你好,我是一只hadoop

【产品经理大咖秀】2019年第4期:深访顺丰云计算产品经理

【产品经理大咖秀】2019年第2期啥是佩奇?

【产品经理大咖秀】2019年第1期:数据产品经理的价值

推荐阅读更多精彩内容