Hadoop真的适合你吗?

Hadoop是低成本高性能的计算框架,可以处理各种IT和业务场景中组织对扩展处理能力或者扩展数据管理能力的需求。下面总结一下应用需求的特点以及建议选择的基于Hadoop分布式应用的数据管理平台。

许多公司都在为管理海量数据不断努力。根据大数据巴士的统计在以前,他们都使用数据仓库平台,用这种传统架构在处理来自内部和外部数据源的数据时有很大困难,这些数据的结构和内容类型通常非常多样化,但Hadoop可以对此场景提供帮助。Hadoop是一款分布式处理架构,专门用来处理复杂的海量大数据,处理结构化、非结构化和半结构化数据混杂的场景。

Hadoop的部分优势在于,它有许多种开源组件和相关工具,可以完成数据捕获、处理、管理和分析工作。为了帮助用户利用好该框架,许多供应商提供了商业版Hadoop分布式产品,它们在Hadoop基础之上提供了性能和功能方面的扩展,并提供对该框架的维护和支持服务。

Hadoop分布式应用的案例场景

Hadoop运行在商用服务器集群环境中,这种环境通常用来支持数据分析而不是联机事务处理应用。有几种更加通用的分析应用案例可以很好地展示Hadoop分布式数据处理和并行计算模型:

业务智能应用要从事务处理系统和组织资产系统中捕获流式数据,监视性能水平,应用预测分析做预备维护或者处理变更。

Web分析本来是为了帮助公司理解站点访问者的在线活动情况,通过检查Web服务器日志来检测系统性能问题,发掘营销信息。

安全和风险管理,例如:运行分析模型把事务数据与欺诈活动模式知识库做比较,利用持续网络安全分析识别新出现的可疑行为。

营销优化,包括利用大量网络点击和在线销售数据,再结合客户档案信息设计形成推荐引擎提供实时产品捆绑销售建议。

物联网应用,例如从制造业设备、管道和所谓智能建筑安置的传感器终端获取数据做分析,这些传感器会持续生成并广播关于状态和性能的信息。

语义分析和品牌保护,可能需要捕获流式社交媒体数据并分析文本,识别出有意见的客户提出的问题并快速解决。

大数据收集、处理和整合场景,例如捕获卫星图像和地理空间数据。

数据暂存,Hadoop用于做第一手数据的存储,然后才会做整合、清洗和转换为更加结构化的格式,未来加载到数据仓库或分析数据库用于分析。

Hadoop分布式应用的实现方式

支持以上这些应用场景的应用都可以基于Hadoop构建,可以使用一些典型的实现方法。说明如下:

数据湖。因为Hadoop提供了线性扩展能力,集群架构中很容易加入新数据节点做处理和存储,因此它提供了非常自然的平台用于捕获和管理原始数据文件。基于这一特性,许多用户把Hadoop系统用作捕获所有数据的平台,创造了数据湖的概念。

增强的数据仓库平台。Hadoop分布式存储还可以用于扩展数据,供数据仓库环境访问用于分析。最频繁使用的“热数据”存储在数据仓库中,而不太频繁的“冷数据”可以提交到更高延时的存储,例如Hadoop分布式文件系统。这种方法依赖于数据仓库与Hadoop集成的紧耦合。

大规模批量计算引擎。如果配置了数据和计算节点,Hadoop就变成了大规模并行处理平台,可以用于批量处理应用做数据操作和分析。数据标准化就是很好的例子,可以对数据集应用转换任务为分析做准备。算法驱动的分析应用(例如数据挖掘、机器学习、模式分析和预测模型)都可以用到Hadoop的批处理能力,因为他们都需要针对海量分布式数据文件并行处理,并叠加并行处理结果后提供最终结果集。

事件流分析处理引擎。Hadoop环境还可以配置为实时或准实时处理收到的数据流。例如,客户感受分析应用可以把多个通讯代理并行运行于Hadoop集群上,每个代理都有一套处理规则。

选择Hadoop的优势:它真的适合你吗?

Hadoop是低成本高性能的计算框架,可以处理各种IT和业务场景中组织对扩展处理能力或者扩展数据管理能力的需求。下面总结一下应用需求的特点以及建议选择的基于Hadoop分布式应用的数据管理平台。

获取和处理大数据规范集、大规模非结构化数据和流式数据。例如,捕获包含数十亿在线事件信息的Web服务器日志;跨不同数据集索引亿级文档;从众多渠道持续拉取数据流(诸如:社交媒体渠道、证券市场数据、新闻发布源和专家团队发布的内容等渠道)。

排除性能障碍的需求。在传统数据仓库系统中,通常会有节流阀控制对数据的访问、延时、可用性或者贷款限制来保障应用性能,这与需要处理的数据量有关。

针对性能的线性可扩展性。随着数据量的增长和用户数增加,环境性能可以随着计算能力和存储资源线性扩展是非常关键的能力,尤其是在应用程序适合并行计算的场景下更是如此。

结构化数据和非结构化数据的混合场景。应用程序需要使用不同数据源的数据,包括结构化、非结构化和半结构化的数据。例如:文本数据或者服务器日志数据。

IT成本有效性。不需要花费购买高端服务器或者专门的硬件设备,系统架构师相信使用正常配置就可以达到可接受的性能。

Hadoop应用到企业中

尽管把Hadoop平台整合到企业应用中是完全可行的,但使用Hadoop获益仍然要考虑权衡。因为许多组织已经在传统数据仓库平台上做了巨大投资,因此引入更新的技术可能会遇到一些阻力。在引入Hadoop分布式产品供应商之前,需要先解决潜在的障碍,评估集群规模和配置需求。

例如,要判断Hadoop集群如何与组织的数据仓库和分析策略融合,判断是否可以增强现有数据仓库功能甚至替换它。另外,要判断整合和交互方面需要处理的问题,审查配置可替代物,包括是否可以更有利于实施内部Hadoop生态系统,或者基于云或者托管环境。此外,要确保你已经聘用了具备相应技能的员工或者对现有职员进行再培训。Hadoop应用开发与传统数据库开发差异是很大的。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 158,736评论 4 362
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 67,167评论 1 291
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 108,442评论 0 243
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 43,902评论 0 204
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 52,302评论 3 287
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 40,573评论 1 216
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 31,847评论 2 312
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 30,562评论 0 197
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 34,260评论 1 241
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 30,531评论 2 245
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 32,021评论 1 258
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 28,367评论 2 253
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 33,016评论 3 235
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 26,068评论 0 8
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 26,827评论 0 194
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 35,610评论 2 274
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 35,514评论 2 269

推荐阅读更多精彩内容