百度天算大数据平台初体验

曾经试用过主流大厂提供的大数据平台服务,仅从用户体验角度上来说,各有千秋。

百度天算控制台
  • 腾讯大数据处理套件TBDS 没有完全开放服务,使用前需要申请,申请周期较长。我通过联系客服,获得了一个临时体验账号,见第二张图
腾讯大数据处理套件TBDS

通过客服提供的临时账号登陆TBDS
  • 华为企业云控制台 提供开发、测试管理流程(果然是以软件著称),Spark版本较低(1.5.1),退还押金让人蛋疼(走各类审批流程、客服多次骚扰、周期长)
华为企业云控制台
  • 阿里云数加控制台 阿里的云平台种类较多,云梯(貌似已下线)、飞天(自研)、数加,有点眼花缭乱。因为是自研,使用较繁杂(可能是因为不熟悉),使用前要购买MaxCompute服务,性能较好(个人体验)
阿里云数加控制台
  • Amazon EMR控制台 各组件基本是当前最新版本!申请账号时需要绑定信用卡,万一集群忘记销毁。。。
Amazon EMR控制台

各产品的收费情况和其能提供的服务器性能、服务功能相关,收费方式多样化,可年、月、时。4台规模集群的Hadoop+Spark服务,大概3-5元/小时不等。

因为都是大厂的大数据平台产品,所以肯定都是功底深厚、面向广泛。上述描述,仅仅是个人体验,不具有通用性、不带有批判性、没有代表性。

本文仅简单介绍一下我比较喜欢的百度天算这个产品:
使用过程如下:执行WordCount应用程序,统计文本中单词词频。

  • 需要使用对象存储BOS和百度MapReduce BMR功能


    使用对象存储BOS和百度MapReduce BMR功能
  • 进入对象存储BOS后,用户通过新建bucket,建立存放在 BOS上的文件夹


    新建Bucket
  • 将需要执行的Spark应用程序及被测数据上传到刚才建立的文件夹中


    上传文件
  • 通过导航栏进入百度MapReduce功能,准备创建集群


    创建集群
  • 配置集群名称、登录用户名、密码(用来进入Web UI和SSH连接)、BOS路径、选择组件版本


    集群配置页面
  • 我选择使用Hadoop 2.7、Spark 1.6.0、Hue 3.10.0、HBase 1.1.2,创建4个节点

集群配置页面
  • 付费


    付费
  • 支付成功后,集群就开通了


    集群成功开通
  • 4台规模的集群,初始化了10分钟,时间较长,应该是启动虚机后,根据用户的选择,下载相应的组件包,修改配置,启动服务。


    集群正在初始化
  • 集群服务启动成功


    集群服务启动成功
  • 通过集群的实例详情,可以链接Yarn Web UI和Hue Web UI


    集群详情页面
  • 通过导航栏选择作业,创建作业


    创建作业
  • 选择Spark作业,指定Spark-submit命令参数及应用程序参数(位置在BOS)


    配置作业参数
  • 作业创建成功后,等待执行


    作业等待执行
  • 作业执行过程中可以查看作业详情


    作业执行过程中可以查看作业详情
  • 一段时间后,作业完成


    作业成功的执行完毕
  • 通过查看作业日志,观察输出结果


    通过查看作业日志,观察输出结果
  • 通过集群界面中的Hadoop Yarn Web UI链接,查看应用程序的具体执行情况

选择Hadoop Yarn Web UI链接

Hadoop Yarn Web UI界面

Hadoop Yarn Web UI界面
  • 可用在集群的监控页面,观察集群状态和各大数据组件信息


    集群的监控页面

    集群的监控页面
  • 可以在导航栏选择多用户访问控制,对多用户权限进行管理和控制


    多用户访问控制页面

    多用户访问控制页面
  • 百度云提供详尽的产品手册,对用户进行指导


    百度云产品手册

使用过程中一些小坑:

  • 集群环境默认使用JDK 1.7版本,所以用户编译应用程序时,请使用JDK 1.7,否则会出现类似:Unsupported major.minor.version 51.0的错误
  • 集群环境默认使用Scala 2.10版本,所以用户编译应用程序时,请使用Scala 2.10.x,否则会出现类似: java.lang.AbstractMethodError: bdsparkwc$1.call(Ljava/lang/Object;)Ljava/lang/Iterable;的错误
  • 当应用程序执行完毕后,无法使用Yarn Web UI来登陆应用程序的Driver Web UI 4040界面,估计是Spark History Server服务没有开启
  • 其提供IP用来SSH连接,经常出现超时

总结:
目前来看,主流大厂都是通过这种SaaS方式来提供大数据平台全托管的服务,面向一些没有数据中心、没有运维能力的中小型企业,按需部署和使用,非常的快捷。通过其详尽的产品使用指南,用户再具备一些大数据组件相关使用的知识,就可以快速的进行大数据的清洗、挖掘、分析和报告,无需为集群节点分配、部署、优化、维护投入时间。

相关链接:

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 158,233评论 4 360
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 67,013评论 1 291
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 108,030评论 0 241
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 43,827评论 0 204
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 52,221评论 3 286
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 40,542评论 1 216
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 31,814评论 2 312
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 30,513评论 0 198
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 34,225评论 1 241
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 30,497评论 2 244
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 31,998评论 1 258
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 28,342评论 2 253
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 32,986评论 3 235
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 26,055评论 0 8
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 26,812评论 0 194
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 35,560评论 2 271
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 35,461评论 2 266

推荐阅读更多精彩内容