想玩转工业界机器学习？先学Spark吧

0、为什么机器学习者需要学习spark？

关于大数据，有这样段话:

“Big data is like teenage sex,everyone talks about it,nobody really knows how to do it,everyone thinks everyone else is doing it,so everyone claims they are doing it.”

作为一名学生，如何还没听说过Spark这套计算框架，那么我觉得还是留在学术界的机器学习混吧，工业界现在也许还不适合你。

在学术界，数据一般都是别人处理好的公开数据集，而我们只是在上面实践学术界的算法，在工业界可没人给你把业务数据都给你准备好...

众所周知，机器学习和统计学技术是把大数据转化为行为知识的关键技术，此外，机器学习者常言道：你能掌控的数据量决定了你模型最终所能达到效果上限，不断优化的模型只是为了不断的接近这个上限而已。

数据和算法之间的关联，一个是血液，一个是心脏。

信息时代，大部分顶层的互联网公司都积累了海量的数据，能掌控的数据量是你模型最终能接近最好效果的很重要的一个要素之一，对于工业界的业机器学习算法工程师，除了明白学术界的机器学习原理、优化理论以及实现各种单机版小demo外…..要想真正的能解决实际的业务问题，那就必须具备处理、利用海量业务数据的能力，而Spark正是赋予我们掌控大数据能力的利器。

拥有的数据量，不等于你能掌控的数据量，学习Spark，赋予你掌控大数据的能力！

数据和算法之间的关联，一个是血液，一个是心脏。

看看相关职位的需求…..

工业界需要Spark

我曾经接触的两个公司的推荐部门都是基于scala(python)+spark+hadoop平台工作的，由此可见，Spark在机器学习的工业领域是非常重要的技能之一！

总之，想将来从事机器学习相关工作的朋友们，开始学Spark吧！

1、什么是Spark？

Spark与大数据

Spark是继Hadoop之后的下一代分布式内存计算引擎，于2009年诞生于加州大学伯克利分校AMPLab实验室，现在主要由Databricks公司进行维护。是当今大数据领域最活跃、最热门、最高效的大数据通用计算平台。

官方定义：spark是一个通用的大数据处理引擎，可以简单的理解为一个大数据分布式处理框架。

相比于传统的以hadoop为基础的第一代大数据技术生态体系来说，Spark性能更好（快速）、可扩展性更高（技术栈）。

Spark的特点

2、前辈hadoop：

2006年项目成立的一开始，“Hadoop”这个单词只代表了两个组件——HDFS和MapReduce。到现在的10个年头，这个单词代表的是“核心”（即Core Hadoop项目）以及与之相关的一个不断成长的生态系统。这个和Linux非常类似，都是由一个核心和一个生态系统组成。

Hadoop发展历程

现在Hadoop在一月发布了2.7.2的稳定版，已经从传统的Hadoop三驾马车HDFS，MapReduce和HBase社区发展为60多个相关组件组成的庞大生态，其中包含在各大发行版中的组件就有25个以上，包括数据存储、执行引擎、编程和数据访问框架等。

Hadoop在2.0将资源管理从MapReduce中独立出来变成通用框架后，就从1.0的三层结构演变为了现在的四层架构：

Hadoop的框架

底层——存储层，文件系统HDFS
中间层——资源及数据管理层，YARN以及Sentry等
上层——MapReduce、Impala、Spark等计算引擎
顶层——基于MapReduce、Spark等计算引擎的高级封装及工具，如Hive、Pig、Mahout等等

3、有了hadoop为什么还需要spark？

肯定Spark有比Hadoop的MR计算更好的优势，好在如下方面：
（1）为什么高效？

相对于Hadoop的MR计算，Spark支持DAG，能缓存中间数据，减少数据落盘次数；
使用多线程启动task，更轻量，任务启动快。计算速度理论上有10-100倍提升。（根据个人工作验证，计算效率相对Hadoop至少是3倍以上）

3.高度抽象API，代码比MR少2-5倍甚至更多，开发效率高

（2）为什么多框架整合？

相对于过去使用Hadoop + Hive + Mahout + Storm 解决批处理、SQL查询和实时处理和机器学习场景的大数据平台架构，其最大的问题在于不同框架语言不同，整合复杂，同时也需要更多维护成本。

而使用Spark在Spark core的批处理基础上，建立了Spark Sql、Spark Streaming，Spark Mllib，Spark GraphX来解决实时计算，机器学习和图计算场景，方便将不同组件功能进行整合，同时维护成本小。

Spark与Hadoop对比

因为传统的hadoop的MapReduce具有高延迟的致命缺点，无法处理高时效性的数据。hadoop本身的计算模型就决定了，hadoop上的所有工作都需要转换为Map、Shuffle、Reduce等核心阶段，由于每次计算都需要从磁盘读写数据，同时整个模型都需要网络传输，这就导致了不可改变的延迟。而spark的出现，让hadoop也没有时间、也没有必要再重构自己。当然hadoop作为一个技术体系，spark主要是替代其Map/Reduce的功能，hadoop的HDFS功能还是被与spark结合起来使用。

Spark的特点

spark的成本

Spark 和 Hadoop MapReduce 都是开源的，但是机器和人工的花费仍是不可避免的。

Spark与Hadoop的硬件差异

Spark 集群的内存至少要和需要处理的数据块一样大，因为只有数据块和内存大小合适才能发挥出其最优的性能。所以如果真的需要处理非常大的数据，Hadoop 是合适之选，毕竟硬盘的费用要远远低于内存的费用。

考虑到 Spark 的性能标准，在执行相同的任务的时候，需要的硬件更少而运行速度却更快，因此应该是更合算的，尤其是在云端的时候，此时只需要即用即付。

4. Spark之于Hadoop

更准确地说，Spark是一个计算框架，而Hadoop中包含计算框架MapReduce和分布式文件系统HDFS，Hadoop更广泛地说还包括在其生态系统上的其他系统，如Hbase、Hive等。Spark是MapReduce的替代方案，而且兼容HDFS、Hive等分布式存储层，可融入Hadoop的生态系统，以弥补缺失MapReduce的不足。

Spark与Hadoop在数据中间数据处理区别：

Spark架构采用了分布式计算中的Master-Slave模型。Master是对应集群中的含有Master进程的节点，Slave是集群中含有Worker进程的节点。Master作为整个集群的控制器，负责整个集群的正常运行；Worker相当于是计算节点，接收主节点命令与进行状态汇报；Executor负责任务的执行；Client作为用户的客户端负责提交应用，Driver负责控制一个应用的执行。

Spark调度模块

Spark集群部署后，需要在主节点和从节点分别启动Master进程和Worker进程，对整个集群进行控制。在一个Spark应用的执行过程中，Driver和Worker是两个重要角色。Driver程序是应用逻辑执行的起点，负责作业的调度，即Task任务的分发，而多个Worker用来管理计算节点和创建Executor并行处理任务。在执行阶段，Driver会将Task和Task所依赖的file和jar序列化后传递给对应的Worker机器，同时Executor对相应数据分区的任务进行处理。

下面详细介绍Spark的架构中的基本组件。

ClusterManager：在Standalone模式中即为Master（主节点），控制整个集群，监控Worker。在YARN模式中为资源管理器。
Worker：从节点，负责控制计算节点，启动Executor或Driver。在YARN模式中为NodeManager，负责计算节点的控制。
Driver：运行Application的main（）函数并创建SparkContext。
Executor：执行器，在worker node上执行任务的组件、用于启动线程池运行任务。每个Application拥有独立的一组Executors。
SparkContext：整个应用的上下文，控制应用的生命周期。
RDD：Spark的基本计算单元，一组RDD可形成执行的有向无环图RDD Graph。
DAG Scheduler：根据作业（Job）构建基于Stage的DAG，并提交Stage给TaskScheduler。
TaskScheduler：将任务（Task）分发给Executor执行。
SparkEnv：线程级别的上下文，存储运行时的重要组件的引用。SparkEnv内创建并包含如下一些重要组件的引用。
MapOutPutTracker：负责Shuffle元信息的存储。
BroadcastManager：负责广播变量的控制与元信息的存储。
BlockManager：负责存储管理、创建和查找块。
MetricsSystem：监控运行时性能指标信息。
SparkConf：负责存储配置信息。

Spark的整体流程为：Client提交应用，Master找到一个Worker启动Driver，Driver向Master或者资源管理器申请资源，之后将应用转化为RDD Graph，再由DAGScheduler将RDD Graph转化为Stage的有向无环图提交给TaskScheduler，由TaskScheduler提交任务给Executor执行。在任务执行的过程中，其他组件协同工作，确保整个应用顺利执行。

Spark作业层次划分

Application就是用户submit提交的整体代码，代码中又有很多action操作，action算子把Application划分为多个job，job根据宽依赖划分为不同Stage，Stage内划分为许多（数量由分区决定，一个分区的数据由一个task计算）功能相同的task，然后这些task提交给Executor进行计算执行，把结果返回给Driver汇总或存储。

4.1 统计数据集中词频的例子

下面看一下使用Spark解决一个HelloWord入门级别的Spark程序代码，比写Hadoop里面的Map/Reduce代码简单多了....

# 统计单词的词频
val rdd = sc.textFile("/home/scipio/README.md")
val wordcount = rdd.flatMap(_.split(' ')).map((_,1)).reduceByKey(_+_)
val wcsort = wordcount.map(x => (x._2,x._1)).sortByKey(false).map(x => (x._2,x._1))
wcsort.saveAsTextFile("/home/scipio/sort.txt")

Spark执行过程

上图是一个Spark的wordcount例子，根据上述stage划分原则，这个job划分为2个stage，有三行，分别是数据读取、计算和存储过程。

仅看代码，我们根本体会不到数据在背后是并行计算。从图中能看出数据分布在不同分区（集群上不同机器上），数据经过flapMap、map和reduceByKey算子在不同RDD的分区中流转。（这些算子就是上面所说对RDD进行计算的函数），后面有空再介绍一下自己总结的Spark常用的算子以及Scala函数。

推荐Spark官网中文翻译版入门学习资料：http://spark.apachecn.org/docs/cn/2.2.0/sql-programming-guide.html

最后编辑于：2017.12.24 15:36:47

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 158,560评论 4赞 361
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 67,104评论 1赞 291
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 108,297评论 0赞 243
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 43,869评论 0赞 204
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 52,275评论 3赞 287
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 40,563评论 1赞 216
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 31,833评论 2赞 312
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 30,543评论 0赞 197
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 34,245评论 1赞 241
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 30,512评论 2赞 244
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 32,011评论 1赞 258
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 28,359评论 2赞 253
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 33,006评论 3赞 235
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 26,062评论 0赞 8
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 26,825评论 0赞 194
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 35,590评论 2赞 273
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 35,501评论 2赞 268