spark几种部署模式，每种模式特点及搭建

Spark分布式集群搭建的步骤

1）准备linux环境，设置集群搭建账号和用户组，设置ssh，关闭防火墙，关闭seLinux，配置host，hostname
2）配置jdk到环境变量
3）搭建hadoop集群，如果要做master，需要搭建zookeeper集、修改hdfs-site.xml,hadoop_env.sh,yarn-site.xml,slaves等配置文件
4）启动hadoop集群，启动前要格式化namenode
5）配置spark集群，修改spark-env.xml，slaves等配置文件，拷贝hadoop相关配置到spark conf目录下
6)启动spark集群。

spark的有几种部署模式，每种模式特点

local(本地模式)：常用于本地开发测试，本地还分为local单线程和local-cluster多线程;
standalone(集群模式)：典型的Mater/slave模式，不过也能看出Master是有单点故障的；Spark支持ZooKeeper来实现 HA
on yarn(集群模式)：运行在 yarn 资源管理器框架之上，由 yarn 负责资源管理，Spark 负责任务调度和计算
on mesos(集群模式)：运行在 mesos 资源管理器框架之上，由 mesos 负责资源管理，Spark 负责任务调度和计算
on cloud(集群模式)：比如 AWS 的 EC2，使用这个模式能很方便的访问 Amazon的 S3;Spark 支持多种分布式存储系统：HDFS 和 S3

下面对集中部署模式进行详细介绍

1、本地模式

该模式运行任务不会提交在集群中，只在本节点执行，有两种情况

本地模式: 测试或实验性质的本地运行模式（单机）

运行该模式非常简单，只需要把Spark的安装包解压后，改一些常用的配置即可使用，而不用启动Spark的Master、Worker守护进程( 只有集群的Standalone方式时，才需要这两个角色)，也不用启动Hadoop的各服务（除非你要用到HDFS）。

Spark不一定非要跑在hadoop集群，可以在本地，起多个线程的方式来指定。将Spark应用以多线程的方式直接运行在本地，一般都是为了方便调试，本地单机模式分三类：

local：只启动一个executor
local[k]:启动k个executor
local[*]：启动跟cpu数目相同的 executor

搭建步骤：

安装java

$ sudo apt-get install openjdk-8-jre

（中间有报错：raise IllegalArgumentException(s.split(': ', 1)[1], stackTrace)
pyspark.sql.utils.IllegalArgumentException: u'Unable to locate hive jars to connect to metastore. Please set spark.sql.hive.metastore.jars.'，网上提示查看jdk版本，发现ubuntu 18.04默认是openjdk-11-jdk包(java -version提示10.0.1)。重新安装openjdk-8-jdk版本不报错）

配置jdk到环境变量
（可以用命令：sudo update-alternatives --config java来查看你的Java版本有哪些，需要将哪个添加到环境变量中）

$ sudo vim /etc/profile

添加

export JAVA_HOME=/usr/lib/jvm/java-8-openjdk-amd64

安装Scala
安装spark-2.3.1-bin-hadoop2.7（没有Hadoop的环境下）

$ sudo wget -c [http://mirror.bit.edu.cn/apache/spark/spark-2.3.1/spark-2.3.1-bin-hadoop2.7.tgz](http://mirror.bit.edu.cn/apache/spark/spark-2.3.1/spark-2.3.1-bin-hadoop2.7.tgz)
$ sudo tar zxf spark-2.3.1-bin-hadoop2.7.tgz -C /usr/lib/spark
$ cd /usr/lib/spark
$ sudo ln -s spark-2.3.1-bin-hadoop2.7 spark
$ sudo vim ~/.bashrc

添加
export SPARK_HOME=/usr/lib/spark/spark
export PATH= $PATH:$ SPARK_HOME/bin
export PYTHONPATH=/home/rss/anaconda2/bin
（这里我修改了python的环境变量，使用自己的python
sudo ln -s /home/rss/anaconda2/bin/python /usr/bin/python
PATH=/usr/bin:$PATH）
安装成功

运行：
使用spark-shell、spark-submit、pyspark
例如使用spark-shell：

local：单机、单核运行

image.png

local[k]:启动k个executor

image.png

local[]：启动跟cpu数目相同的 executor*

image.png

上述情况中，local[N]与local[*]相当于用单机的多个线程来模拟spark分布式计算，通常用来检验开发出来的程序逻辑上有没有问题。

其中N代表可以使用N个线程，每个线程拥有一个core。

这些任务的线程，共享在一个进程中，可以开到，在程序的执行过程中只会产生一个进程，这个进程揽下了所有的任务，既是客户提交任务的client进程，又是spark的driver程序，还是spark执行task的executor

本地模式: 测试或实验性质的本地伪集群运行模式（单机本地模拟集群）

这种运行模式，和Local[N]很像，不同的是，它会在单机启动多个进程来模拟集群下的分布式场景，而不像Local[N]这种多个线程只能在一个进程下委屈求全的共享资源。通常也是用来验证开发出来的应用程序逻辑上有没有问题，或者想使用Spark的计算框架而没有太多资源。

用法：提交应用程序时使用local-cluster[x,y,z]参数：x代表要生成的executor数，y和z分别代表每个executor所拥有的core和memory数。

$ spark-submit --master local-cluster[2,3,1024]  ss.py

上面这条命令代表会使用2个executor进程，每个进程分配3个core和1G的内存，来运行应用程序。可以看到，在程序执行过程中，会生成如下几个进程：

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 159,835评论 4赞 364
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 67,598评论 1赞 295
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 109,569评论 0赞 244
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 44,159评论 0赞 213
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 52,533评论 3赞 287
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 40,710评论 1赞 222
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 31,923评论 2赞 313
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 30,674评论 0赞 203
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 34,421评论 1赞 246
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 30,622评论 2赞 245
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 32,115评论 1赞 260
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 28,428评论 2赞 254
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 33,114评论 3赞 238
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 26,097评论 0赞 8
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 26,875评论 0赞 197
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 35,753评论 2赞 276
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 35,649评论 2赞 271

spark几种部署模式，每种模式特点及搭建

Spark分布式集群搭建的步骤

spark的有几种部署模式，每种模式特点

1、本地模式

本地模式: 测试或实验性质的本地运行模式 （单机）

本地模式: 测试或实验性质的本地伪集群运行模式（单机本地模拟集群）

推荐阅读更多精彩内容

本地模式: 测试或实验性质的本地运行模式（单机）