mac使用pyspark & spark thrift server的使用

前段时间，做公司bot平台的日志处理，跟着大佬老王同志一起学spark。学了这么久，总算有些技巧分享给大家。网上的入门教程真的很多很多，所以我没写系统写过一门技术的教程，因为我想如果写仅仅会是知识的搬运工和和泥工吧。我只是想分享一些自己使用的小技巧、一些难搜索到的冷知识。熟读https://spark.apache.org/

mac安装spark

这里介绍了两种安装方法、三种使用方式，

python

对的，一般使用pyspark进行编程，其实只要用pip工具安装就可以了。

$ pip3 install pyspark

system

使用homebrew安装，

$ brew install apache-spark

目录在/usr/local/Cellar/apache-spark，建议大家不要使用子目录的bin文件夹，而是/usr/local/Cellar/apache-spark/2.4.0/libexec里面的，因为好多工具都在sbin目录里面，而且warehouse(存储metadata)会默认生成在你操作的目录里。所以每次操作建议先到这个目录，可以保证数据的一致性，别问我怎么知道的 = - = # 、哼：

$ cd /usr/local/Cellar/apache-spark/2.4.0/libexec

pyspark使用

首先，可以使用pycharm构建一个简单的项目，

准备好文件，

{"name": "goddy", "age": 23}
{"name": "wcm", "age": 31}

然后编写一个简单的spark程序，

from pyspark.sql import SparkSession
from pyspark.sql.types import *

spark = SparkSession \
        .builder \
        .appName("goddy-test") \
        .getOrCreate()

schema = StructType([
    StructField("name", StringType()),
    StructField("age", IntegerType())
])

# 这里路径也可以是./in，但是如果要放到系统的pyspark执行，那要指定绝对路径
data = spark.read.schema(schema).json('/Users/goddy/Desktop/test-python/test-spark/jianshu/in')

data.printSchema()
data.show()

然后点击pycharm的运行键就可以了、！

当然，这个文件也可以在系统的pyspark运行。

$ cd /usr/local/Cellar/apache-spark/2.4.0/libexec
$ ./bin/spark-submit /Users/goddy/Desktop/test-python/test-spark/jianshu/app.py

或者，我们可以启动spark服务，提交任务给它。

首先，启动spark服务

# 打开我们使用的目录, 这样就会在此目录生成spark-warehouse
$ cd /usr/local/Cellar/apache-spark/2.4.0/libexec

# 启动master节点
$ ./sbin/start-master.sh

此时，用浏览器打开 http://localhost:8080/ ，我们就可以看到spark的管理界面了，从中取到spark master的地址。

# 同样的目录下，启动slave节点，即工作节点
$ ./sbin/start-slave.sh spark://adsl-99-12-209-139.dsl.hstntx.sbcglobal.net:7077

这时再看一眼管理界面，多了一个工作节点。

这时再提交任务到指定master

# 提交任务，注意这里
$ ./bin/spark-submit --master spark://adsl-99-12-209-139.dsl.hstntx.sbcglobal.net:7077 /Users/goddy/Desktop/test-python/test-spark/jianshu/app.py 

# 如果是分布式的，最终将类似这样，这里我们就用上面的啦。
$ ./bin/spark-submit --master yarn --deploy-mode cluster --driver-memory 520M --executor-memory 520M --executor-cores 1 --num-executors 1 /Users/goddy/Desktop/test-python/test-spark/jianshu/app.py

执行时可以观察下管理界面。

spark thrift server的使用

使用spark时，要么写spark sql，要么把数据变为Structured dataframe再通过各种如pandas包来处理就好了。当然只用spark sql处理就非常简单了，但是spark sql需要提交spark任务来看到一些结果，如果能类似mysql有cli(command line interface)就好了、！这时，我就发现了spark thrift server这个神器。
spark thrift server是分布式查询引擎，使spark sql拥有了JDBC和cli两种交互方式。详细见官网：https://spark.apache.org/docs/latest/sql-distributed-sql-engine.html#running-the-thrift-jdbcodbc-server

# 启动服务，执行过就不用执行啦。如果忘记有没有启动，可以看下8080端口，或者终端执行jps命令查看运行的java程序
$ cd /usr/local/Cellar/apache-spark/2.4.0/libexec
$ ./sbin/start-master.sh
$ ./sbin/start-slave.sh spark://adsl-99-12-209-139.dsl.hstntx.sbcglobal.net:7077

# 启动spark thrift server服务，注意添加资源限制，不然会占用所有资源
$ ./sbin/start-thriftserver.sh --master spark://adsl-99-12-209-139.dsl.hstntx.sbcglobal.net:7077 --hiveconf spark.cores.max=1 --hiveconf spark.executor.memory=520M

启动后可以看到它其实作为一个spark job存在的，

我们可以打开localhost:4040，发现spark job页面多了一个介个

下面来连接spark thrift server

# 根据官网来的，别问我为啥、！
$ ./bin/spark-beeline 
$ !connect jdbc:hive2://localhost:10000

# 用户名和密码直接回车就好

连接成功如下：

然后就是跟hive的table一样的操作方式了、！

实际处理场景中，我们会将hdfs或者s3的数据作为external table，然后使用java连接jdbc接口即jdbc:hive2://localhost:10000，然后使用sql来获取数据。同时也可以通过spark sql来对表做操作。注意，external table是要维护它的partition的。

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 157,298评论 4赞 360
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 66,701评论 1赞 290
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 107,078评论 0赞 237
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 43,687评论 0赞 202
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 52,018评论 3赞 286
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 40,410评论 1赞 211
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 31,729评论 2赞 310
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 30,412评论 0赞 194
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 34,124评论 1赞 239
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 30,379评论 2赞 242
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 31,903评论 1赞 257
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 28,268评论 2赞 251
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 32,894评论 3赞 233
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 26,014评论 0赞 8
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 26,770评论 0赞 192
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 35,435评论 2赞 269
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 35,312评论 2赞 260