mac使用pyspark & spark thrift server的使用

前段时间,做公司bot平台的日志处理,跟着大佬老王同志一起学spark。学了这么久,总算有些技巧分享给大家。网上的入门教程真的很多很多,所以我没写系统写过一门技术的教程,因为我想如果写仅仅会是知识的搬运工和和泥工吧。我只是想分享一些自己使用的小技巧、一些难搜索到的冷知识。熟读https://spark.apache.org/

mac安装spark

这里介绍了两种安装方法、三种使用方式,

python

对的,一般使用pyspark进行编程,其实只要用pip工具安装就可以了。

$ pip3 install pyspark

system

使用homebrew安装,

$ brew install apache-spark

目录在/usr/local/Cellar/apache-spark,建议大家不要使用子目录的bin文件夹,而是/usr/local/Cellar/apache-spark/2.4.0/libexec里面的,因为好多工具都在sbin目录里面,而且warehouse(存储metadata)会默认生成在你操作的目录里。所以每次操作建议先到这个目录,可以保证数据的一致性,别问我怎么知道的 = - = # 、哼:

$ cd /usr/local/Cellar/apache-spark/2.4.0/libexec

pyspark使用

首先,可以使用pycharm构建一个简单的项目,

准备好文件,
{"name": "goddy", "age": 23}
{"name": "wcm", "age": 31}

然后编写一个简单的spark程序,

from pyspark.sql import SparkSession
from pyspark.sql.types import *

spark = SparkSession \
        .builder \
        .appName("goddy-test") \
        .getOrCreate()

schema = StructType([
    StructField("name", StringType()),
    StructField("age", IntegerType())
])

# 这里路径也可以是./in,但是如果要放到系统的pyspark执行,那要指定绝对路径
data = spark.read.schema(schema).json('/Users/goddy/Desktop/test-python/test-spark/jianshu/in')

data.printSchema()
data.show()

然后点击pycharm的运行键就可以了、!

当然,这个文件也可以在系统的pyspark运行

$ cd /usr/local/Cellar/apache-spark/2.4.0/libexec
$ ./bin/spark-submit /Users/goddy/Desktop/test-python/test-spark/jianshu/app.py

或者,我们可以启动spark服务,提交任务给它

首先,启动spark服务

# 打开我们使用的目录, 这样就会在此目录生成spark-warehouse
$ cd /usr/local/Cellar/apache-spark/2.4.0/libexec

# 启动master节点
$ ./sbin/start-master.sh

此时,用浏览器打开 http://localhost:8080/ ,我们就可以看到spark的管理界面了,从中取到spark master的地址。

# 同样的目录下,启动slave节点,即工作节点
$ ./sbin/start-slave.sh spark://adsl-99-12-209-139.dsl.hstntx.sbcglobal.net:7077

这时再看一眼管理界面,多了一个工作节点。

这时再提交任务到指定master

# 提交任务,注意这里
$ ./bin/spark-submit --master spark://adsl-99-12-209-139.dsl.hstntx.sbcglobal.net:7077 /Users/goddy/Desktop/test-python/test-spark/jianshu/app.py 

# 如果是分布式的,最终将类似这样,这里我们就用上面的啦。
$ ./bin/spark-submit --master yarn --deploy-mode cluster --driver-memory 520M --executor-memory 520M --executor-cores 1 --num-executors 1 /Users/goddy/Desktop/test-python/test-spark/jianshu/app.py 

执行时可以观察下管理界面。

spark thrift server的使用

使用spark时,要么写spark sql,要么把数据变为Structured dataframe再通过各种如pandas包来处理就好了。当然只用spark sql处理就非常简单了,但是spark sql需要提交spark任务来看到一些结果,如果能类似mysql有cli(command line interface)就好了、! 这时,我就发现了spark thrift server这个神器。
spark thrift server是分布式查询引擎,使spark sql拥有了JDBC和cli两种交互方式。详细见官网:https://spark.apache.org/docs/latest/sql-distributed-sql-engine.html#running-the-thrift-jdbcodbc-server

# 启动服务,执行过就不用执行啦。如果忘记有没有启动,可以看下8080端口,或者终端执行jps命令查看运行的java程序
$ cd /usr/local/Cellar/apache-spark/2.4.0/libexec
$ ./sbin/start-master.sh
$ ./sbin/start-slave.sh spark://adsl-99-12-209-139.dsl.hstntx.sbcglobal.net:7077

# 启动spark thrift server服务,注意添加资源限制,不然会占用所有资源
$ ./sbin/start-thriftserver.sh --master spark://adsl-99-12-209-139.dsl.hstntx.sbcglobal.net:7077 --hiveconf spark.cores.max=1 --hiveconf spark.executor.memory=520M

启动后可以看到它其实作为一个spark job存在的,

我们可以打开localhost:4040,发现spark job页面多了一个介个

下面来连接spark thrift server

# 根据官网来的,别问我为啥、!
$ ./bin/spark-beeline 
$ !connect jdbc:hive2://localhost:10000

# 用户名和密码直接回车就好

连接成功如下:

然后就是跟hive的table一样的操作方式了、!

实际处理场景中,我们会将hdfs或者s3的数据作为external table,然后使用java连接jdbc接口即jdbc:hive2://localhost:10000,然后使用sql来获取数据。同时也可以通过spark sql来对表做操作。注意,external table是要维护它的partition的。

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 157,298评论 4 360
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 66,701评论 1 290
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 107,078评论 0 237
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 43,687评论 0 202
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 52,018评论 3 286
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 40,410评论 1 211
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 31,729评论 2 310
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 30,412评论 0 194
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 34,124评论 1 239
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 30,379评论 2 242
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 31,903评论 1 257
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 28,268评论 2 251
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 32,894评论 3 233
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 26,014评论 0 8
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 26,770评论 0 192
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 35,435评论 2 269
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 35,312评论 2 260

推荐阅读更多精彩内容