mac使用pyspark & spark thrift server的使用

前段时间,做公司bot平台的日志处理,跟着大佬老王同志一起学spark。学了这么久,总算有些技巧分享给大家。网上的入门教程真的很多很多,所以我没写系统写过一门技术的教程,因为我想如果写仅仅会是知识的搬运工和和泥工吧。我只是想分享一些自己使用的小技巧、一些难搜索到的冷知识。熟读https://spark.apache.org/

mac安装spark

这里介绍了两种安装方法、三种使用方式,

python

对的,一般使用pyspark进行编程,其实只要用pip工具安装就可以了。

$ pip3 install pyspark

system

使用homebrew安装,

$ brew install apache-spark

目录在/usr/local/Cellar/apache-spark,建议大家不要使用子目录的bin文件夹,而是/usr/local/Cellar/apache-spark/2.4.0/libexec里面的,因为好多工具都在sbin目录里面,而且warehouse(存储metadata)会默认生成在你操作的目录里。所以每次操作建议先到这个目录,可以保证数据的一致性,别问我怎么知道的 = - = # 、哼:

$ cd /usr/local/Cellar/apache-spark/2.4.0/libexec

pyspark使用

首先,可以使用pycharm构建一个简单的项目,

准备好文件,
{"name": "goddy", "age": 23}
{"name": "wcm", "age": 31}

然后编写一个简单的spark程序,

from pyspark.sql import SparkSession
from pyspark.sql.types import *

spark = SparkSession \
        .builder \
        .appName("goddy-test") \
        .getOrCreate()

schema = StructType([
    StructField("name", StringType()),
    StructField("age", IntegerType())
])

# 这里路径也可以是./in,但是如果要放到系统的pyspark执行,那要指定绝对路径
data = spark.read.schema(schema).json('/Users/goddy/Desktop/test-python/test-spark/jianshu/in')

data.printSchema()
data.show()

然后点击pycharm的运行键就可以了、!

当然,这个文件也可以在系统的pyspark运行

$ cd /usr/local/Cellar/apache-spark/2.4.0/libexec
$ ./bin/spark-submit /Users/goddy/Desktop/test-python/test-spark/jianshu/app.py

或者,我们可以启动spark服务,提交任务给它

首先,启动spark服务

# 打开我们使用的目录, 这样就会在此目录生成spark-warehouse
$ cd /usr/local/Cellar/apache-spark/2.4.0/libexec

# 启动master节点
$ ./sbin/start-master.sh

此时,用浏览器打开 http://localhost:8080/ ,我们就可以看到spark的管理界面了,从中取到spark master的地址。

# 同样的目录下,启动slave节点,即工作节点
$ ./sbin/start-slave.sh spark://adsl-99-12-209-139.dsl.hstntx.sbcglobal.net:7077

这时再看一眼管理界面,多了一个工作节点。

这时再提交任务到指定master

# 提交任务,注意这里
$ ./bin/spark-submit --master spark://adsl-99-12-209-139.dsl.hstntx.sbcglobal.net:7077 /Users/goddy/Desktop/test-python/test-spark/jianshu/app.py 

# 如果是分布式的,最终将类似这样,这里我们就用上面的啦。
$ ./bin/spark-submit --master yarn --deploy-mode cluster --driver-memory 520M --executor-memory 520M --executor-cores 1 --num-executors 1 /Users/goddy/Desktop/test-python/test-spark/jianshu/app.py 

执行时可以观察下管理界面。

spark thrift server的使用

使用spark时,要么写spark sql,要么把数据变为Structured dataframe再通过各种如pandas包来处理就好了。当然只用spark sql处理就非常简单了,但是spark sql需要提交spark任务来看到一些结果,如果能类似mysql有cli(command line interface)就好了、! 这时,我就发现了spark thrift server这个神器。
spark thrift server是分布式查询引擎,使spark sql拥有了JDBC和cli两种交互方式。详细见官网:https://spark.apache.org/docs/latest/sql-distributed-sql-engine.html#running-the-thrift-jdbcodbc-server

# 启动服务,执行过就不用执行啦。如果忘记有没有启动,可以看下8080端口,或者终端执行jps命令查看运行的java程序
$ cd /usr/local/Cellar/apache-spark/2.4.0/libexec
$ ./sbin/start-master.sh
$ ./sbin/start-slave.sh spark://adsl-99-12-209-139.dsl.hstntx.sbcglobal.net:7077

# 启动spark thrift server服务,注意添加资源限制,不然会占用所有资源
$ ./sbin/start-thriftserver.sh --master spark://adsl-99-12-209-139.dsl.hstntx.sbcglobal.net:7077 --hiveconf spark.cores.max=1 --hiveconf spark.executor.memory=520M

启动后可以看到它其实作为一个spark job存在的,

我们可以打开localhost:4040,发现spark job页面多了一个介个

下面来连接spark thrift server

# 根据官网来的,别问我为啥、!
$ ./bin/spark-beeline 
$ !connect jdbc:hive2://localhost:10000

# 用户名和密码直接回车就好

连接成功如下:

然后就是跟hive的table一样的操作方式了、!

实际处理场景中,我们会将hdfs或者s3的数据作为external table,然后使用java连接jdbc接口即jdbc:hive2://localhost:10000,然后使用sql来获取数据。同时也可以通过spark sql来对表做操作。注意,external table是要维护它的partition的。

推荐阅读更多精彩内容