CDH-Spark/2环境搭建(pyspark测试)

1,CDH的搭建可以参考

https://blog.csdn.net/q1370992706/article/details/79578444

2,在CDH安装spark

没有在CDH集成环境安装spark

1)新建spark虚拟主机 :安装spark环境,

    1.1参考://blog.csdn.net/red_stone1/article/details/71330101

    1.2 ping 各个CDH节点

2)拷贝cdh下hive-site.xml 到spark主机conf下

3)启动spark-sql查看是否链接成功。

HIVE默认一个default库,可先用HUE创建一个表

show databases;

use default;

show tables;

slelect * from xxTable;

3,ubuntu16.04 python2/3,pip安装

        https://blog.csdn.net/qq_31307013/article/details/79668453

4,安装py4j,pyspark

    换源:

    pip install -i https://pypi.tuna.tsinghua.edu.cn/simple/ pyspark

推荐阅读更多精彩内容