pyspark--RDD基本操作

spark中的RDD是一个核心概念，RDD是一种弹性分布式数据集，spark计算操作都是基于RDD进行的，本文介绍RDD的基本操作。

Spark 初始化

Spark初始化主要是要创建一个SprakContext实例，该实例表示与spark集群的连接。可以通过多种方式创建。

SparkContext

直接使用SparkContext类创建一个spark上下文，主要参数是指定master和appName。

from pyspark import SparkContext
sc = SprakContext(master = 'local[*]',appName='test')

SprakContext的属性

# spark版本
sc.version
'2.4.5'

# python版本
sc.pythonVer
'3.7'

# master地址
sc.master
'local[*]'

# 应用名字
sc.appName
'test'

# 应用id
sc.applicationId
'local-1596522649115'

SparkConf

还可以通过调用SparkConf配置类来生成spark上下文。

from pyspark import SparkConf, SprakContext
conf = SparkConf().setMaster('local').setAppName('test')
sc = SparkContext(conf=conf)

创建RDD

RDD是spark中的主要数据格式，名称为弹性分布式数据集，可以序列化python对象来得到RDD，或者读取文件。

序列化

# parallelize方法序列化python对象为RDD
rdd = sc.parallelize([('a', 7), ('a', 2), ('b', 2)])
rdd1 = sc.parallelize([2,5,1,8])
rdd2 = sc.parallelize([('a', 2), ('d', 1), ('b', 1)])
rdd3 = sc.parallelize(range(100))
rdd4 = sc.parallelize([('a', ['x', 'y', 'z']), ('b', ['p', 'r'])])

读取文件

# 读取本地json文件，返回RDD
text_file = sc.textFile("e:/a.json")

获取RDD信息

基本信息

# 获取rdd的分区数
rdd.getNumPartitions()
12

# 获取rdd的key
rdd.keys().collect()
['a', 'a', 'b']

# 获取rdd的value
rdd.values().collect()
[7, 2, 2]

# 判断rdd是否为空
rdd.isEmpty()
False

sc.parallelize([]).isEmpty()
True

统计信息

统计信息包含了基本的统计计算值，如最大值、最小值、平均数、描述统计等。

# 求和
rdd3.sum()
4950

# 最大值
rdd3.max()
99

# 最小值
rdd3.min()
0

# 均值
rdd3.mean()
49.5

# 标准差
rdd3.stdev()
28.86607004772212

# 方差
rdd3.variance()
833.25

# 分区间计数
rdd3.histogram(3)
([0, 33, 66, 99], [33, 33, 34])

# 描述统计
rdd3.stats()
(count: 100, mean: 49.5, stdev: 28.86607004772212, max: 99.0, min: 0.0)

处理RDD

切片/collect

# 获取rdd里的所有元素，返回list
rdd.collect()
[('a', 7), ('a', 2), ('b', 2)]

# 获取rdd里的元素，返回字典
rdd.collectAsMap()
{'a': 2, 'd': 1, 'b': 1}

# 获取开始的2个元素
rdd.take(2)
[('a', 7), ('a', 2)]

# 获取第一个位置的元素
rdd.first()
('a', 7)

# 获取降序排序的前3个元素
rdd3.top(3)
[99, 98, 97]

计数/count

# 统计rdd里的元素个数
rdd.count()
3

# 按key统计rdd里的元素个数
rdd.countByKey()
defaultdict(<class 'int'>, {'a': 2, 'b': 1})

# 按value统计rdd里的元素个数
rdd.countByValue()
defaultdict(<class 'int'>, {('a', 7): 1, ('a', 2): 1, ('b', 2): 1})

重采样/sample

# 对rdd进行重采样
rdd3.sample(False,0.1,81).collect()
[4, 27, 28, 41, 49, 53, 58, 85, 93]

过滤/filter

# 根据key过滤
rdd.filter(lambda x:'a' in x).collect()
[('a', 7), ('a', 2)]

去重/distinct

# 对rdd元素去重
rdd5.distinct().collect()
['a', 7, 2, 'b']

排序/sortBy

# 升序排序（默认）
rdd1.sortBy(lambda x:x).collect()
[1, 2, 5, 8]

# 降序排序
rdd1.sortBy(lambda x:x,ascending=False).collect()
[8, 5, 2, 1]

# 对键值对rdd按照key排序
rdd2.sortByKey().collect()
[('a', 2), ('b', 1), ('d', 1)]

映射/map

# map方法对每个元素应用函数
rdd.map(lambda x: x+(x[0],x[1])).collect()
[('a', 7, 'a', 7), ('a', 2, 'a', 2), ('b', 2, 'b', 2)]

# flatMap方法，返回的结果会扁平化
rdd5 = rdd.flatMap(lambda x: x+(x[0],x[1]))
rdd5.collect()
['a', 7, 'a', 7, 'a', 2, 'a', 2, 'b', 2, 'b', 2]

# flatMapValues方法
rdd4.flatMapValues(lambda x:x).collect()
[('a', 'x'), ('a', 'y'), ('a', 'z'), ('b', 'p'), ('b', 'r')]

迭代/foreach

def g(x):print(x)
# foreach方法对所有元素应用函数
rdd.foreach(x)
('a', 7)
('a', 2)
('b', 2)

简化/reduce

# reduce方法对rdd进行合并
rdd.reduce(lambda x,y:x+y)
('a', 7, 'a', 2, 'b', 2)

# reduceByKey方法根据key对value进行合并
rdd.reduceByKey(lambda v1,v2:v1+v2).collect()
[('a', 9), ('b', 2)]

分组/groupBy

# groupBy方法对rdd的元素分组
rdd1.groupBy(lambda x:x%2).mapValues(list).collect()
[(0, [2, 8]), (1, [5, 1])]

# groupByKey方法对rdd的元素根据key分组
rdd.groupByKey().mapValues(list).collect()
[('a', [7, 2]), ('b', [2])]

聚合/aggregate

# 定义两个聚合函数
seq_op=lambda x,y:(x[0]+y,x[1]+1)
comb_op=lambda x,y:(x[0]+y[0],x[1]+y[1])

# aggregate方法聚合rdd
rdd1.aggregate((0,0),seq_op,comb_op)
(16, 4)

# aggregateByKey方法根据key聚合rdd
rdd.aggregateByKey((0,0),seq_op,comb_op).collect()
[('a', (9, 2)), ('b', (2, 1))]

# fold方法聚合rdd
rdd1.fold(0,lambda x,y:x+y)
16

# foldByKey方法根据key聚合rdd
rdd.foldByKey(0,lambda x,y:x+y).collect()
[('a', 9), ('b', 2)]

合并/union

# 调用sc的union方法按顺序合并多个rdd
sc.union([rdd,rdd2]).collect()
[('a', 7), ('a', 2), ('b', 2), ('a', 2), ('d', 1), ('b', 1)]

集合/intersection,union,subtract

# 两个rdd的交集
rdd.intersection(rdd2).collect()
[('a', 2)]

# 两个rdd的并集(包含重复元素)
rdd.union(rdd2).collect()
[('a', 7), ('a', 2), ('b', 2), ('a', 2), ('d', 1), ('b', 1)]

# rdd对rdd2的补集
rdd.subtract(rdd2).collect()
[('a', 7), ('b', 2)]

# 根据key求rdd2对rdd的补集)
rdd2.subtractByKey(rdd).collect()
[('d', 1)]

# 两个rdd计算笛卡尔积
rdd1.cartesian(rdd1).collect()
[(2, 2), (2, 5), (2, 1), (2, 8), (5, 2), (5, 5), (5, 1), (5, 8), (1, 2), (1, 5), (1, 1), (1, 8), (8, 2), (8, 5), (8, 1), (8, 8)]

保存RDD

# 保存rdd到本地
rdd.saveAsTextFile('rdd.txt')

关闭spark

# 使用stop方法关闭spark context实例
sc.stop()

运行

进入spark安装目录下，通过sprak-submit命令运行py文件。

./bin/spark-submit example/src/main/python/pi.py

另外，本地开发，可直接通过pyCharm运行。

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 159,835评论 4赞 364
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 67,598评论 1赞 295
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 109,569评论 0赞 244
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 44,159评论 0赞 213
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 52,533评论 3赞 287
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 40,710评论 1赞 222
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 31,923评论 2赞 313
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 30,674评论 0赞 203
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 34,421评论 1赞 246
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 30,622评论 2赞 245
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 32,115评论 1赞 260
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 28,428评论 2赞 254
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 33,114评论 3赞 238
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 26,097评论 0赞 8
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 26,875评论 0赞 197
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 35,753评论 2赞 276
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 35,649评论 2赞 271