Pandas从入门到精通（4）- Groupby分组

1. 分组的基本概况

分组，即对原始数据的行按照一定的条件重新组合，将具有相同属性的行聚合到一起在计算其他数值。在Pandas里面提供了一个groupby函数，非常灵活而且高效。分组操作可以来干嘛？参考下面三个应用：

依据性别分组，统计全国人口寿命的平均值
依据季节分组，对每一个季节的温度进行组内标准化
依据班级分组，筛选出组内数学分数的平均值超过80分的班级
以上三个问题，都可以用分组来解决。通过观察，可以发现上面的三个问题都涉及到3个方面的内容：

分组依据（性别/季节/班级）
需要聚合/计算等操作的字段，或者是数据来源（人口寿命/温度/数学分数）
需要返回的结果
这3项是完成一个分组操作的3个必须要素。
下面做一个简单演示：

im
port pandas as pd
import numpy as np

df = pd.read_csv('learn_pandas.csv')
df.head()

image.png

这是一份包含学生学校性别等信息的表格，下面需要依据学校和性别分组，统计身高均值，代码如下：

df.groupby(['School', 'Gender'])['Height'].mean()
>>>
School                         Gender
Fudan University               Female    158.776923
                               Male      174.212500
Peking University              Female    158.666667
                               Male      172.030000
Shanghai Jiao Tong University  Female    159.122500
                               Male      176.760000
Tsinghua University            Female    159.753333
                               Male      171.638889
Name: Height, dtype: float64

通过上面这个例子，给出groupby方法的标准语法：
$df.groupby(m)[n].k$
其中：
m: 分组依据，但需要按照多个条件分组时，需要把条件放到一个列表中
n: 数据来源，即需要计算的字段，同样的，需要多个字段也是放入一个列表
k: 聚合函数，常用的有min/max/mean/count等，也可以传入自定义参数

上面的例子中，分组的依据（School，Gender)为原始表格中已有的字段，那么能不能不使用原有的字段，而是按照一定的条件来分组呢？答案是可以的。例如我们需要按照体重是否大于均值分成两组，分别统计两组的身高均值：

df.groupby(df['Weight'] > df['Weight'].mean())['Height'].mean()
>>>
Weight
False    159.034646
True     172.705357
Name: Height, dtype: float64

上面的代码中df['Weight'] > df['Weight'].mean()即是分组依据，通过结果的索引（False/True）可以看出，其实最后产生的结果就是按照条件列表中元素的值（此处是 True 和 False ）来分组。下面用随机传入字母序列来验证这一想法：

item = np.random.choice(list('abc'), df.shape[0])
df.groupby(item)['Height'].mean()
>>>
a    162.567347
b    164.367606
c    162.428571
Name: Height, dtype: float64

上面的代码先创建了一个和原DataFrame等长的序列，并将这个序列作为分组依据。

从上面的例子中我们可以总结出分组依据的本质：
分组的依据来自于数据来源组合的unique值。例如在上面的学生信息表格中按照学校School和性别Gender来分组，如果学校的个数为m, 性别个数为2，并且在原始数据，每个学校都存在2中性别的行，则最终分组的个数为2m

2. Groupby对象

最终具体做分组操作时，所调用的方法都来自于 pandas 中的 groupby 对象，这个对象上定义了许多方法，也具有一些方便的属性。

# groupby返回一个groupby对象
df1 = df.groupby(['School', 'Grade'])
type(df1)
>>>
pandas.core.groupby.generic.DataFrameGroupBy

可以看到，groupby后返回一个groupby对象，且是一个生成器。既然是生成器我们就可以用for循环遍历里面的元素：

for i in df1:
  print(i)

结果太长，下面是部分截图。通过截图可以看到每个元素是一个tuple, tuple的第一个元素是分组的依据，第二个是具体的值，是一个DataFrame

image.png

for i in df1:
    print(type(i), i[0])
>>>
<class 'tuple'> ('Fudan University', 'Freshman')
<class 'tuple'> ('Fudan University', 'Junior')
<class 'tuple'> ('Fudan University', 'Senior')
<class 'tuple'> ('Fudan University', 'Sophomore')
<class 'tuple'> ('Peking University', 'Freshman')
<class 'tuple'> ('Peking University', 'Junior')
<class 'tuple'> ('Peking University', 'Senior')
<class 'tuple'> ('Peking University', 'Sophomore')
<class 'tuple'> ('Shanghai Jiao Tong University', 'Freshman')
<class 'tuple'> ('Shanghai Jiao Tong University', 'Junior')
<class 'tuple'> ('Shanghai Jiao Tong University', 'Senior')
<class 'tuple'> ('Shanghai Jiao Tong University', 'Sophomore')
<class 'tuple'> ('Tsinghua University', 'Freshman')
<class 'tuple'> ('Tsinghua University', 'Junior')
<class 'tuple'> ('Tsinghua University', 'Senior')
<class 'tuple'> ('Tsinghua University', 'Sophomore')

其他常用属性：

print(df1.ngroups)  # ngroups：分组个数
print("-" * 10)
print(df1.groups[('Fudan University', 'Freshman')]) # 返回改组的索引
print("-" * 10)
print(df1.size())  # 每个组别的个数

>>>
16
----------
Int64Index([15, 28, 63, 70, 73, 105, 108, 157, 186], dtype='int64')
----------
School                         Grade    
Fudan University               Freshman      9
                               Junior       12
                               Senior       11
                               Sophomore     8
Peking University              Freshman     13
                               Junior        8
                               Senior        8
                               Sophomore     5
Shanghai Jiao Tong University  Freshman     13
                               Junior       17
                               Senior       22
                               Sophomore     5
Tsinghua University            Freshman     17
                               Junior       22
                               Senior       14
                               Sophomore    16
dtype: int64

3. 分组后3大基本操作

熟悉了一些分组的基本知识后，重新回到开头举的三个例子，可能会发现一些端倪，即这三种类型分组返回的数据型态并不一样：
第一个例子中，每一个组返回一个标量值，可以是平均值、中位数、组容量 size 等
第二个例子中，做了原序列的标准化处理，也就是说每组返回的是一个 Series 类型
第三个例子中，既不是标量也不是序列，而是通过筛选返回的整个组所在行的本身，即返回了 DataFrame 类型
由此，引申出分组的三大操作：

聚合- agg、
变换 - transform
过滤 - filter

下面分别介绍

3.1 聚合 aggregation (agg)

内置聚合函数
在介绍agg之前，首先要了解一些直接定义在groupby对象的聚合函数，因为它的速度基本都会经过内部的优化，使用功能时应当优先考虑。
包括如下函数：

max/min/mean/median/count/
all/any/idxmax/idxmin/
mad/nunique/skew/quantile/
sum/std/var/sem/size/prod
其中有些不常用的函数如下：
any(): 如果组内有truthful的值就返回True。
all(): 组内所有元素都是truthful，返回True。
mad()：返回组内元素的绝对中位差。先计算出数据与它们的中位数之间的残差，MAD就是这些偏差的绝对值的中位数。MAD比方差鲁棒性更好。
skew()：组内数据的偏度。
sem()：组内数据的均值标准误差。
prod() ：组内所有元素的乘积。

df.groupby('Gender')['Height'].idxmin()
>>>
Gender
Female    143
Male      199
Name: Height, dtype: int64

df.groupby('Gender')[['Height', 'Weight']].max()
>>>
Height  Weight
Gender      
Female  170.2   63.0
Male    193.9   89.0

2. agg方法

虽然在 groupby 对象上定义了许多方便的函数，但仍然有以下不便之处：

无法同时使用多个函数
无法对特定的列使用特定的聚合函数
无法使用自定义的聚合函数
无法直接对结果的列名在聚合前进行自定义命名

下面说明如何通过 agg 函数解决这四类问题：

【a】使用多个函数
当使用多个聚合函数时，需要用列表的形式把内置聚合函数对应的字符串传入，先前提到的所有字符串都是合法的。

df.groupby('School')['Height', 'Weight'].agg(['max', 'min', 'count', 'idxmax', 'idxmin'])

结果如下：

image.png

从结果看，此时的列索引为多级索引，第一层为数据源，第二层为使用的聚合方法，分别逐一对列使用聚合，因此结果为10列。
【b】对特定的列使用特定的聚合函数
对于方法和列的特殊对应，可以通过构造字典传入 agg 中实现，其中字典以列名为键，以聚合字符串或字符串列表为值。

df.groupby('Gender')['Height', 'Weight'].agg({'Height': ['max', 'idxmax'], 'Weight': ['mean', 'count']})

image.png

【c】使用自定义函数

在 agg 中可以使用具体的自定义函数，需要注意传入函数的参数是之前数据源中的列，逐列进行计算。下面分组计算身高和体重的极差：

df.groupby('School')['Weight', 'Height'].agg([lambda x: x.max() - x.min()])

image.png

【d】聚合结果重命名

如果想要对聚合结果的列名进行重命名，只需要将上述函数的位置改写成元组，元组的第一个元素为新的名字，第二个位置为原来的函数，包括聚合字符串和自定义函数，现举例子说明：

df.groupby('School')['Weight', 'Height'].agg([('range', lambda x: x.max() - x.min())])

image.png

3.2 变换函数与transfrom方法

变换函数的返回值为同长度的序列，最常用的内置变换函数是累计函数： cumcount/cumsum/cumprod/cummax/cummin ，它们的使用方式和聚合函数类似，只不过完成的是组内累计操作。
各个函数的意义如下：
cumsum(): 依次给出前1、2、… 、n个数的和
cumprod(): : 依次给出前1、2、… 、n个数的积
cummax()：依次给出前1、2、… 、n个数的最大值
cummin()：依次给出前1、2、… 、n个数的最小值

df.groupby('Gender')['Height', 'Weight'].cumsum().head(7)
>>>
    Height  Weight
0   158.9   46.0
1   166.5   70.0
2   355.4   159.0
3   NaN 87.0
4   529.4   233.0
5   316.9   138.0
6   479.4   190.0

当用自定义变换时需要使用 transform 方法，被调用的自定义函数，其传入值为数据源的序列，与 agg 的传入类型是一致的，其最后的返回结果是行列索引与数据源一致的 DataFrame 。
例如现对身高和体重进行分组标准化，即减去组均值后除以组的标准差：

df.groupby('Gender')['Height', 'Weight'].transform(lambda x: (x-x.mean())/x.std()).head(7)
>>>
Height  Weight
0   -0.058760   -0.354888
1   -1.010925   -0.355000
2   2.167063    2.089498
3   NaN -1.279789
4   0.053133    0.159631
5   -0.236837   0.570013
6   0.653550    0.754993

3.3 过滤

首先明确一下索引和过滤的区别

过滤在分组中是对于组的过滤，而索引是对于行的过滤，在第二章中的返回值，无论是布尔列表还是元素列表或者位置列表，本质上都是对于行的筛选，即如果符合筛选条件的则选入结果表，否则不选入。

组过滤作为行过滤的推广，指的是如果对一个组的全体所在行进行统计的结果返回 True 则会被保留， False 则该组会被过滤，最后把所有未被过滤的组其对应的所在行拼接起来作为 DataFrame 返回。

在 groupby 对象中，定义了 filter 方法进行组的筛选，其中自定义函数的输入参数为数据源构成的 DataFrame 本身，在之前例子中定义的 groupby 对象中，传入的就是 df[['Height', 'Weight']] ，因此所有表方法和属性都可以在自定义函数中相应地使用，同时只需保证自定义函数的返回为布尔值即可。

4. 练习：

现有一份汽车数据集，其中 Brand, Disp., HP 分别代表汽车品牌、发动机排量、发动机功率：

car = pd.read_csv('car.csv')
print(car.shape)
car.head()
>>>
(60, 9)
Brand   Price   Country Reliability Mileage Type    Weight  Disp.   HP
0   Eagle Summit 4  8895    USA 4.0 33  Small   2560    97  113
1   Ford Escort 4   7402    USA 2.0 33  Small   2345    114 90
2   Ford Festiva 4  6319    Korea   4.0 37  Small   1845    81  63
3   Honda Civic 4   6635    Japan/USA   5.0 32  Small   2260    91  92
4   Mazda Protege 4 6599    Japan   5.0 32  Small   2440    113 103

问题1：先过滤出所属 Country 数超过2个的汽车，即若该汽车的 Country 在总体数据集中出现次数不超过2则剔除，再按 Country 分组计算价格均值、价格变异系数、该 Country 的汽车数量，其中变异系数的计算方法是标准差除以均值，并在结果中把变异系数重命名为 CoV
1.1 先按照country分组，筛选出数量大于2的汽车品牌

df1 = car.groupby('Country').filter(lambda x: x.shape[0] > 2)
df1.head()

image.png

验证一下是否Country统计数据都大于2：

df1['Country'].value_counts()
>>>
USA          26
Japan        19
Japan/USA     7
Korea         3
Name: Country, dtype: int64

1.2 再按 Country 分组计算价格均值、价格变异系数、该 Country 的汽车数量，
其中汽车的数量可以统计任意字段的count即可，因而，可以值聚合Price列，
并分别计算均值，变异系数，数量

res = df1.groupby('Country')['Price'].agg(['mean', ('Cov', lambda x: x.std()/x.mean()), 'count'])
res

image.png

问题2：按照表中位置的前三分之一、中间三分之一和后三分之一分组，统计 Price 的均值。
分析：构建一个新的序列用于分组，取值为前20-Front，中间20-middle，后20-back.

# 先创建一个与原DataFrame等长的序列，前20为front, 中间为middle,最后为back
car['position'] = ['front'] * 20 + ['middle'] * 20 + ['back']*20
car.groupby('position')['Price'].mean()
>>>
position
back      15420.65
front      9069.95
middle    13356.40
Name: Price, dtype: float64

问题3：对类型 Type 分组，对 Price 和 HP 分别计算最大值和最小值，结果会产生多级索引，请用下划线把多级列索引合并为单层索引。

type_group = car.groupby('Type')['Price', 'HP'].agg(['max', 'min'])
type_group

image.png

# 使用多级索引映射
type_group.columns = type_group.columns.map(lambda x: '_'.join(x))
type_group

image.png

问题4. 对类型 Type 分组，对 HP 进行组内的 min-max 归一化。

df2 = car.groupby('Type')['HP'].transform(lambda x:(x-x.min())/(x.max()-x.min()))
df2.head(5)
>>>
0    1.00
1    0.54
2    0.00
3    0.58
4    0.80
Name: HP, dtype: float64

问题5：对类型 Type 分组，计算 Disp. 与 HP 的相关系数。

car.groupby('Type')[['Disp.','HP']].apply(lambda x:np.corrcoef(x['Disp.'].values,x.HP.values)[0,1])
>>>
Type
Compact    0.586087
Large     -0.242765
Medium     0.370491
Small      0.603916
Sporty     0.871426
Van        0.819881
dtype: float64

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 158,560评论 4赞 361
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 67,104评论 1赞 291
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 108,297评论 0赞 243
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 43,869评论 0赞 204
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 52,275评论 3赞 287
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 40,563评论 1赞 216
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 31,833评论 2赞 312
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 30,543评论 0赞 197
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 34,245评论 1赞 241
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 30,512评论 2赞 244
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 32,011评论 1赞 258
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 28,359评论 2赞 253
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 33,006评论 3赞 235
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 26,062评论 0赞 8
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 26,825评论 0赞 194
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 35,590评论 2赞 273
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 35,501评论 2赞 268

Pandas从入门到精通（4）- Groupby分组

1. 分组的基本概况

2. Groupby对象

3. 分组后3大基本操作

3.1 聚合 aggregation (agg)

3.2 变换函数与transfrom方法

3.3 过滤

4. 练习：

推荐阅读更多精彩内容