13、pandas的分段函数cut()

在进行数据的汇总和分析时我们经常需要对连续性的数据变量进行分段汇总。

例如,我们现在要将total_price进行分段汇总:

数据源

一种方式是使用自定义函数的方法:

分段函数
分段之后的数据

使用自定义函数虽然可以,但是相对来说比较麻烦,我们可以直接使用pandas给我定好好的函数(cut):

使用cut函数

由上图可知,使用cut函数比使用自定义函数简单得多。

细心的人会发现,在分段的时候有6个值,但是分段的标签只有5个,这是因为pandas默认的分段数值必须要多一位,否则会报错(分段数值也可以是负数)。

在不指定labels标签类型的时候,系统会返回每一段的原始名称。

包含右边界的值

在默认情况下,每段值是不包含左边的界值,包含右边的界值(如上图)。

如果我们要选择左边界,那么只需要加一个参数:right = False就可以。

当然了,分段还有一个更加简便的方法,就是直接不指定分段的标准,而只指定分段的段数,那么系统就会自己判断每个分段的区间。

系统自行分段

不过系统自行分段在多数情况下是没有什么意义的。

推荐阅读更多精彩内容