python数据分析(四)

1、基本统计

基本统计分析:描述性统计分析,用来概括事物整体状况以及事物间联系(即事物的基本特征),以发现其内在规律的统计分析方法。
常用的统计指标:计数、求和、平均值、方差、标准差
描述性统计分析函数:describe();常用统计函数size()计数,sum()求和,mean()平均值,var()方差,std()标准差
例如:描述性分析data.score.describe(),最大值data.score.max(),平均值data.score.mean(),方差data.score.var()
累积求和data.score.cumsum(),最小值所在位置data.score.argmin()

2、分组分析

分组分析是指根据分组字段,将分析对象划分成不同的部分,以进行对比分析各组之间的差异性的一种分析方法。
分组类型主要有两大类:定性分组,定量分组,定性分组按事物已有的属性划分,如性别,年龄。定量分组即数值分组。
常用的统计指标:计数,求和,平均值
分组统计函数:groupby(by=[分组列])[统计列].agg({统计列别名:统计函数}),by用于分组的列,中括号用于统计的列,agg统计别名显示统计值的名称,统计函数用于统计数据。
例如:aggResult = data.groupby( by = ['class'] ) ['score'].agg({ '总分' : numpy.sum, '人数'.numpy.size, '平均数'.numpy.mean})

3、分布分析

分不分析是指根据分析目的,将数据(定量数据)进行等距或者不等距的分组,进行研究各组分布规律的一种分析方法。
常用于用户消费分布,收入分布,年龄分布等。
先进行数值分组
bins = [min(data.年龄-1,20,30,40,max(data.年龄+1))]
data['年龄分层'] = pandas.cut(data.年龄,bins,labels = labels)
在进行分组aggResult = data.groupby(by = ['年龄分层'])['年龄'].agg({'人数':numpy.size})

百分比的表现形式:
pAggResult = round( aggResult/aggResult.sum(), 2 )*100 pAggResult['人数'].map('{:,.2f}%'.format)

4、交叉分析

通常用于分析两个或两个以上,分组变量之间的关系,以交叉表形式进行变量间关系的对比分析。
定量、定量分组交叉;定量、定性分组交叉;定性、定性分组交叉。
交叉计数函数:pivot_table(values,index,columns,aggfunc,fill_value),参数说明:
values:数据透视表中的值;Index:数据透视表中的行;columns:数据透视表中的列;aggfunc:统计函数;fill_value:NA值的统一替换。
例如:ptResult = data.pivot_table(values = ['年龄'],index = ['年龄分层'],columns = ['性别'],aggfunc=[numpy.size])

5、结构分析

是在分组以及交叉的基础上,计算各组成部分所占的比重,进而分析总体的内部特征的一种分析方法。
数据库的外运算:add,sub,multiply,div,分别是加减乘除;数据框的内运算函数:sum,mean,var,sd分别是求和,平均值,方差,标准差
在上述的交叉分析的基础上进行结构分析:ptResult.sum()ptResult.div(ptResult.sum.(axis = 1),axis = 0)

6、相关分析

是研究两个或两个以上速记变量之间相互依存关系的方向和密切程度的方法。分为线性相关和非线性相关。
线性相关关系主要采用皮尔孙相关系数r来度量连续变量之间线性相关强度。
相关分析函数:DataFrame.corr() ,Series.corr()
如果由数据框调用corr方法,那么将会计算每个列两两之间的相似度;如果由序列调用corr方法,那么只是计算该序列与传入的序列之间的相关度。
data[['超市购物率','网上购物率','文盲率','人口']]

7、RFM分析

是根据客户活跃程度和交易金额贡献,进行客户价值细分的一种方法。

RFM分析过程:

1、计算RFM各项分值

R_S,距离当前日期越近,得分越高,最高5分,最低1分
F_S,交易频率越高,得分越高,最高5分,最低1分
M_S,交易金额越高,得分越高,最高5分,最低1分

2、汇总RFM分值

RFM=100R_S+10F_S+1*M_S

3、根据RFM分值对客户分类

RFM分析前提

1、最近有过交易行为的客户,再次发生交易的可能性要高于最近没有交易行为的客户
2、交易频率较高的客户比交易频率较低的客户,更有可能再次发生交易行为
3、过去所有交易总金额较多的客户,比交易总金额较少的客户,更有消费积极性

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 160,165评论 4 364
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 67,720评论 1 298
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 109,849评论 0 244
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 44,245评论 0 213
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 52,596评论 3 288
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 40,747评论 1 222
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 31,977评论 2 315
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 30,708评论 0 204
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 34,448评论 1 246
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 30,657评论 2 249
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 32,141评论 1 261
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 28,493评论 3 258
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 33,153评论 3 238
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 26,108评论 0 8
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 26,890评论 0 198
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 35,799评论 2 277
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 35,685评论 2 272

推荐阅读更多精彩内容

  • 通过Excel读取数据 # 导入模快 import xlrd # 打开excel data=xlrd.open_w...
    小豆角lch阅读 370评论 0 0
  • 基本统计 基本统计分析,也叫描述性统计分析,用来概括事物整体状况以及事物间联系(即事物的基本特征),以发现其内在规...
    WesleyLien阅读 1,991评论 0 1
  • 50个常用的sql语句Student(S#,Sname,Sage,Ssex) 学生表Course(C#,Cname...
    哈哈海阅读 1,207评论 0 7
  • # -*- coding: utf-8 -*- from __future__ import division f...
    小豆角lch阅读 1,266评论 0 0
  • 我也得正儿八经去吃顿饭了 不着急的,一个人的,吃想吃的,不说话的
    触角_阅读 151评论 0 0