用R进行简单的数据统计

面对一堆数据,我们如何从中找出有用的线索,去做判断?

用四个指标,可以勾勒出这些数据代表的平均水平、整体分布情况、数据波动性大小以及数据集间相对比较。那么这几个指标分别是平均值、四分位数、标准差和标准分。

一、平均值。

最常见的统计方法就是平均值。当不同的数据集间,次数、频数不同,用平均值就能够进行比较。比如客户满意度调查,每个客服的有效样本数是不同的,那么总分高低会相差很多,用平均值就能去除这个样本数的影响。举个调查结果的满意度指标A1和A2的例子。

> A1<-c(5,7,7,6,5,5,3,7,7,6)

> A2<-c(6,7,7,6,2,5,5,7,5,6)

在R中,可以如下语句来统计两个指标的平均值:

> avgA1<-mean(A1)

> avgA2<-mean(A2)

> avgA1

[1] 5.8

> avgA2

[1] 5.6

A1的平均值要高于A2。

二、四分位数。

平均值虽然是最常用的指标,但是实际中总有一些异常高或异常低的数值将平均值拉得“变形”。而我们真正要知道的,并非是个统计数字而已,我们要了解的,是数值背后的“真相”。因此,为防止异常数值使真相扭曲,我们需要更多的指标,那就是四分位数。

四分位数其实有5个数值,从低到高分别是下界、下四分位数、中位数、上四分位数、上界。对于统计分析来说,我们要计算的是:全距、下四分位数、中位数、上四分位数、四分位距。这些四分位数值就像把整段数据切了三刀,按照数据大小排序后,把整段数据按位置分成了均等四份。这样特别少的但数值特别小或特别大的都被切到了头和尾,而中间的两段就能反映“最普遍”的情况。

R里的语句:

全距:

> wdA1<-max(A1)-min(A1)

> wdA2<-max(A2)-min(A2)

> wdA1

[1] 4

> wdA2

[1] 5

下四分位数:

> Q1A1<-quantile(A1,probs=0.25)

> Q1A2<-quantile(A2,probs=0.25)

> Q1A1

25% 

  5 

> Q1A2

25% 

  5 

中位数:

> Q2A1<-median(A1)

> Q2A2<-median(A2)

> Q2A1

[1] 6

> Q2A2

[1] 6

上四分位数:

> Q3A1<-quantile(A1,probs=0.75)

> Q3A2<-quantile(A2,probs=0.75)

> Q3A1

75% 

  7 

> Q3A2

 75% 

6.75 

四分位距:

> QDA1<-Q3A1-Q1A1

> QDA2<-Q3A2-Q1A2

> QDA1

75% 

  2 

> QDA2

 75% 

1.75

从上述结果,可见,虽然A1平均值高于A2,但中位数是相等的。A1和A2的下四分位数是相等的,而A1的全距要小于A2,但四分距大于A2。也就是说,客户满意度中指标A1的数据较指标A2,整体变化幅度较小,而剔除异常值后,A1的数据变化幅度又略高于指标A2。

> boxplot(A1,A2,main="Customer Satisfactor Index A1 vs A2")


三、标准差。

四分位数描述了数值的分散程度,我们还可以用另外一个指标--标准差直观地表示变异程度。

> sd(A1)

[1] 1.316561

> sd(A2)

[1] 1.505545

A1的标准差低于A2,也就是说指标A1的分数更为集中。

四、标准分。

每个客户的打分可以用标准分z = (x-μ)/σ来衡量。标准分的含义是每个数值相对于平均值的距离,单位是标准差。

> scale(A1)

            [,1]

 [1,] -0.6076436

 [2,]  0.9114654

 [3,]  0.9114654

 [4,]  0.1519109

 [5,] -0.6076436

 [6,] -0.6076436

 [7,] -2.1267527

 [8,]  0.9114654

 [9,]  0.9114654

[10,]  0.1519109

attr(,"scaled:center")

[1] 5.8

attr(,"scaled:scale")

[1] 1.316561

正的标准分代表打分高于平均值的情况,而负分为低于平均值的打分;除了第7个指标外,都是小于1倍的标准差,而第7个客户的打分显然对标准差的影响较大。

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 159,835评论 4 364
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 67,598评论 1 295
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 109,569评论 0 244
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 44,159评论 0 213
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 52,533评论 3 287
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 40,710评论 1 222
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 31,923评论 2 313
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 30,674评论 0 203
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 34,421评论 1 246
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 30,622评论 2 245
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 32,115评论 1 260
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 28,428评论 2 254
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 33,114评论 3 238
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 26,097评论 0 8
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 26,875评论 0 197
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 35,753评论 2 276
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 35,649评论 2 271

推荐阅读更多精彩内容

  • 按照用途分类出以下统计函数: AVEDEV 用途:返回一组数据与其平均值的绝对偏差的平均值,该函数可以评测数据(例...
    四方院祭司阅读 2,747评论 0 3
  • 数据分析中总离不开统计学中的相关概念和方法,因而统计思维也是数据分析思维之一。在数据分析中,统计思维就是用统计的相...
    keeya阅读 9,154评论 1 16
  • 《数据分析的统计基础》的读书笔记 作 者:经管之家、曹正凤 出版社:电子工业出版社 版 次:2015年2月第1...
    格式化_001阅读 9,153评论 1 58
  • 1、记得高晓松在《如丧》里讲了个段子,很多女青年争先恐后前赴后继地奔去会写歌会作诗的才子床上,可是她们往往忘了一个...
    顾书白阅读 586评论 0 0
  • 看完两部不可抗力的一些碎碎念 被高中同桌带入耽美坑,从此成为一个资深腐女。不过这是我不是我看过的第一部耽美电影,却...
    伊曦停在城南阅读 693评论 3 7