[数据分析: Excel] 就从几个聚合函数开始吧 (STDEV.S&P COUNT&A)

学过的知识要时常总结,把知识变成知识点,借简书之便,想来想去,就从最基础的Excel函数开始吧。

自己做了一个小case,有一个数列,包含10个随机整数,相关的描述统计如下:

描述统计

选中一个单元格,把公式敲进去,就可以得出相应的结果,在右侧列出了相关的公式,大多数可一目了然,不必多言。笔记的重点应该放在非常规现象上:


标准差    是 STDEV.S 还是 STDEV.P

输入方差公式时,会发现有STDEV.S和STDEV.P。

“STDEV”表示“标准差”,Stand Deviation

“S”表示“样本”,即 Sample

“P”表示“全体”,即 Population

选择S还是P,其实就是标准差公式中分母是"n-1"还是"n"的问题,为什么是“n-1”涉及到无偏估计和有偏估计,这里不展开,改天专写一篇,单独讨论。

简单说,S用于小型样本,P用于大型样本或者全体。

那么样本量到底是多少的时候用S,多少时候用P呢

设想了这个“极端”的例子,假设现在样本里面只有2个值:

n=2 avg=2

很轻易就能计算出2种标准差,但是误差很大……(这个时候倾向于使用无偏估计,即STDEV.S)

然后固定均值,把这个样本“放大”:

n=10 avg=2

现在有5个“1”和5个“3”,样本量为10,均值不变还是2。而标准差S已经接近标准差P了,于是发现一个规律: 样本量越大,标准差S就越接近标准差P。

根据这个规律,总结出了一张表:

以及线型图:

可以发现:样本量小于20个比较倾向于使用STDEV.S。

方差Var.S & Var.P 也同样分为样本和整体,方法一样。


计数    COUNT & COUNTA

这里也有一个例子,5个样本,2种方法计数:

可以发现:“COUNT”只统计数值型的样本,而COUNTA可以统计全部样本。


第一次写,感觉乱糟糟的,慢慢改进吧。愿与诸君一起成长!

推荐阅读更多精彩内容