机器学习基础--统计学入门--基本概念

1 安慰剂:

安慰剂效应(英语:placebo effect),又名伪药效应、假药效应、代设剂效应;
指病人虽然获得无效的治疗,但却“预料”或“相信”治疗有效,而让病患症状得到舒缓的现象。


单盲(Single Blinding):
    是一种简单实验方法,通过对试验对象保密,避免有意或无意在实验中造成偏颇。

双盲:
    双盲是科学方法的一种,目的是避免研究结果受安慰剂效应或观察者偏向所影响。
    双盲试验通常在试验对象为人类时使用,目的是避免试验的对象或进行试验的人员的主观偏向影响实验的结果,通常双盲试验得出的结果会更为严谨。

2 集中趋势查看:众数、均值、中位数

 众数(mode):
    指一组数据中出现次数最多的数据值。    
    例如{2,3,3,3}中,出现最多的是3,因此众数是3,众数可能是一个数,但也可能是多个数。

 均值:
    所有数求和/总个数

 中位数:
    即中间的数
    中位数(又称中值,英语:Median),统计学中的专有名词,代表一个样本、种群或概率分布中的一个数值,其可将数值集合划分为相等的上下两部分。
     一个数集中最多有一半的数值小于中位数,也最多有一半的数值大于中位数。

3 差异性:标准(偏)差

数学符号σ(sigma)
简单来说,标准差是一组数值自平均值分散开来的程度的一种测量观念。
一个较大的标准差,代表大部分的数值和其平均值之间差异较大;一个较小的标准差,代表这些数值较接近平均值。

 计算步骤:
1 先求出均值
2 计算所有数值和均值的差,
3 差乘以差,求平方
4 所有平方相加求总和
5 总和除以总数N
6 再开平方根即可
image.png
深蓝区域是距平均值小于一个标准差之内的数值范围,在正态分布中,此范围所占比率为全部数值之68%;
两个标准差之内(深蓝,蓝)的比率合起来为95%;
三个标准差之内(深蓝,蓝,浅蓝)的比率合起来为99.7%。
屏幕快照 2019-03-09 20.10.46.png
屏幕快照 2019-03-09 20.10.54.png

4 归一化

9 假设检验

假设检验是推论统计中用于检验统计假设的一种方法。而“统计假设”是可通过观察一组随机变量的模型进行检验的科学假说。
一旦能估计未知参数,就会希望根据结果对未知的真正参数值做出适当的推论。
屏幕快照 2019-03-10 07.01.07.png

推荐阅读更多精彩内容