【学习】统计基础

一、抽样估计理论

https://wenku.baidu.com/view/4e2bfbea710abb68a98271fe910ef12d2af9a911.html

image.png

估计准确与否的标准：
（1）无偏性：

image.png

（2）有效性

image.png

（3）相合性

image.png

二、点估计

2.1 矩估计

矩估计：利用样本的k阶矩作为总体的k阶矩的估计量，再建立含待估计参数的方程，最后求解。
总体的k阶矩就是E（X）、E（X平方）、E（X三方）等等，利用样本的k阶矩就是求样本的均值、样本平方的均值、样本三方的均值等等（所以可以知道，在样本很多的时候，两者误差会很小）；
待估计参数一般可以用k阶矩的组合形式求解出来，比如正态分布的μ是等于E（X）的，所以可以据此建立方程用E（X）求解μ：

image.png

PS，方差的无偏估计是n自由度，标准差的无偏估计是n-1维度。

2.2 极大似然估计

极大似然估计方法：根据实际发生的结果来估计参数的最大可能值。
根据实际结果及其对应的概率分布（离散型和连续型）构造似然函数（其实就是发生这个结果的实际概率），相乘代表概率互相独立→对L求导并令其为零，求得极大似然值。

image.png

极大似然和矩估计的关系在于：

在样本无限时，两者是趋于相等的；
在样本小的时候，极大似然的精度更高，因为矩估计会有信息损失（矩估计求期望其实是个平均的过程，忽略了个体的差异，但是似然估计是求得结果的整体概率分布，没有信息损失）。

三、区间估计

区间估计首先只适用于连续概率函数的情况，其次区间估计必定有对应置信度的概念。

image.png

求解的问题是：

一批食品的重量符合正态分布，那么求取在95%置信度的情况下，μ值（重量均值的期望）在什么区间范围？

首先转化下思路，假设这是标准正态分布（非标准转化成标准），那么抽取一批样本，平均重量在0±x1的概率为a，在0±x2的概率为b，x1和x2均为正，如果x1<x2，那么a<b对吧，a和b就是置信度概念，极端情况就是说平均重量在0±∞的概率为100%，这个时候置信度就是100%。

再继续转化思路，针对上面的实际问题，如果已知μ，而抽样的样本均值为μ+x3，我们是可以求得最后样本均值落在μ±x3的概率的，如果x3比较小，那么概率就比较小（因为允许他落入的趋于很小），这个时候小概率事件都发生了，我们就认为根据样本均值看来，他是符合这个正态分布的。如果x3很大，达到允许落在μ±x3的概率超过95%，那他实际偏离μ值已经很远了，我们认为，给了你一个95%的置信度区间你都没有落进去，则很大概率是因为你本来就不符合这个分布，所以就认为你不满足我的正太分布要求。（这就是假设检验的内容）

3.1 各种情况下的求解

https://www.bilibili.com/video/av62439939?from=search&seid=6809068784014832945

α已知，求μ
直接用正态分布函数求解

image.png
α未知，总体标准差S已知，求μ（上文的实际问题就是这个）
t分布

image.png
μ已知，求α

image.png
μ未知，总体标准差S已知，求α
用与S相关的分布

image.png

3.2 假设检验

假设检验就是给定一个很小的显著性水平𝛼（额，跟前面正态分布参数里面的阿尔法不是一个值哈），相应的置信度就是1-𝛼，设定H0和H1，H0所对应的的就是满足该显著性水平下的一个估计区间（接受域）。如果落入H0的接受域，则符合条件。

显著性水平的定义:当原假设为真并且以等式形式出现时犯第一类错误的概率称为检验的显著性水平，用𝛼表示。
通俗解释就是，当结论是对的，但是验证却表明结论是错误的概率，所以是一个小概率事件，可以认为他在绝大多数情况下根本不会发生。这才是我们判断的基础，因为我们认为小概率时间不会发生，所以如果发生了，我们就认为结论不正确。

image.png

知道α，求μ在一定置信度下是否满足

image.png

image.png
然后还有其他几种情况，针对3.1中一一对应。

3.3 其它问题

单侧校验和双侧校验

上面提到的都是双侧校验问题，比如3.2中的问题，是否可以认为该批考生的平均成绩为70分，就是双侧校验问题。如果问题改成了，是否可以认为该批考生平均成绩小于70分，就变成了单侧校验问题。

P值问题
https://www.bilibili.com/video/av56977442?from=search&seid=3906512682677317659
P值就是我们能够拒绝原假设的最小的显著性水平，所以如果p值≤𝛼，则拒绝𝐻0，意思就是，P值太小，代表置信度1-P很大，即需要很大的置信度区间才可以满足原始数据落入接受域。

image.png

举个例子，还是以3.2中均分为70分来分析：
如果样本均值为66.5，则双侧检验的置信度为98%，p值为0.02。
如果样本均值为68，则双侧检验的置信度为95%，p值为0.05。
p值≤𝛼，被拒绝了。
　
所以就是，相对𝛼而言，P越大越好，因为P越大代表所需要的置信区间很低，自己所需要的置信区间小，那么就可以落入𝛼所对应情况下的置信区间。
（用p值和𝛼值进行校验的时候，一般设为H0和H𝛼进行对比，而不是H0和H1了，正常校验是将H0设为结论，用p值是将H𝛼设为结论）
　

image.png

模型会得出一个t值，就跟正太分布一样，表示x轴上某一个值所对应的的置信度，这个量不用关心，只用关注p值就好了。
另一个就是，其实直接求出p值的方法是最简单的，你可以知道满足条件所需要的置信水平（1-p），再直观地和你心中预想的𝛼进行比较，。而不用再进行𝛼检验了。

ps：常用的分布有正态分布、t分布、卡方分布（就是正态的平方）

四、单因素方差分析

https://www.bilibili.com/video/av51847689?from=search&seid=14047279950588608805

image.png

单因素方差分析就是考察针对同一个变量有很多组的情况下，各个组有没有显著性的不同（google app那个案例是考察不同类型的app的size有无不同）。
步骤：

求组内方差和SSE和组间方差和SSE（不用管总的平方和）：

image.png

image.png
根据自由度得到组间方差期望值MSA和组内方差期望值MSE，并根据两者比值得到F分布：

image.png
根据实际的F值，寻求该实际值下的显著性差异水平p，如果p<𝛼，则说明组间各个因素有显著性不同，不能认为组间没有差异。（因为p很小，说明需要的置信区间已经很大了，极端情况下，组间差异特别大的时候，需要的置信区间得达到100%，这个时候p值很小，所以是落入拒绝域的）

整体理论很简单，直接看这一张总图就知道了：

image.png

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 157,298评论 4赞 360
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 66,701评论 1赞 290
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 107,078评论 0赞 237
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 43,687评论 0赞 202
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 52,018评论 3赞 286
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 40,410评论 1赞 211
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 31,729评论 2赞 310
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 30,412评论 0赞 194
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 34,124评论 1赞 239
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 30,379评论 2赞 242
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 31,903评论 1赞 257
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 28,268评论 2赞 251
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 32,894评论 3赞 233
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 26,014评论 0赞 8
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 26,770评论 0赞 192
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 35,435评论 2赞 269
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 35,312评论 2赞 260

【学习】统计基础

一、 抽样估计理论

二、点估计

2.1 矩估计

2.2 极大似然估计

三、区间估计

3.1 各种情况下的求解

3.2 假设检验

3.3 其它问题

四、单因素方差分析

推荐阅读更多精彩内容

一、抽样估计理论