统计学第三章 总体均数的估计与假设检验

知识清单:

  • t分布(t-distribution)
  • 自由度(degree of freedom,df)
  • 单样本t检验(one sample/group t-test)
  • 配对样本t检验(paired/matched t-test)
  • 两样本t检验(two-sample/group t-test)
  • 正态性检验(normality test)
  • 方差齐性检验(homogeneity of variance test)
  • 变量变换效果展示

1. t分布(不同自由度)

了解r语言几个函数:dt,pt,qt,rt分别与dnorm,rnorm,pnorm,qnorm和rnorm对应

  • dt() 的返回值是正态分布概率密度函数(density)
  • pt()返回值是正态分布的分布函数(probability)
  • 函数qt()的返回值是给定概率p后的下百分位数(quantitle)
  • rt()的返回值是n个正态分布随机数构成的向量
x <- seq(-4, 4, length=200)
df <- c(2, 10, 30, 40, 60, 90)
require(plyr)
get.pt <- function(x, df) {
    prob <- dt(x, df)
    dd <- data.frame(x=x, df=df, prob=prob)
    return(dd)
}
pt.df <- mdply(data.frame(x= rep(x, length(df)), df=rep(df, each=length(x))), get.pt)
require(ggplot2)
ggplot(pt.df, aes(x, prob))+geom_line(aes(group=df, color=factor(df)), lwd=1)+geom_line(data=data.frame(x=x, prob=dnorm(x)), alpha=0.3, lwd=3, color="gray")

2. 单样本t检验(使用教材光盘血红蛋白数据: 例03-05.sav)

前提条件:取自正态分布的小样本(<=60, 偏态用秩和检验);或者取自任意分布的大样本(>60)

# install.packages("memisc")
library(memisc)
hb_df <- data.frame(as.data.set(spss.system.file('E:\\医学统计学光盘文件\\SPSS文件_医学统计学(第4版)\\各章例题SPSS数据文件\\例03-05.sav')))
t.test(hb_df$hb, mu=140)
One Sample t-test
data:  hb_df$hb
t = -2.1367, df = 35, p-value = 0.03969
alternative hypothesis: true mean is not equal to 140
95 percent confidence interval:
 122.1238 139.5428
sample estimates:
mean of x 
 130.8333 

除此之外,还可以直接计算出t值后,使用pt函数计算p值

t.value <- abs((mean(hb_df$hb) - 140) / sd(hb_df$hb) * sqrt(nrow(hb_df)))
p.value <- pt(t.value, df=nrow(hb_df)-1, lower.tail=FALSE)*2

可视化:

x=seq(-4, 4, length=500)
d <- data.frame(x=x, prob=dt(x, df=length(hb_df$hb)-1))
require(ggplot2)
ggplot(d, aes(x, prob, fill=((x>-t.value & x<t.value))))+geom_area()+scale_fill_manual(values=c("TRUE"="steelblue", "FALSE"="red"))+theme(legend.position="none")+geom_text(aes(0, dnorm(0)+0.02), label=paste("p = ", round(p.value, 4), sep=""))

3. 配对样本t检验(paired/matched t-test)教材光盘数据:例03-06.sav

前提条件:配对设计(同质对子接受两种不同处理;同一样品接受不同处理;同一对象接受处理前后)

  • 方法 1:
# install.packages("memisc")
library(memisc)
paired_df <- data.frame(as.data.set(spss.system.file('E:\\医学统计学光盘文件\\SPSS文件_医学统计学(第4版)\\各章例题SPSS数据文件\\例03-06.sav')))
t.test(paired_df$x1, paired_df$x2, paired=TRUE)
  • 方法 2:
d <- (paired_df$x1-paired_df$x2)
t.value <- abs(mean(d)/sd(d)*sqrt(length(d)))
p.value <- pt(t.value, df=length(d)-1, lower.tail=FALSE)*2

4. 两样本t检验(成组t检验Two Sample t-test)教材光盘数据:例03-07.sav

前提条件:小样本,需要方差齐性和来自正态总体(方差不齐需用近似t检验);或者大样本(>60)

  • 方法 1:
# install.packages("memisc")
library(memisc)
group_df <- data.frame(as.data.set(spss.system.file('E:\\医学统计学光盘文件\\SPSS文件_医学统计学(第4版)\\各章例题SPSS数据文件\\例03-07.sav')))
t.test(group_df$x[group_df$group=="阿卡波糖胶囊"], group_df$x[group_df$group=="拜唐苹胶囊"], paired=FALSE)
  • 方法 2:
library(plyr)
group_dd <- ddply(group_df, .(group), function(x) data.frame(SD=sd(x$x), n=length(x$x), mean=mean(x$x)))
diff_se <- sqrt(sum(group_dd$SD^2*(group_dd$n-1))/sum(group_dd$n-1)*sum(1/group_dd$n))
t.value <- abs((group_dd$mean[1]-group_dd$mean[2])/diff_se)
p.value <- pt(t.value, df=sum(group_dd$n)-2, lower.tail=FALSE)*2

5. 正态性检验

一般不必要使用,多用于采用正态分布法制定参考值范围时

6. 方差齐性的F检验,教材光盘数据:例03-06.sav

F检验理论上需要满足资料服从正态分布,进行方差齐性检验更多采用另一种不依赖总体分布形式的Lecene检验

进行f和t一样,r语言有df,pf,qf,rf和var.test等函数

  • 方法 1:
# install.packages("memisc")
library(memisc)
group_df <- data.frame(as.data.set(spss.system.file('E:\\医学统计学光盘文件\\SPSS文件_医学统计学(第4版)\\各章例题SPSS数据文件\\例03-07.sav')))
var.test(group_df$x[group_df$group=="阿卡波糖胶囊"], group_df$x[group_df$group=="拜唐苹胶囊"])
  • 方法 2:
f.val <- sd(group_df$x[group_df$group=="阿卡波糖胶囊"])^2/var(group_df$x[group_df$group == "拜唐苹胶囊"])
p.val <- pf(f.val, df1=19, df2=19, lower.tail=FALSE)*2

7. 变量变换

对数变换:数据效应为相乘,变异系数接近常数

b <- rnorm(100)
prob <- dnorm(b)
a <- exp(b)
data <- data.frame(variable=c(a, b), c= rep(c("exp", "normal"), each=length(a)), prob=c(prob, prob))
CairoPNG(1400, 1000, file="myplot.png", dpi=300)
ggplot(data, aes(v, prob, color=c))+geom_line(lwd=1)
dev.off()
cvs <- c()
for (i in 1:1000) {cvs <- c(cvs, (raster::cv(sample(a, 79))))}
hist(cvs, breaks=100)
  • 平方根变换:适用于Poisson分布资料,方差与均数近似相等,轻度偏态(如发病的地域或时间分布)
  • 反正弦变换:率或百分比的数据
  • 倒数变换:两端波动大的数据

参考:

[1] 孙振球 徐勇勇. 医学统计学【第四版】
[2] https://guangchuangyu.github.io/statistics_notes/section-4.html#section-4.1

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 158,425评论 4 361
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 67,058评论 1 291
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 108,186评论 0 243
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 43,848评论 0 204
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 52,249评论 3 286
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 40,554评论 1 216
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 31,830评论 2 312
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 30,536评论 0 197
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 34,239评论 1 241
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 30,505评论 2 244
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 32,004评论 1 258
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 28,346评论 2 253
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 32,999评论 3 235
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 26,060评论 0 8
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 26,821评论 0 194
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 35,574评论 2 271
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 35,480评论 2 267

推荐阅读更多精彩内容