【分析工具】生物统计与R语言(1)

简介

  生物统计学是生物数学中最早形成的一大分支,它是在用统计学的原理和方法研究生物学的客观现象及问题的过程中形成的,生物学中的问题又促使生物统计学中大部分基本方法进一步发展。生物统计学是应用统计学的分支,它将统计方法应用到医学及生物学领域,对于生物医学领域科研人员及在读学生,理解好统计学的基本方法及原理,才能真正准确的运用统计学的方法分析解释科研数据,得出更令人信服的结论,本系列专题将配合统计开源工具R语言系统介绍统计学在生物医学领域的原理及用法。

统计的含义
  • 统计到底是个啥?
    统计是将数据转化为可以帮助人们做决定的信息的工具。
  • 统计包括的内容
    研究设计
    数据收集
    数据管理
    统计分析
    • 描述型统计
    • 估计和推论
    • 预测
  • 解释
重要概念
  • 总体(population):想要从重的出结论的群体。一般需要指定群体、地点和时间。栗子:2019年在山东省参加高考的学生。
  • 样本(sample):群体的子集。样本能够用来反应总体的信息。栗子:3万个随机选取的2019年在山东省参加高考的学生。
  • 参数(parameter):表示的是一个群体的数值特征。栗子:2019年在山东参加高考的学生的平均年龄。
  • 统计量(statistics):统计量是一个样本的数值特征。栗子:3万个随机选取的2019年在山东参加高考的的学生平均年龄。
  • 推论(inference):基于样本,得出关于群体的结论。栗子:2019年在山东省参加高考的学生平均年龄为18岁。


基础统计推论方法
  • 点估计:
    样本中(3万个)山东省高考考生平均年龄为18岁。
    推断群体(整个山东省)高考考生的平均年龄为18岁。
  • 区间估计:
    山东高考考生的平均年龄的可信范围是多少?
    山东考生的平均年龄的95%的之心区间为16-20岁。
  • 假设检验
    样本是否提供充分的证据证明山东考生的平均年龄低于18岁。
    零假设:山东考生的平均年龄大于18岁。
    备则假设:山东考生平均年龄低于18岁。
    P< 0.05 拒绝零假设,有充分的证据证明山东考生平均年龄低于18岁。
    P> 0.05 无法拒绝零假设,没有充分的证据证明山东考生平均年龄低于18岁。
两大定律

大数定律:重要实验测试足够多,样本均值就会趋近于总体的期望值。
中心极限定理:许多小的随机因素的叠加总会使总体的分布趋近于正态分布;不管总体分布是什么,只要样本量足够大,就可以把样本的均值视为服从正态分布。

描述性统计
  • 数据类型(数据分析第一步)
    1.离散型变量:
    名词性(nominal)离散变量:二项分布变量(男 :女)
    顺序性(ordinal)离散变量:牙结石的分级
    2.连续型变量:
    正态分布(身高体重年龄)
  • 描述性统计 (数据分析第二步)
    1.离散型
    频数(frequency),比例(proportion),百分比(percent)
    列表(table)
    饼图(pie charts),条形图(bar charts)
    2.连续型
    数据的大小:平均数(mean),中位数(median),众数(mode),百分位数(percentile)
    数据的差异:样本方差(variance),标准差(standard deviation)
    数据分布形状:对称性(symmetry),偏斜程度(skewness),平缓程度(kurtosis)等。
    直方图(histogram),箱型图(boxplot)
    原因:了解分布情况,描述数据,统计模型的前提条件通常包括数据分布情况。
    3.两个变量之间的关系
    两个连续变量:身高和体重的关系;散点图
    一个离散一个连续的变量:性别与身高的关系;分组做箱型图
    两个离散变量:性别和吸烟之间的关系;表格(table)
    4.检查数据质量
    检查确实数据
    检查异常值
实操栗子
  • 数据生成
samsize = 1000
age = rnorm(n=samsize, mean = 50, sd = 10)
smoke = as.factor(c(rep(0,500),rep(1,500)))
height = log2(rnorm(n=samsize, mean = 3.2, sd = 0.1))
weight = 35 * height + rnorm(n=samsize, mean = 10, sd = 2)
weight[82]=weight[82]+20 #outlier
#plot(height, weight)
final_data=data.frame(age,(smoke),height,weight)
head(final_data)
       age X.smoke.   height   weight
1 41.29590        0 1.640680 65.68003
2 31.77156        0 1.767688 70.66953
3 68.14326        0 1.654074 68.69767
4 57.88502        0 1.648028 64.08887
5 44.27702        0 1.625258 67.79374
6 54.55705        0 1.676883 69.97073
  • 查看样本的个数和变量的个数
dim(final_data)
[1] 1000    4
boxplot(final_data$height)
  • 确定数据类型
> is(final_data$age)
[1] "numeric" "vector" 
> is(final_data$height)
[1] "numeric" "vector" 
> is(final_data$weight)
[1] "numeric" "vector" 
> is(final_data$X.smoke.)
[1] "factor"              "integer"            
[3] "oldClass"            "numeric"            
[5] "vector"              "data.frameRowLabels"

age/height/weight是连续型
smoke是离散型
  • 描述性统计
    连续型变量(height):
    数据大小和差异
>summary(final_data$height)
   Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
  1.512   1.653   1.680   1.681   1.713   1.794 
> sd(final_data$height)
[1] 0.04622406
> var(final_data$height)
[1] 0.002136664
> 

数据分布情况

hist(final_data$height)
boxplot(final_data$height)


离散型变量:
吸烟情况
列表

> table(final_data$X.smoke.)

  0   1 
500 500 

饼图

> prop1=sum(final_data$X.smoke.==1)/length(final_data$X.smoke.)
> prop0=sum(final_data$X.smoke.==0)/length(final_data$X.smoke.)
> pie(c(prop0,prop1),labels=c("non-smk","smk"))

两个变量之间的关系
两个连续变量(身高体重):
散点图

> plot(height,weight)

一个离散一个连续:
吸烟和身高

boxplot(final_data$height~final_data$X.smoke.)
  • 检查数据质量
    检查确实数据
> is.na.data.frame(final_data)
        age X.smoke. height weight
   [1,] FALSE    FALSE  FALSE  FALSE
   [2,] FALSE    FALSE  FALSE  FALSE
   [3,] FALSE    FALSE  FALSE  FALSE
   [4,] FALSE    FALSE  FALSE  FALSE
   [5,] FALSE    FALSE  FALSE  FALSE
   [6,] FALSE    FALSE  FALSE  FALSE

> sum(is.na(final_data))
[1] 0

检查异常值


参考材料:
  • 《实用生物统计》第二版,李松岗
  • 实用生物统计课程 -- Ying Shan
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 158,425评论 4 361
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 67,058评论 1 291
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 108,186评论 0 243
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 43,848评论 0 204
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 52,249评论 3 286
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 40,554评论 1 216
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 31,830评论 2 312
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 30,536评论 0 197
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 34,239评论 1 241
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 30,505评论 2 244
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 32,004评论 1 258
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 28,346评论 2 253
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 32,999评论 3 235
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 26,060评论 0 8
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 26,821评论 0 194
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 35,574评论 2 271
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 35,480评论 2 267

推荐阅读更多精彩内容