R统计学(06): 负二项分布

前面我们介绍了多种离散型概率分布,大家可以点击下方链接来回顾:

今天介绍另一个离散型概率分布:负二项分布(Negative binomial distribution)。在实际生活中,我们可以使用负二项分布描述某种机器在坏掉前,能够工作的天数的分布;某运动员在获取r个奖牌前失败次数的分布等等。

1. 定义

负二项分布也基于伯努利试验,其定义有下面两种形式:

  • 在一系列伯努利试验中,失败次数到达指定次数时,成功次数的离散概率分布

  • 在一系列伯努利试验中,成功次数到达指定次数(记为r)时,失败次数(记为k)的离散概率分布

这两种定义只是将“成功”和“失败”对调,其本质上没差别。由于R中相关函数都采用第二种形式,因此下面将以第二种形式为例。其概率质量函数为:

P(X=k)=C_{k+r-1}^kp^r(1-p)^k= \frac{{(k+r-1)}!}{k!(r-1)!}p^r(1-p)^k

其中:

  • k是失败的次数,为自变量,取值范围为0, 1, 2, 3, ...

  • r是成功的次数,为固定值。当r=1时,负二项分布退化为几何分布

  • p是伯努利试验成功的概率,失败概率则为1-p

在负二项分布的概率质量函数中,由于k+r次伯努利试验为独立同分布,每个成功r次、失败k次的事件的概率为p^r(1-p)^k。由于第r次成功一定是最后一次试验,所以应该在k+r-1次试验中选择k次失败,即组合数C_{k+r-1}^k作为系数。

2. 性质

从负二项分布的概率质量函数可以看出,其概率分布依赖参数p和r。负二项分布的期望值和方差为:

E(X)=r\frac {1-p} p

Var(X)=r\frac {1-p} {p^2}

3. R中的相关函数

R中也有四个函数可用于负二项分布,分别是:

  • dnbinom(x, size, prob):返回发生x次失败事件的概率

  • pnbinom(q, size, prob):返回累积概率

  • qnbinom(p, size, prob):返回相应分位点x,详情见下面的例子

  • rnbinom(n, size, prob):返回每组发生失败事件的次数

这四个函数都有sizeprob,分别对应于成功次数r和成功概率p。下面通过一个例子来了解如何使用它们:

某位运动员打算获得4个冠军后退役,假设每次比赛夺冠的概率为0.8,求该运动员获得4个冠军前所经历失败次数的概率分布?

分析:从题意可知,这个过程可用负二项分布来描述,其中成功次数r=4,成功概率p=0.8。

结果

P(X=k)= \frac{{(k+r-1)}!}{k!(r-1)!}p^r(1-p)^k=\frac{{(k+3)}!}{k!\times 3!}0.8^4 \times 0.2^k

下表给出了在运动员获得4个冠军前,发生0到6次失败的概率分布为:

从表格结果可以看出,该运动员至少经历一次失败的概率高达59%
(= 1-P(k=0))。

下面我们利用R中的函数来计算相关量:

第一个问题:在该运动员获得4个冠军前,发生0次,1次和2次失败的概率分别是多少?此时要用到dnbinom(x, size, prob)函数,其中x参数指定失败的次数,函数返回相应概率,结果为:

> dnbinom(0:2, 4, 0.8)
[1] 0.40960 0.32768 0.16384

第二个问题:至多发生2次失败的概率是多少?此时要用到pnbinom(x, size, prob)函数,其中q参数指定至多失败的次数(这里为2),函数返回相应累积概率,结果为:

> pnbinom(2, 4, 0.8)
[1] 0.90112

第三个问题:90%概率下该运动员至多失败几次?此时要用到qnbinom(x, size, prob)函数,其中p参数指定概率(这里是0.9),函数返回相应分位点x(即F(x)≥0.9对应的最小x值),结果为:

> qnbinom(0.9, 4, 0.8)
[1] 2

结果表明,90%概率下至多失败2次

最后一个问题:重复10万组模拟,每组失败的次数是多少?这时就要用到rnbinom(x, size, prob)函数,其中n参数指定模拟的组数(这里为100000),函数返回每组发生的次数,结果为:

> set.seed(123)
> ns <- rnbinom(100000, 4, 0.8)
> table(ns)
ns
    0     1     2     3     4     5     6     7     8     9    10 
41123 32677 16291  6608  2295   714   208    60    16     6     2 

> mean(ns)   ##失败次数的平均值
[1] 0.99703
> var(ns)    ##失败次数的方差
[1] 1.246154

> 4*(1-0.8)/0.8  ##均值的理论值
[1] 1
> 4*(1-0.8)/0.8^2  ##方差的理论值
[1] 1.25

模拟10万组,41123组没有发生失败,与理论上40.96%不发生失败很接近。此外均值和方差也与理论值很接近。

负二项分布的介绍就到此结束,希望对大家的学习有所帮助,也希望大家多多支持本公众号。


感谢您的阅读!想了解更多有关技巧,请关注我的微信公众号“R语言和Python学堂”,我将定期更新相关文章。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 159,015评论 4 362
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 67,262评论 1 292
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 108,727评论 0 243
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 43,986评论 0 205
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 52,363评论 3 287
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 40,610评论 1 219
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 31,871评论 2 312
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 30,582评论 0 198
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 34,297评论 1 242
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 30,551评论 2 246
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 32,053评论 1 260
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 28,385评论 2 253
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 33,035评论 3 236
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 26,079评论 0 8
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 26,841评论 0 195
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 35,648评论 2 274
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 35,550评论 2 270

推荐阅读更多精彩内容