Wen2017 FASTmrEMMA

Wen Y-J, Zhang H, Ni Y-L, et al. Methodological implementation of mixed linear models in multi-locus genome-wide association studies. Briefings in Bioinformatics, 2017, 169(2): 2267–2275. DOI: 10.1093/bib/bbw145.

多位点基因组全基因组关联研究中混合线性模型的方法实现

摘要

混合线性模型已被广泛用于全基因组关联研究(GWAS),但其在多基因座GWAS分析中的应用尚未被探索和评估。在这里,我们为GWAS实现了快速多基因座随机SNP效应EMMA(FASTmrEMMA)模型。该模型建立在随机单核苷酸多态性(SNP)效应和新算法的基础上。该算法对多基因矩阵K的协方差矩阵和环境噪声进行白化,并将非零特征值的数量指定为1。该模型首先选择具有0.005个P值的所有推定的数量性状核苷酸(QTN),然后将它们包括在用于真实QTN检测的多基因座模型中。由于具有多位点特征,Bonferroni校正被较不严格的选择标准所取代。模拟和实际数据分析的结果表明,FASTmrEMMA在QTN检测和模型拟合方面更强大,在QTN效应估计中具有较少的偏差,并且比现有的单基因和多基因座方法(例如经验贝叶斯)需要更少的运行时间,在渐进排他性关系(SUPER),高效混合模型关联(EMMA),压缩MLM(CMLM)和丰富CMLM(ECMLM)下的混合线性模型的解决。 FASTmrEMMA为多基因座GWAS提供了替代方案。
关键词:全基因组关联研究;混合线性模型;多位点模型;随机效应

介绍

全基因组关联研究(GWAS)已被广泛用于人类,动物和植物遗传学中数量性状的遗传解剖,特别是与基因组测序技术的输出相结合。最常用的GWAS方法是混合线性模型(MLM)方法[1,2],因为它证明了从许多小遗传效应(多基因背景)纠正inflation和控制种群分层偏差的有效性[3-7]。自Yu等[2]的MLM发表以来,已经提出了许多基于MLM的方法。然而,它们中的大多数通过一次测试一个标记包括一维基因组扫描,其涉及对显着性测试的阈值的多次测试校正。广泛使用的Bonferroni校正通常过于保守,无法检测数量性状的许多重要位点。
大多数数量性状由一些具有大效应的基因和许多具有轻微影响的多基因控制。然而,GWAS的当前一维基因组扫描方法与这些性状的真实遗传模型不匹配。为了克服这个问题,已经开发了多位点方法;例如,贝叶斯最小绝对收缩和选择算子(LASSO)[8],自适应混合LASSO [9],惩罚Logistic回归[10?1],Elastic-Net [12],经验贝叶斯(E-BAYES)[13]和EBAYES LASSO [14]。如果标记的数量是样本大小的几倍,则所有标记效果可以包括在单个模型中并以无偏的方式估计。但是,如果标记的数量比样本大小大许多倍,则这些收缩方法将失败。在这种情况下,我们应该考虑如何减少多基因座遗传模型中标记效应的数量。例如,Zhou等[15]开发了贝叶斯稀疏线性混合模型,Moser等[16]提出了贝叶斯混合模型。在这些模型中,考虑了混合物分布中的两到四个共同组分,并且仅估计了几个方差分量。虽然在几轮吉布斯采样后最终考虑了遗传模型中约500种效应,但计算时间成为这些贝叶斯方法的主要关注点。最近,Segura等[17]和Wang等[7]提出了多基因座MLM方法。然而,需要进一步改进快速算法。
Zhang等人的[1] MLM方法将数量性状核苷酸(QTN)效应视为随机的,其中需要估计由于QTN,多基因和残留误差引起的三个组分方差。如果效果的数量很大,则此计算需要很长时间。为了减少计算时间并增加QTN检测的功效,已经提出了具有先前确定的群体参数(P3D)算法[18]和丰富的CMLM(ECMLM)[19]的压缩MLM(CMLM)。另一方面,Kang等[3]提出了一种有效的混合模型关联(EMMA),其他作者提出了替代方案,如EMMA eXpedited(EMMAX)[20],FaST-LMM [21],FaST-LMM-Select [22],全基因组EMMA [4]和全基因组快速关联使用混合模型和回归-Gamma(GRAMMAR-Gamma)[23]。最近,基于FaST-LMM开发了渐进排他性关系(SUPER)[24]下的混合线性模型的解决方案。在上述快速方法中,SNP效应被视为固定的。 Goddard等[25]指出,与固定模型相比,随机标记模型具有几个优点[7,26,27]。例如,随机模型方法将估计的SNP效应收缩至零。然而,Goddard等[25]没有提供有效的计算算法来估计标记效应。
在本文中,我们描述了一种新方法,通过为三个组分方差构建快速和新的矩阵变换,可以快速扫描整个基因组中的每个随机效应标记。然后,将具有0.005个P值的所有推定的QTN置于一个多基因座遗传模型中,并且通过EM经验贝叶斯(EMEB)[28]估计这些QTN效应用于真正的QTN鉴定。这种新方法称为快速多位点随机SNP效应EMMA(FASTmrEMMA),通过分析拟南芥的实际数据[29]和一系列模拟研究进行验证,并与其他方法比较,如E-BAYES (多基因座模型)[30],SUPER,EMMA,ECMLM和CMLM(单基因座模型)。

Case FASTmrEMMA E-BAYES EMMA CMLM ECMLM SUPER
Model Multi-locus model Multi-locus model Single-locus model Single-locus model Single-locus model Single-locus model
QTN effect Random Random Fixed Fixed Fixed Fixed
Population structure control Yes No Yes Yes Yes Yes
Number of variance components Three No. of effects Two Two Two Two
Polygenic-to-residual variance ratio Fixed NA NA Fixed Fixed NA
Significant critical value LOD (logarithm of odds)=3 P-value=0.05 P-value=0.05/p, where p is no. of markers P-value=0.05/p P-value=0.05/p P-value=0.05/p
Transformation matrix and performances Q_1 \Lambda_r^{-\frac{1}{2}} Q_1^T where (Q_1 \Lambda_r^{\frac{1}{2}} Q_1^T)Q_1 \Lambda_r^{\frac{1}{2}} Q_1^T = \hat{\lambda_gZKZ^T+I_n}​ Shrinkage is selective. Large effects subject to virtually no shrinkage while small effects are shrunken to zero. U_R^T where SHS=U_Rdiag(\xi_1+\delta, \dots, \xi_n+\delta)U_R^T$$H=ZKZ^T+\delta I and S=I-X(X^TX)^{-1}X^T One-dimensional optimization by deriving the likelihood as a function of QTN-to-residual variance ratio. Kinship among individuals is replaced by the kinship among groups.Fit the groups as the random effect, and estimates population parameters only once and then fixes them to test genetic markers. Kinship among individuals is replaced by the kinship among groups.Chooses the best combination between kinship algorithms and grouping algorithms. Dramatically reduces the number of markers used to define individual relationships, and uses them in FaST-LMM.
Running time Fast Depend on the number of effects. Slow Fast Fast Moderate
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 159,117评论 4 362
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 67,328评论 1 293
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 108,839评论 0 243
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 44,007评论 0 206
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 52,384评论 3 287
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 40,629评论 1 219
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 31,880评论 2 313
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 30,593评论 0 198
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 34,313评论 1 243
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 30,575评论 2 246
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 32,066评论 1 260
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 28,392评论 2 253
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 33,052评论 3 236
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 26,082评论 0 8
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 26,844评论 0 195
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 35,662评论 2 274
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 35,575评论 2 270

推荐阅读更多精彩内容