Wen2017 FASTmrEMMA

Wen Y-J, Zhang H, Ni Y-L, et al. Methodological implementation of mixed linear models in multi-locus genome-wide association studies. Briefings in Bioinformatics, 2017, 169(2): 2267–2275. DOI: 10.1093/bib/bbw145.

多位点基因组全基因组关联研究中混合线性模型的方法实现

摘要

混合线性模型已被广泛用于全基因组关联研究（GWAS），但其在多基因座GWAS分析中的应用尚未被探索和评估。在这里，我们为GWAS实现了快速多基因座随机SNP效应EMMA（FASTmrEMMA）模型。该模型建立在随机单核苷酸多态性（SNP）效应和新算法的基础上。该算法对多基因矩阵K的协方差矩阵和环境噪声进行白化，并将非零特征值的数量指定为1。该模型首先选择具有0.005个P值的所有推定的数量性状核苷酸（QTN），然后将它们包括在用于真实QTN检测的多基因座模型中。由于具有多位点特征，Bonferroni校正被较不严格的选择标准所取代。模拟和实际数据分析的结果表明，FASTmrEMMA在QTN检测和模型拟合方面更强大，在QTN效应估计中具有较少的偏差，并且比现有的单基因和多基因座方法（例如经验贝叶斯）需要更少的运行时间，在渐进排他性关系（SUPER），高效混合模型关联（EMMA），压缩MLM（CMLM）和丰富CMLM（ECMLM）下的混合线性模型的解决。 FASTmrEMMA为多基因座GWAS提供了替代方案。
关键词：全基因组关联研究;混合线性模型;多位点模型;随机效应

介绍

全基因组关联研究（GWAS）已被广泛用于人类，动物和植物遗传学中数量性状的遗传解剖，特别是与基因组测序技术的输出相结合。最常用的GWAS方法是混合线性模型（MLM）方法[1,2]，因为它证明了从许多小遗传效应（多基因背景）纠正inflation和控制种群分层偏差的有效性[3-7]。自Yu等[2]的MLM发表以来，已经提出了许多基于MLM的方法。然而，它们中的大多数通过一次测试一个标记包括一维基因组扫描，其涉及对显着性测试的阈值的多次测试校正。广泛使用的Bonferroni校正通常过于保守，无法检测数量性状的许多重要位点。
大多数数量性状由一些具有大效应的基因和许多具有轻微影响的多基因控制。然而，GWAS的当前一维基因组扫描方法与这些性状的真实遗传模型不匹配。为了克服这个问题，已经开发了多位点方法;例如，贝叶斯最小绝对收缩和选择算子（LASSO）[8]，自适应混合LASSO [9]，惩罚Logistic回归[10？1]，Elastic-Net [12]，经验贝叶斯（E-BAYES）[13]和EBAYES LASSO [14]。如果标记的数量是样本大小的几倍，则所有标记效果可以包括在单个模型中并以无偏的方式估计。但是，如果标记的数量比样本大小大许多倍，则这些收缩方法将失败。在这种情况下，我们应该考虑如何减少多基因座遗传模型中标记效应的数量。例如，Zhou等[15]开发了贝叶斯稀疏线性混合模型，Moser等[16]提出了贝叶斯混合模型。在这些模型中，考虑了混合物分布中的两到四个共同组分，并且仅估计了几个方差分量。虽然在几轮吉布斯采样后最终考虑了遗传模型中约500种效应，但计算时间成为这些贝叶斯方法的主要关注点。最近，Segura等[17]和Wang等[7]提出了多基因座MLM方法。然而，需要进一步改进快速算法。
Zhang等人的[1] MLM方法将数量性状核苷酸（QTN）效应视为随机的，其中需要估计由于QTN，多基因和残留误差引起的三个组分方差。如果效果的数量很大，则此计算需要很长时间。为了减少计算时间并增加QTN检测的功效，已经提出了具有先前确定的群体参数（P3D）算法[18]和丰富的CMLM（ECMLM）[19]的压缩MLM（CMLM）。另一方面，Kang等[3]提出了一种有效的混合模型关联（EMMA），其他作者提出了替代方案，如EMMA eXpedited（EMMAX）[20]，FaST-LMM [21]，FaST-LMM-Select [22]，全基因组EMMA [4]和全基因组快速关联使用混合模型和回归-Gamma（GRAMMAR-Gamma）[23]。最近，基于FaST-LMM开发了渐进排他性关系（SUPER）[24]下的混合线性模型的解决方案。在上述快速方法中，SNP效应被视为固定的。 Goddard等[25]指出，与固定模型相比，随机标记模型具有几个优点[7,26,27]。例如，随机模型方法将估计的SNP效应收缩至零。然而，Goddard等[25]没有提供有效的计算算法来估计标记效应。
在本文中，我们描述了一种新方法，通过为三个组分方差构建快速和新的矩阵变换，可以快速扫描整个基因组中的每个随机效应标记。然后，将具有0.005个P值的所有推定的QTN置于一个多基因座遗传模型中，并且通过EM经验贝叶斯（EMEB）[28]估计这些QTN效应用于真正的QTN鉴定。这种新方法称为快速多位点随机SNP效应EMMA（FASTmrEMMA），通过分析拟南芥的实际数据[29]和一系列模拟研究进行验证，并与其他方法比较，如E-BAYES （多基因座模型）[30]，SUPER，EMMA，ECMLM和CMLM（单基因座模型）。

Case	FASTmrEMMA	E-BAYES	EMMA	CMLM	ECMLM	SUPER
Model	Multi-locus model	Multi-locus model	Single-locus model	Single-locus model	Single-locus model	Single-locus model
QTN effect	Random	Random	Fixed	Fixed	Fixed	Fixed
Population structure control	Yes	No	Yes	Yes	Yes	Yes
Number of variance components	Three	No. of effects	Two	Two	Two	Two
Polygenic-to-residual variance ratio	Fixed	NA	NA	Fixed	Fixed	NA
Significant critical value	LOD (logarithm of odds)=3	P-value=0.05	P-value=0.05/p, where p is no. of markers P-value=0.05/p	P-value=0.05/p	P-value=0.05/p
Transformation matrix and performances	$Q_1 \Lambda_r^{-\frac{1}{2}} Q_1^T$ where $(Q_1 \Lambda_r^{\frac{1}{2}} Q_1^T)Q_1 \Lambda_r^{\frac{1}{2}} Q_1^T = \hat{\lambda_gZKZ^T+I_n}$	Shrinkage is selective. Large effects subject to virtually no shrinkage while small effects are shrunken to zero.	$U_R^T$ where $SHS=U_Rdiag(\xi_1+\delta, \dots, \xi_n+\delta)U_R^T$$H=ZKZ^T+\delta I$ and $S=I-X(X^TX)^{-1}X^T$ One-dimensional optimization by deriving the likelihood as a function of QTN-to-residual variance ratio.	Kinship among individuals is replaced by the kinship among groups.Fit the groups as the random effect, and estimates population parameters only once and then fixes them to test genetic markers.	Kinship among individuals is replaced by the kinship among groups.Chooses the best combination between kinship algorithms and grouping algorithms.	Dramatically reduces the number of markers used to define individual relationships, and uses them in FaST-LMM.
Running time	Fast	Depend on the number of effects.	Slow	Fast	Fast	Moderate

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 159,117评论 4赞 362
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 67,328评论 1赞 293
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 108,839评论 0赞 243
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 44,007评论 0赞 206
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 52,384评论 3赞 287
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 40,629评论 1赞 219
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 31,880评论 2赞 313
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 30,593评论 0赞 198
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 34,313评论 1赞 243
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 30,575评论 2赞 246
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 32,066评论 1赞 260
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 28,392评论 2赞 253
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 33,052评论 3赞 236
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 26,082评论 0赞 8
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 26,844评论 0赞 195
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 35,662评论 2赞 274
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 35,575评论 2赞 270

Wen2017 FASTmrEMMA

多位点基因组全基因组关联研究中混合线性模型的方法实现

摘要

介绍

推荐阅读更多精彩内容