通过统计精准定位从全基因组关联到候选的因果变异(下)

将个研究与meta-analyses相结合

将多个研究的数据结合可以有效的提高精确定位的准确性,上述的策略可以用于当个人水平的数据结合在一起。但是个人水平的数据并不是那么好从多个研究中获取。因此,可以使用与SNP的性状关联仅需汇总统计

这种策略越来越popular,因为它简化了数据共享和计算问题。选择适当的汇总统计数据时,与使用个体级别数据相比,这方法更加不容易丢失关键的信息。(当原始数据用于估计SNP相关性时,相对于分析个体级数据,不存在信息丢失)。实际的例子通常使用合适的参考样本来评估SNP的相关性,在1000个基因组计划,允许将单个SNP分析的汇总统计数据组合起来进行联合分析。但是要注意的是如果参考样本中LD 模式没有代表性,可能会让联合分析产生偏差,因此参考样本的大小不应该太少,要随着GWAS的大小而增加。

不同种之间的GWAS精细定位

对种族差异种群的GWAS的比较表明,SNP与复杂性状的关联通常在不同种群中是一致的,等位基因对性状的影响方向相似。将遗传多样性群体中同一性状的GWAS结果结合起来的跨种族荟萃分析可以通过利用LD模式中的种族差异来辅助精细定位。重要的问题可以重建为,是关于种族群体的选择。例如,基于不同欧洲血统或欧洲和亚洲血统的混合分析,对精细定位的提高微乎其微。但通过包括非洲的血统(具有狭窄的LD)就可以获得更加更加可靠精确的定位。

前面都是讨论比较高深的问题,下面回到我们熟悉的注释。

基因的注释

基因注释是精确定位最重要的一步,因为没有基因功能的解析,定位都是徒劳。将生物学功能配对到DNA序列的基因组注释,可以提供关于通过精细定位分析选择的SNP的可能功能的信息,并且可以帮助确定后续功能研究的优先次序。常见的公众基因功能数据库包括, Gene Ontology, GENCODE, ENCODE, FANTOM5 and the Roadmap Epigenomics Project。

通过将多种数据类型集成到各种组织和细胞类型中,当前的数据库为大约80%的人类基因组提供了功能注释。对已发表的GWAS结果的分析已经确定了复杂特征关联中,功能注释是显着丰富,促使使用注释来提高精定位的准确性。

下面分蛋白质编码注释和非蛋白质编码注释来讨论:

蛋白质编码注释

编码蛋白质的基因中SNP的注释集中在它们对所得蛋白质结构的影响上。注释的实例包括SNP是否发生在外显子,内含子或剪接位点或是否参与可变剪接。大量的生物信息学注释方法可用于功能表征编码SNP并提供预测其有害影响的比重。

非编码蛋白质注释

DNA元素百科全书(ENCODE)项目已经证明基因组是普遍转录的,并且大部分碱基存在于初级转录本中,包括非蛋白质编码转录本。非编码区的遗传变异通常涉及基因调控。非编码注释的一些实例是启动子,增强子,长非编码RNA基因座,转录起始位点,转录因子结合位点,调节序列,染色质可及性和组蛋白修饰模式的特征以及DNaseI超敏感位点。可以通过来自数据库的位置权重矩阵来估计对推定的转录因子结合位点(TFBS)基序的变体影响。

将注释与精确定位相结合

SNP注释通常应用于通过精细定位分析选择的SNP,以便识别注释富集的模式并优先考虑功能验证的候选基因。这种方法会有一定的误差性。替代的方法有,使用功能注释来对回归模型中的SNP进行加权或扩展贝叶斯模型以允许SNP因果依赖于注释的先验概率。

将精确定位与注释相结合具有一定的限制:首先,将注释纳入先验概率对有效的研究的影响有限,其次,目前对广泛基因组功能的理解可能过于局限,无法准确地改进因果关系的先验概率。相反,当关联信号最好是中等的,在高LD区域中,当区域中存在多个因果SNP时,或者当不同区域共享特定注释特征的富集时,注释可能有所帮助。

将GWAS与基因表达相结合

GWAS发现的超过90%的性状相关等位基因定位于非编码区域,有强有力的证据表明增强子,启动子,绝缘子等调节元件的富集。此外,与具有相同等位基因频率的基因型阵列上的其他SNP相比,与复杂性状相关的SNP显着更可能是表达数量性状基因座(eQTL)。这表明GWAS发现的SNP影响附近基因的表达量,并且这种改变的表达最终影响该性状。

统计方法将eQTL数据与GWAS数据整合以量化,是从SNP到基因表达到关联复杂性状的途径。中间变量mRNA是SNP和性状之间的介质。测试因果途径的一种方法是通过因果推断测试,小P值推断因果关系。随机化是另一种方法,可用于区分单个SNP是否影响基因表达和性状与LD中单独的SNP是否影响基因表达和特征。整合eQTL和GWAS结果的关键问题是测量表达的组织类型。复杂疾病通常由多种组织或细胞类型的功能障碍引起,并且基因的表达在不同类型的组织中变化很大。为特定疾病过程或复杂特征选择相关组织类型可能是一项重大挑战。

小结

到目前为止,精细定位工作已经取得了相当大的进步,以完善通过复杂性状的大规模遗传关联研究发现的最可能的遗传变异。本文回顾了各种分析方法,以及基于贝叶斯精细定位的更复杂和相关的方法。所有方法的共同基础是测量的SNP和因果变体之间的LD,这使得精细映射可行并且具有挑战性。

由于我的背景是做植物这方面,很多名词还有概念都没有接触过,本次解读主要是根据我自己的理解在“表明的水平”去解读,更加深刻的内容还需要大家自己回到原文中去理解。随着人类基因组不断深入发展与挖掘,通过GWAS进行疾病等性状精细定位会越来越精准与流行。对比人类基因组,现在植物基因组的研究还是停留在一个比较粗的阶段,但详细日后精细定位也会逐渐运用到植物,已提高产量或者各种抗性。

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 159,716评论 4 364
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 67,558评论 1 294
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 109,431评论 0 244
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 44,127评论 0 209
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 52,511评论 3 287
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 40,692评论 1 222
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 31,915评论 2 313
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 30,664评论 0 202
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 34,412评论 1 246
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 30,616评论 2 245
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 32,105评论 1 260
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 28,424评论 2 254
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 33,098评论 3 238
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 26,096评论 0 8
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 26,869评论 0 197
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 35,748评论 2 276
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 35,641评论 2 271

推荐阅读更多精彩内容