eQTL

归纳几篇eQTL相关文章。

1.转自https://www.cnblogs.com/Acceptyly/p/3904108.html

首先QTL是数量性状位点,比如身高是一个数量性状,其对应的控制基因的位点就是一个数量性状位点,而eQTL就是控制数量性状表达位点,即能控制数量性状基因(如身高基因)表达水平高低的那些基因的位点。

数量性状基因座:控制数量性状的基因在基因组中的位置称数量性状基因座。常利用DNA分子标记技术对这些区域进行定位,与连续变化的数量性状表型有密切关系

表达数量性状基因座(expression Quantitative Trait Loci,eQTL)是对上述概念的进一步深化,它指的是染色体上一些能特定调控mRNA和蛋白质表达水平的区域,其mRNA/蛋白质的表达水平量与数量性状成比例关系。eQTL可分为顺式作用eQTL和反式作用eQTL,顺式作用eQTL就是某个基因的eQTL定位到该基因所在的基因组区域,表明可能是该基因本身的差别引起的mRNA水平变化;反式作用eQTL是指某个基因的eQTL定位到其他基因组区域,表明其他基因的差别控制该基因mRNA水平的差异。

eQTL就是把基因表达作为一种性状,研究遗传突变与基因表达的相关性: 就好像研究遗传突变与身高的相关性一样

早年可以通过同时做一个个体的SNP芯片和cDNA芯片, 在全基因组尺度研究突变与表达的相关性, 这种研究需要较多个体(例如1000个); 现在随着深度测序的出现,很多人开始用RNA-Seq在较少量个体中研究allele-specific expression,本质上就是eQTL.

简单地说, 遗传学研究经常发现一些致病或易感突变, 这些突变怎样导致表型有时候不太直观; 所以用某个基因的差异表达作为过渡: 突变A-->B基因表达变化-->表型;


GTEx的前世今生

转自https://baijiahao.baidu.com/sid=1582163111276275189&wfr=spider&for=pc

然而,事情却没有那么简单,从基因的改变到疾病等现象的出现,中间缺失了重要的一环,那就是基因的表达。也许在测序中,我们可以看到某一个基因上某一个位置的变化(比如说SNP单核苷酸变化),但是这种变化并不一定会影响mRNA的产生或者蛋白的改变。也就有可能不会影响到疾病或其他生物学过程。于是科学家想到了另一个指标——mRNA的序列数据。因为只有被表转译到mRNA上的基因,才可能进一步表达为蛋白(图1)。

图1:eQTL是沟通基因改变与疾病的桥梁

但是要怎么搞清DNA改变是怎么影响mRNA的出现呢?这一过程被称为Expression quantitative trait loci(eQTL) 分析,目的在于得到单个DNA突变与单个基因表达量之间的相关性。与单个基因mRNA表达量相关的DNA突变,就被称为eQTL

简单来讲,(并不简单,小编注)我们首先通过全基因组测序获得每个个体的DNA全序,然后以同种族的其他个体作为参照,标记出该个体所有的DNA变异位点, 称为SNP位点。同时,我们通过全基因组mRNA表达量测序得到该个体的特定组织样本中的基因表达量。以全部DNA变异位点为自变量,轮流以每种mRNA表达量为因变量,用大量的个体数据做样本进行线性回归,就可以得到每一个SNP位点和每一个mRNA表达量之间的关系

GTEx是第一个收集了多个人体器官mRNA测序的数据库,并提供了跨器官的eQTL研究平台。

当前使用的GTEx v6p版本的原始数据来自于449名生前健康的遗体捐献者的44个不同的器官。图2是不同器官里面样本数的直观展示。由这个图可以看出,这一数据库中涉及的数据覆盖面非常广,数据量大,具有重要的应用潜力。

图2:GTEx 样品取材来源图示。灰色字体为 cis-eQTL 数/trans-eQTL数 (样本

3.GTEx如何一天发四篇Nature

GTEx 为挖掘器官特异的基因组数据提供了一个非常好的平台。这是目前唯一一个可以提供这些内容的数据库工具。有了这些,科学家就可以尝试回答很多问题:比如基因相互作用的网络在不同器官里会有怎么样不同的表现?不同组织中基因突变对于基因表达有哪些影响?特定染色体在不同的器官中作用有哪些?等等。也就有了其他的三篇文章。

这充分展现了该平台的强大威力!

4.核心作者专访

生息提问1:我们知道,对于大数据的分析而言,数据的质量控制与分析是非常重要的,能否详细的介绍一下你们的数据质量控制与分析过程和原理?

答:有很多文章提出,在不同的测序环境下得到的不同样本的数据存在batch effect。已知的batch effect包括测序的批次,样本的性别、年龄、祖先,以及gene的GC content等。这些因素可能同时对SNP genotype 以及gene mRNA 表达量造成影响,也就是confounder。我们不希望得到的eQTL是由于祖先的不同,或者由于性别差异,所以这些因素都被作为confounder从mRNA 表达量中通过线性回归去除。然而我们还是无法得知所有batch effect,由于我们的目的是寻找对单个基因有影响的突变,一个简单的想法是去除对mRNA 表达有广泛影响的因素, 也就是回归去除主成分。PEER就是一个可以直接用mRNA数据估计广泛因子并去除的工具。这个步骤看似简单,其实是整个分析过程中至关重要的一步,因为这个步骤直接决定了mRNA校正后的表达量。

得到校正后的数据之后,就可以对所有基因的mRNA表达量和全基因组测序得到的SNP genotype进行线性回归,即eQTL 分析。在基因组数据分析中,存在一个普遍的问题,就是基因/DNA变异的数量是样本数量的几百甚至几万倍,而同时进行的回归分析的次数就更是远超样本数量,很容易出现假阳性结果,因此我们需要对系数的p值做Bonferroni校正或者BH校正来消除多重检验的影响

根据SNP位点(即单个DNA突变的位点)到gene的距离,eQTL 可以分为两类:cis-eQTL 和 trans-eQTL。cis-eQTL是指近距离相关的eQTL, trans-eQTL则是包括了远距离相关的eQTL。这两类eQTL对应 cis-regulation以及 trans-regulation。由于trans-eQTL的计算涉及到更大量的多重检验,因此我们采取了更严格的数据质量控制。

生息提问2:GTEx 数据是如何被用于器官特异性分析的?

答:数据收集完成后,考虑到不同器官样本里面存在重复的个体,研究人员做了meta-analysis来去除重复个体的影响,在此基础上进行了聚类分析。原文中的图2展示了用cis-eQTL 和 trans-eQTL做聚类分析的结果。可以清楚地看到,相近的器官在聚类结果中更接近。同时,cis-eQTL 比 trans-eQTL提供了更明显的分类。

一个很自然的问题就是:在不同器官里的 eQTL 有什么不同的性质?是什么因素导致一部分eQTL只存在于某些器官,而另一些则在大多数器官中存在?研究人员标记了SNP所在区域的生物学功能(promoter/enhancer/cis regulatory region),并比较了相对应器官的富集性以及不对应器官的富集性,论文中图3a,3b展示了cis-eQTL 在对应器官里更有可能在CRE中富集,图3e 则更为直接地表现了不同功能性序列的eQTL 相关性强度。

生息提问3:从找到DNA变异与mRNA表达的关联,到真正理解产生这些关联的背后机制,这中间还有多远?

答:eQTL 分析是单个SNP和单个基因表达的相关性分析,和GWAS相似,得到的结果可以为机制研究提供思路和方向。假设我们对某个基因感兴趣,想知道是什么DNA序列调控了这个基因的表达,我们可以去eQTL的list中搜索和这个基因有显著相关性的DNA序列。但是这些序列并不是直接导致基因表达变化的,主要由于两个原因:1. 染色体上靠的比较近的序列一般会同时被一代一代传下去,因此这块区域里的SNP都有固定的排列,这块区域被称为LD block。在一个LD block里面,验测出相关性的SNP可能与真正有因果性的SNP有很强的相关性,但是由于多重检验,真正有因果性的SNP可能并没有得到显著结果。2. 存在相关性并不等于直接相关,由于eQTL分析是单个基因只对单个SNP做线性回归,并没有控制其他SNP的序列,也就是说,可能这个相关性来自于另一个和基因以及这个SNP都相关的SNP。

这时候就需要其他的额外信息来帮助我们判断,哪些SNP更可能是有因果性的那个。有许多研究致力于结合其他的基因组信息,使用监督性学习或无监督学习,从存在相关性的一组SNP里面来识别真正有因果性的那个。当然,最后的因果性确认还需要严谨的生物实验来证明。


2.https://mp.weixin.qq.com/s/X6oiHtKBMBPFqncgL3Enxw

本篇给出了eQTL概况,以及三个关于eQTL的数据库,分别为Braineac,GTEx,Blood eQTL Browser



Braineac(The Brain eQTLAlmanac)由UK Brain Expression Consortium创建,他们采集134名欧洲捐献者的多个脑区的基因型与基因表达量,进行eQTL分析,建立该数据库。

http://www.braineac.org/

GTEx(The Genotype TissueExpression Project)到目前为止共收集了544名捐献者全身各个组织的基因型与基因的表达量,利用GTEx可以研究各个组织中的eQTL。

https://www.gtexportal.org/home/

Blood eQTL Browser收集了来自七个中心的共5311名被试的血液组织中的基因型及基因表达量,进行(eQTL) meta分析,并在另外的四个中心的2775被试中重复验证,他们的研究与前两个数据库相比,发现了大量的trans-eQTL。

http://genenetwork.nl/bloodeqtlbrowser/


3.又找到eQTL利用软件出结果的流程的推文,我就是资料整合专家

https://mp.weixin.qq.com/s/FaNhRYSyjLlC1hMnZJkvdA

https://mp.weixin.qq.com/s/83axhA3GgZjw4trmwhMyYw

https://www.jianshu.com/p/6e6d54d7483e

https://mp.weixin.qq.com/s/X6oiHtKBMBPFqncgL3Enxw

第三个好棒,写的超全面,也有链接到其官网数据。


4.可做的各种结合分析:

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 159,716评论 4 364
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 67,558评论 1 294
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 109,431评论 0 244
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 44,127评论 0 209
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 52,511评论 3 287
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 40,692评论 1 222
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 31,915评论 2 313
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 30,664评论 0 202
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 34,412评论 1 246
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 30,616评论 2 245
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 32,105评论 1 260
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 28,424评论 2 254
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 33,098评论 3 238
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 26,096评论 0 8
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 26,869评论 0 197
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 35,748评论 2 276
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 35,641评论 2 271

推荐阅读更多精彩内容