Week25 — 人类原发性肿瘤的染色质可及性图谱-02

Week24 — 人类原发性肿瘤的染色质可及性图谱-01
上篇文章首先回顾了ATAC-seq方法的原理和优点,以及与其他研究染色质可及性方法的比较,然后介绍了这篇文章的主要结果和亮点,以及提供的数据资源。
这篇文章将会从文章思路和主要结果解读。

1. 数据质控

数据分析前的质控,TSS富集、片段长度分布特征、peaks的reads比例。
其中常用于判断实验是否失败的片段长度分布特征原理如下(摘抄于ATAC-seq交流群中来自菲沙基因小伙伴的总结):

核小体完整的话,缠绕核小体的DNA不会被切,被切的是核小体之间的片段,缠绕核小体的146bp的DNA是完整的,加上接头,就会形成特有的280-300bp左右的片段。而且以这个为基数,两倍就是两个核小体,三倍就是三个核小体,依次类推,就形成了层次分明的特征条带。如果核小体解聚,那么缠绕核小体的146bp也会被切除,自然就没有特定大小的DNA富集,形成的就是一片模糊的弥散条带。

  • 这篇文章中他们首先做的是确保数据与捐赠者对应。通过ATAC-seq的基因型与其对应的捐赠者的SNP芯片的基因型的相关性分析确保ATAC-seq的数据与捐赠者对应。
  • 然后也有核小体片段特征图。片段大小的分布特征具有明显的核小体周期性分布,数据质量符合要求。


    Pan-cancer ATAC-seq data from frozen tissues is high quality and internally robust

下面就是数据分析了

2. 鉴定到多少DNA调控元件

call peaks 后对peaks数目统计,当然对peaks数目统计前也会做质控,只保留重复性好的peaks。 通过对410个肿瘤样本的23种肿瘤类型(其中386个样本有技术重复)进行ATAC-seq分析,共绘制出796个染色质可及性图谱,鉴定到 562,709个调控元件,即ATAC-seq数据分析中对peaks数目统计,共有562,709个可重复、转座酶可接近的染色质可及性位点。其中562,709peaks是总的数目,实际每种癌症类型的peaks数目从 56,125 到215,978,数目不等。

肿瘤类型、样本数量和peaks的基因组分布特征和数量

  • ATAC-seq peaks与Roadmap DNase peaks的overlapy以及与chromHMM-defined regulatory states的overlap
    另外,将ATAC-seq得到的肿瘤特异的peaks与Roadmap Epigenetics project中DNase-seq测序得到peaks比较,该研究中的peaks与以往发现的调控元件共有65%的overlap。该结果一表明了此研究中观测到的调控元件与以往研究中的一致性,二揭示了肿瘤样本中新的染色质可及性敏感位点。
    Overlap of cancer type-specific ATAC-seq peaks with Roadmap DNase-seq peaks

3. ATAC-seq远端元件,promotor,RNA-seq得到的表达矩阵聚类

对远端元件和启动子,还有RNA-Seq的表达量做Pearsn相关性层次聚类,远端元件展现出更好的肿瘤特异性

远端元件、启动子、RNA-seq相关性聚类比较

4. 聚类、肿瘤亚型分型、鉴定cluster-specific peaks

取所有肿瘤类型中变化大的250,000 peaks的top 50主成分进行t-SNE聚类,鉴定到18个模块,且发现基于ATAC-seq的聚类与用TCGA中mRNA-seq, miRNA–seq, DNA 甲基化 reverse-phase protein array (RPPA)和DNA拷贝数数据做iCluster的结果高度一致。聚类的结果表明一些癌症被分成两个模块,如乳腺癌分为基底和非基底的,食管癌分为鳞癌和腺癌;来自相同组织的肿瘤样本经常聚在一起,如肾透明细胞癌和肾乳头状细胞癌;有的是不同组织相同类型的肿瘤聚在一起,如鳞癌。

Fig. 2. Chromatin accessibility profiles reveal distinct molecular subtypes of cancers

5. cluster-specific peaks的远端元件、motif和甲基化分析

远端调控元件和TFs都展现出组织和肿瘤特异性。


cluster-specific peaks相关的远端元件和TF

6. Footprinting分析TF的活动

转录因子对染色质可及性和肿瘤的产生和转移有什么影响?首先做的是TF的足迹分析。
理解几个概念:

  • TF footprint:当一个或多个核小体的移位时在侧翼序列中会产生高DNA可及性,而TF与DNA的结合会保护蛋白质-DNA结合位点免于转位。这种现象认为是TF footprint。
  • Flanking Accessbility: a measure of the accessibility of the DNA adjacent to a TF motif;
  • Footprint Depth: a measure of the relative protection of the motif site from transposition
    这篇文章用了两种TF 足迹的分析方法:
  • 1) quantifies the “flanking accessibility(doi: 10.1016/j.celrep.2017.05.003);
  • 2) ChromVAR:( doi:10.1038/nmeth.4401)
    两种方法的得到TFs高度重合。

    结论:
  • 一个TF如果能够与DNA结合,那么footprint depth 和 flanking accessibility 与其基因表达显著相关
  • flanking accessibility的增高和footprint depth的降低可能伴随着甲基化水平的降低


7. DNA调控元件与基因的相互作用

为了识别鉴定ATAC-seq peaks和基因表达之间的假定因果联系,他们基于相关性的方法建立模型进行预测。具体方法如下图所示:


8. 突变是如何影响染色质可及性和肿瘤的发生?

这篇文章其中的一个亮点是揭示了调控元件处的突变影响着染色质的可及性,如突变通过影响转录因子的结合调控染色质的可及性。他们通过整合WGS数据和ATAC-seq数据,鉴定到上千个体细胞突变落在启动子区域和调控元件区域。如TERT启动子区域的突变,这也表明ATAC-seq与外显子测序相比,可以鉴定调控元件处的突变,而WES是不包括启动子区域。

WGS与ATAC的联合分析

除了TERT启动子处的突变,还有增强子的突变,如FGD4。eFGD4的突变产生NKK TF的结合位点,导致在FGD4上游12-kb区域内的染色质可及性大幅增加。FGD4的高表达与膀胱癌低生存率显著相关,进一步表明FGD4的突变可能对特定癌症产生影响。
WGS与ATAC的联合分析

除了体细胞突变,他们还整合了GWAS数据,发现MYC位点附近有两个肿瘤易感性SNP位点rs6983267和rs35252396。其中SNP rs6983267与结肠癌和前列腺癌的染色质可及性增强相关,该结果与以往报道一致,同时也与乳腺癌和鳞癌染色质可及性相关,后者是之前研究没有发现的。另一个SNP位点rs35252396与肾透明细胞癌(KIRC)、乳腺癌、甲状腺癌的染色质可及性有强烈的相关性。这些结果都表明SNP可能在肿瘤中扮演者潜在的重要作用。

GWAS和ATAC-seq联合分析

9. 鉴定与肿瘤免疫治疗相关的DNA调控元件

他们基于已知的免疫细胞特异性调节元件的可及性来估计免疫浸润的水平。这些区域的可及性还与肿瘤纯度成反比,为去卷积体瘤数据提供了附加信息。
同时他们还研究了与免疫治疗的一个重要靶标PDL1相关的峰值,PDL1的表达受50kb之内的四种调控元件的影响,并且不同癌症类型的可及性不同。了解PDL1和其他药物靶点的调节元件的状态或许可以为个性化治疗提供一个路径。


推荐阅读更多精彩内容