第5篇:对ATAC-Seq/ChIP-seq的质量评估(二)——ChIPQC

1. 学习目标

  • 讨论ChIP-seq数据质量评估的其他方法
  • 用ChIPQC产生质量统计报告
  • 鉴定低质量数据的来源
    概览图
    Additional Quality Metrics for ChIP-seq data

    ENCODE评估数据质量采用多种指标,如前面已经讨论过的链相关的指标NSC和RSC。这一节将会讨论评估信号分布的其他指标。

NOTE:这里给出的评估指标只是反映数据质量的好坏,符合阈值的并不意味着实验是成功的,不符合阈值的也不一定意味着失败。

2.常见质量评估指标的介绍

  • SSD

SSD值是对富集效果的评估。SSD值依赖于全基因组的pile-up信号强度,对真实的ChIP富集和干扰的强信号区域都很敏感。SSD值越大表明富集越好。

“It provides a measure of pileup across the genome and is computed by looking at the standard deviation of signal pile-up along the genome normalised to the total number of reads. ”

  • FRiP:Fraction of reads in peaks

FRiP表示的是peaks中的reads与总reads的比例。它是另一个反映样本富集效果或IP好坏的评价指标。可以理解为是“信噪比”即文库中结合位点片段占背景reads的比例。一个典型质量好的TF富集FRiP值约5%或者更高,polII的FRiP值约为30%或者更高,也有一些质量好的数据FRiP值<1%(如RNAPIII)

  • Relative Enrichment of Genomic Intervals (REGI)

REGI是对peaks在不同基因组特征位点分布的统计。

  • RiBL: Reads overlapping in Blacklisted Regions

过滤人工造成的高信号区域非常重要,如ENCIDE和modENCODE提供的DAC Blacklisted Regions track。这些区域经常在特定的重复序列处出现,如着丝粒、端粒、卫星重复序列等,通过简单的比对过滤是不能去除的。来自blacklisted regions的信号会造成call peak 和片段长度评估的混淆。
RiBL值可以表示背景信号或input的信号水平,与input sample的SSD值以及input和ChIP sample的读长覆盖值相关。这些区域通常是基因组的0.5%,或者更高的比例(10%)。


3. ChIPQC: quality metrics report

ChIPQC是一个Bioconductor包,输入文件包括BAM和peak文件,可以自动计算一些质量评估值,并产生质量报告。

准备数据

  • BAM files
    首先对比对过滤后的bam数据(chr12_aln.bam)建索引,然后将bam和index文件从~/ngs_course/chipseq/results/bowtie2移动到自己的目录文件夹data/bams

  • peak files
    将narrowPeak 文件从macs2目录下~/ngs_course/chipseq/results/macs2 移动到自己目录下data/peakcalls

  • sampleSheet file
    sampleSheet file是唯一需要自己根据实验设计和数据存储地址等信息创建的一个csv格式文件(bam,peak文件分别在比对和call peak的步骤产生)。sampleSheet具体需要包含的信息如下:

    sampleSheet header

  • SampleID: 样本ID

  • Tissue, Factor, Condition: 不同的实验设计对照信息,三列信息必须包含在sampleSheet里,如果没有某一列的信息设为NA。

  • Replicate : 重复样本的编号

  • bamReads : 实验组BAM 文件的路径(data/bams)

  • ControlID : 对照组样本ID

  • bamControl :对照组样本的bam文件路径

  • Peaks :样本peaks文件的路径

  • PeakCaller :peak类型的字符串,可以是raw,bed,narrow,macs等。

下载安装ChIPQC

source("http://bioconductor.org/biocLite.R")
biocLite("ChIPQC")

Running ChIPQC

ChIPQC只需要三步就可以完成质量评估和报告生成。

  • 首先载入包和sampleSheet信息
## Load libraries
library(ChIPQC)
## Load sample data
samples <- read.csv('meta/samplesheet_chr12.csv')
View(samples)
  • 创建ChIPQC对象
    利用sampleSheet的信息读取每个样本的bam和narrowpeak文件,并计算质量评估值,结果存在一个对象里。
## Create ChIPQC object
chipObj <- ChIPQC(samples, annotation="hg19") 
  • 生成ChIPQC报告
## Create ChIPQC report
ChIPQCreport(chipObj, reportName="ChIP QC report: Nanog and Pou5f1", reportFolder="ChIPQCreport")

ChIPQC报告解读

ChIPQC生成的结果包含一个网页报告和报告中含有的所有图片。
网页报告有三部分:QC Summary ;QC Results;QC files and versions

(1)QC Summary - Overview of results
Table 1

QC summary包含sampleSheet里填写的样本的基本信息Tissue,Factor,Condition,Replicate。另外还有上面提到的质量评估的常用指标SSD、RiP%和RiBL值。越高的SSD值表明富集效果越好,Pou5f1样本(2.6,3)有较高的SSD值,RiBL值不是很高,FRiP的比例在5%附近或者更高,除了Pou5f1-rep2。

  • SSD - SSD score (htSeqTools)
  • RIP% - Percentage of reads wthin peaks
  • RIBL% - Percentage of reads wthin Blacklist regions
    同时表格中还给出了其他统计信息:
  • Reads - Number of sample reads within analysed chromosomes.
  • Dup% - Percentage of MapQ filter passing reads marked as duplicates
  • FragLen - Estimated fragment length by cross-coverage method
  • FragLenCC - Cross-Coverage score at the fragment length
  • RelativeCC - Cross-coverage score at the fragment length over Cross-coverage at the read length
(2)QC Results - Full QC results and figures
  • Mapping, Filtering and Duplication rate
    第一部分是比对、过滤和重复率质检结果,包括Table2 、Figure1和Figure2。
    Table 2主要给出了比对质量和重复率,因为BAM文件是过滤后的,所以这里Dup%都是0.
    Table 2
  • Total Dup%-Percentage of all mapped reads which are marked as duplicates.
  • Pass MapQ Filter%-Percentage of all mapped reads whichpass MapQ quality filter
  • Pass MapQ Filter and Dup%-Percentage of all reads which pass MapQ filter and are marked asduplicates.

Figure 1展现了reads在blacklists中的比例,

Figure 1. Barplot of the percentage of reads in blacklists

Figure 2是用基因组注释呈现了reads在基因组特征位置如启动子的分布。这幅图里显示在启动子区域富集最明显。

Figure 2 Heatmap of log2 enrichment of reads in genomic features

  • ChIP signal Distribution and Structure
    第二部分是ChIP信号分布和结构组成,包括Figure3和4。
    Figure 3是一个coverage plot, x轴代表在某bp位置read pileup的高度,y轴代表有多少位置有相同的pileup 高度(取log)。**有好的富集的ChIP样本会有一个tail,即更多的位置(y值大)有较高的测序深度。在我们的数据集中Nanog样本与Pou5f1 相比有较高的tails,尤其是重复样本2。但是Pou5f1有较高的SSD值。当SSD高但是coverage看起来低时,可能是存在大片段深度高的区域出现在blacklist 基因组区域。
    Figure 3. Plot of the log2 base pairs of genome at differing read depths
  • Peak Profile and ChIP Enrichment
    第3部分是peak的谱图和ChIP的富集,每个peak都集中在summit位置(summit 理解为peak的最高峰值点处)
    Figure 5. Plot of the average signal profile across peaks

    peak的性状取决于研究对象的类型,如转录因子、组蛋白标记、或其他DNA结合蛋白如聚合酶等,相同类型的对象通常有独特特征的谱图。
    Figure6和7都是对比对到peak中的reads统计。富集效果好的ChIP样本的reads与peaks会有高比例的重合。尽管Nanog有较高的RiP,但是两个重复样本间的差异大于Pou5f1。
    Figure 6. Barplot of the percentage number of reads in peaks

    Figure 7. Density plot of the number of reads in peaks

    Figure8和9表示样本的聚类效果,分别是相关性聚类热图和PCA。
    Figure 8. Plot of correlation between peaksets

    Figure 9. PCA of peaksets

4. 实验偏差:ChIP-seq数据质量低的来源

  • 免疫沉淀的特异性和有效性
    影响因素如抗体的特异性,结和沉淀的强度
  • 片段化
    超声裂解产生不同大小的片段可能引入偏差
  • 文库构建时的偏差
    如PCR扩增

参考资料:

哈佛深度NGS数据分析课程
05-ChIP-Seq Quality Assessment

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 158,847评论 4 362
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 67,208评论 1 292
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 108,587评论 0 243
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 43,942评论 0 205
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 52,332评论 3 287
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 40,587评论 1 218
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 31,853评论 2 312
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 30,568评论 0 198
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 34,273评论 1 242
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 30,542评论 2 246
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 32,033评论 1 260
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 28,373评论 2 253
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 33,031评论 3 236
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 26,073评论 0 8
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 26,830评论 0 195
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 35,628评论 2 274
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 35,537评论 2 269

推荐阅读更多精彩内容