ChIP-seq数据比对注意事项

刘小泽写于2020.5.6
首先是ChIP-seq分析的前言介绍部分:
1:了解ChIP-seq的实验流程
2:继续了解ChIP-seq
3:关于ChIP-seq的实验对照与偏差来源
4:ChIP-seq的实验设计补充
5:ChIP-seq数据库及实战数据介绍
然后开始实战部分:
6:ChIP-seq计算资源准备与实战数据下载
7:ChIP-seq数据质控和过滤
这一次将介绍不同的比对方法和参数设置注意事项

比对的目的很简单,就是“追根溯源”,看看我们过滤后的reads能匹配到基因组的什么位置。

面临的挑战有:

  • 基因组很大(比如人类的有30亿碱基对,也就是60亿碱基)
  • 测序的reads数量很多(30M就是三千万条reads)
  • 测序read和基因组之间并非严丝合缝,中间肯定有不匹配的碱基(可能是测序错误,也有可能是就是和参考基因组不同,存在变异位点),那么到底存在几个mismatch才算匹配成功呢?

1 介绍比对方法和工具

ChIP-seq属于DNA测序,得到的reads应使用:连续短序列比对工具(contiguous short read mappers),一般采用的方法是:种子序列定位及延伸(seed-and-extend)

  • 第一:通过扫描参考基因组序列,对参考基因组序列建立哈希表,将序列分成一定长度的小片段(k-mer),这种小片段也被称之为种子。根据算法,seed可以完全和基因组匹配或者允许存在一些错配(mismatch)
  • 第二:在目标序列中查找和种子序列相同的片段并标记,以这些标记点为锚点向左右最大限度延伸,并且中间不能有gap
  • 第三:将不合条件的舍弃,符合条件的结果将输出保存。

一篇中文文章:四种常用的生物序列比对软件比较http://swxxx.alljournals.cn/html/2016/1/20160110.html

不同软件的算法在比对层面(sensitivity and precision)和运算层面(消耗的时间和内存)各异;并且选择的seed长度不同,比对和运算结果也不同,一般来讲,短的seed可以提高比对的敏感度,而长的seed可以提高比对速度;大部分算法都会给比对结果提供一个质量值(在SAM/BAM的结果有体现)

关于不同的工具,在这一篇:Ye, H., Meehan, J. et al. (2015). Alignment of Short Reads: A Crucial Step for Application of Next-Generation Sequencing Data in Precision Medicine(https://www.ncbi.nlm.nih.gov/pmc/articles/PMC4695832/)中有介绍,ChIP-seq使用比较多的是Bowtie2,它兼顾了准确性和速度,消耗内存也较小,还支持三代测序的比对;除此以外,BWA作为ENCODE计划使用的比对工具表现也很好。

2 参数设置与注意事项

2.1 错配 mismatch

由于测序存在一定的错误率,还存在一些SNV(single nucleotide variants)的存在,一些reads不会完美比对到参考基因组。但为了不丢失这些测序数据,比对时就可以运行一定数量的错配存在。

关于测序错误率:

一代测序:测序读长长,能达到800-1K bp,且测序用时短,测序准确度高准确性高达99.999%
Illumina二代测序:低于0.1%
三代测序:错误率12-15%

关于SNV:

A single-nucleotide variant (SNV) is a variation in a single nucleotide without any limitations of frequency and may arise in somatic cells. A somatic single-nucleotide variation (e.g., caused by cancer) may also be called a single-nucleotide alteration.

错配设定的阈值取决于样本类型和进行的实验,大部分比对软件都支持以下方式:

  • 使用固定的数字:直接指定每次比对允许的错配数
  • 使用相对的比例:根据read 长度设定错配出现的比例

如果是存在变异的细胞(如癌细胞)进行的ChIP-seq或者有些非模式物种参考基因组质量比较低,那么可以允许更多的错配数;另外还要根据不同测序平台的错误率进行调整这个阈值

2.2 多重比对 Multi-mapping

多重比对就是指reads同时比对到了基因组的多个位置,并且比对质量都不错,尤其在短序列比对中比较明显。一般这种模糊比对的来源是基因组上的重复区域,例如人类基因组上有超过10%的是Alu元件;另外在植物中,串联重复事件的发生频率比较高,例如拟南芥的全基因组重复也会形成重复区域

Alu元件:Alu element是人类基因组中一组散在分布的相关序列,每个长约300bp,由两段130bp的重复序列与一段31bp的间隔序列构成,两侧各有一段6~20bp的正向重复序列,不含反转录酶的编码序列。单个成员的每个末端上有Alu(藤黄节杆菌的缩写)限制酶的切割位点,并由此命名。Alu元件是人类基因组中丰度最高的转座元件

处理这种多重比对,比较保守的办法就是指保留唯一比对的reads;如果要考虑这部分多重比对的reads,有时会将所有的多重比对reads(这样会导致比对结果的条目超过reads数)或者随机选择一条reads作为结果。

ChIP-seq的DNA片段一般在200bp左右,如果有许多reads唯一比对到了较短的重复区域,那么这个结合位点依然能够被捕获到。如果认为的确存在这种情况,那么可以再加上与重复序列数据库Repbase(https://www.girinst.org/server/RepBase/index.php)的比对,一般能得到更高的覆盖度并且对重复区域可以更准确地统计【但这个数据库需要所在机构的订阅】

注释基因组重复序列的RepeatMasker 这款软件就是基于了这个数据库:RepeatMasker makes use of curated libraries of repeats and currently supports Dfam ( profile HMM library derived from Repbase sequences ) and Repbase, a service of the Genetic Information Research Institute.

2.3 其他参数

基因组版本

大部分参考基因组都有许多版本,一般的建议是使用最新版。参考基因组中一般只包含常见的染色体就好(例如人类的chr1-22,X,Y,M),一些未完全组装的scaffold区域可以不要,避免对比对产生干扰。

如果研究物种没有参考基因组,可以试着比对到近缘物种基因组。不过这种情况下,可以指定允许更高的容错能力(调高mismatch参数),毕竟同源基因组还是存在很多的不同。
另外,还可以根据ChIP-seq的reads自己拼接(就像无参转录组的操作),感兴趣的可以看看:He, X., Cicek, A.E. et al. (2015). De novo ChIP-seq analysis

单端与双端测序

大部分的ChIP-seq是单端测序的,不过如果能够双端测序,可以提高一些比对的准确度,相比单端,唯一比对率又会有所提高

关于Soft-clipping

看之前这一篇:SAM/BAM的CIGAR重难点知识


欢迎关注我们的公众号~_~  
我们是两个农转生信的小硕,打造生信星球,想让它成为一个不拽术语、通俗易懂的生信知识平台。需要帮助或提出意见请后台留言或发送邮件到jieandze1314@gmail.com

Welcome to our bioinfoplanet!

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 160,026评论 4 364
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 67,655评论 1 296
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 109,726评论 0 244
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 44,204评论 0 213
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 52,558评论 3 287
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 40,731评论 1 222
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 31,944评论 2 314
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 30,698评论 0 203
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 34,438评论 1 246
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 30,633评论 2 247
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 32,125评论 1 260
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 28,444评论 3 255
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 33,137评论 3 238
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 26,103评论 0 8
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 26,888评论 0 197
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 35,772评论 2 276
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 35,669评论 2 271