高通量测序数据处理学习记录(六):什么是测序深度和测序覆盖度?

前言

Sequencing depth and coverage: key considerations in genomic analyses.

现在接触销售人员进行二代测序,挂在嘴边的就是我们公司可以测多少X,即使是做了一段时间的分析的我有时候还是会疑惑,sequencing depth和covergae的区别是什么,正确的计算方法是什么,不同的二代测序技术不同的动物模型需要测多少X才合适。下面我就简单的记录一下自己的学习记录。

结论

现在大家喜欢直接看结果,那我就直接抛出一个计算网站:
calculator
输入读段长度,测序类型和基因组大小,就可以根据读段数计算深度

正文

Sequencing depth and coverage: key considerations in genomic analyses
这篇文章就是对这个问题的一个详细讨论,下面我给大家翻译翻译。

简单翻译

key point

首先看截图,我们可以知道,测序深度的计算公式为LN/G,L就是读段长度,N是读段数目,G是基因组大小。

举例来说,人类基因组3.1G,一个RNA-seq的reads数据为20M,数据为paired-end,读长150bp,那么测序深度就是20M2150/3.1G= 2 X

那我们再来讨论一下sequencing depth 和 sequencing coverage的区别
事实上没有区别,若是真要讲个说法,那就是coverage可以理解为检测到全基因组的多少区域(百分比,最大值为100%),但是sequencing covergae指的就是depth of sequencing coverage也就是sequencing depth,反映了一个区域被平均多少个reads检测到。
另外breadth of coverage需要区别一下,就是将全基因组大小换成target region作为分母计算上面那个公司,


以下为高通量测序数据处理系列快速通道:

高通量测序数据处理学习记录(零):NGS分析如何选择合适的参考基因组和注释文件

高通量测序数据处理学习记录(一):比对软件STAR的使用

高通量测序数据处理学习记录(二):Read Counts的提取

高通量测序数据处理学习记录(三):Pathway Analysis及GSEA

高通量测序数据处理学习记录(四):DeepTools学习笔记

高通量测序数据处理学习记录(五):上传二代测序数据到GEO

高通量测序数据处理学习记录(六):什么是测序深度和测序覆盖度?

高通量测序数据处理学习记录(七):使用ChIPQC包检查ChIP-seq的质量