转录组分析 | 使用FastQC进行数据质控

随着测序成本的不断降低,RNA-seq已经是许多实验的标配。经过小编一段时间的准备,接下来的几周时间里,将推出一系列的转录组分析教程,教大家从零开始学习转录组分析,欢迎大家持续关注!

在拿到测序数据后,我们首先要了解手中数据的质量,因为测序的质量直接影响下游分析的准确性,所以在我们进行转录组数据分析前,第一步应该判断测序质量的好坏。

判断测序数据质量的工具有很多,今天教大家用FastQC 检测测序数据的质量。

## 下载FastQC
wget -c http://www.bioinformatics.babraham.ac.uk/projects/fastqc/fastqc_v0.11.8.zip
## 解压
unzip fastqc_v0.11.8.zip
## 进入目录
cd FastQC
## 运行FastQC
./fastqc seq1.fq.gz seq2.fq.gz -o output_dir -t threads

-o:输出文件目录

-t:线程数

运行完FastQC以后,输出目录下会产生一个fastqc.html文件,我们可以打开该文件来评估测序数据的质量。

FastQC产生的结果文件中主要包含以下几个指标:

其中绿色代表通过质控(质量高),橙色代表警告(质量一般,数据还可以用),红色代表未通过质控(质量差,需要确定一下该指标未通过的原因)。

指标1:基本统计信息

表格展示了我们数据的基本信息。从表格里我们可以得出fastq文件的测序平台,总reads数,reads长度和GC含量等信息。

指标2:碱基测序质量

图中横坐标表示每条reads上碱基的位置,由图可知,我们的reads长150。纵坐标表示碱基的质量值QUAL,该QUAL=-10*log10(碱基错误率),如果QUAL为20,则表示该处碱基测序错误率为1%(0.01),如果QUAL为30,则表示该处碱基测序错误率为0.1%(0.001)。黄色的箱形图表示所有reads在这个位置的质量值分布,箱形图上的红线代表质量值的中位数,蓝线代表质量值的平均数。一般来说,reads末端的碱基质量值会低一些,但是只要没有大面积的碱基质量低于20,问题都不是很大。如果一些位置碱基质量太低的话,可以考虑去掉。

指标3:每条reads的碱基质量平均值

图中横坐标表示每条reads的碱基质量平均值,纵坐标表示reads数。由图可知,大部分reads的碱基质量平均值集中在36左右,几乎全部reads的碱基质量平均值都在20以上,说明测序质量非常好。

指标4:碱基分布情况

图中横坐标表示每条reads上碱基的位置,纵坐标表示每种碱基在该位置数量的百分比。一般来说,如果测序过程是随机的话,A和T的比例应该相近,C与G的比例也应该相近,像图中9bp前出现的碱基比例波动其实是不正常的,可以考虑将其切掉。但如果大家发现自己的数据只是前2bp有波动,其实数据还是可以的,因为测序开始时,状态不稳定,很容易产生波动。

指标5:GC含量统计

图中横坐标为reads的GC含量,纵坐标是reads的数目。蓝线是GC含量理论值,红线是实际值。一般来说两个曲线越接近数据质量越好。像上图这种情况,有可能是某些区域被反复测序导致的。

指标6:N碱基含量

图中横坐标表示每条reads上碱基的位置。纵坐标表示N碱基的百分比。理论上N碱基应该如图所示,基本是不存在的。

指标7:reads长度分布

图中横坐标表示reads的长度,纵坐标表示reads的数量。由图可知,数据里reads的长度集中在150bp,未出现极短的reads,说明数据质量较好。

指标8:重复序列比例

图中横坐标表示reads重复次数,纵坐标表示reads比例。蓝线表示所有reads的分布情况,红线表示去重后reads的分布情况。如果含有的重复序列超过50%,说明测序数据可能有一些问题。

指标9:过表达序列

过表达序列指大量重复出现的序列,图中显示无过表达序列,说明测序质量很好。

指标10:接头序列

图中横坐标表示每条reads上碱基的位置。纵坐标表示接头序列碱基的百分比。图中显示数据中不含接头序列。


通过以上10个指标对测序数据进行初步评估,我们就可以对自己数据的质量有一个大概了解,进入下一步的分析阶段。

如果对以上步骤有任何疑问,可以随时在后台与小编交流~


参考资料:

https://zhuanlan.zhihu.com/p/28802083

https://www.jianshu.com/p/fe6af418a8bc

http://blog.sciencenet.cn/blog-3406804-1161193.html

http://www.bioinformatics.babraham.ac.uk/projects/fastqc/Help/3+Analysis+Modules/

欢迎关注微信公众号“生信小王子 ”,里面干货更多哦~