FastQC

A quality control tool for high throughput sequence data.

FastQC是JAVA语言编写的能够对高通量测序数据进行质控的软件。

其主要提供如下功能:

1. 可以快速的评估测序质量,并以丰富的图表形式展示。

2. 线下操作,参数简单,直接生成HTML版结果报告。

3. 输入文件格式丰富,BAM、SAM、FastQ等。

文档地址:http://www.bioinformatics.babraham.ac.uk/projects/fastqc/Help/


首先看一下官方给出的结果文件示例(Illumina结果示例),同时官方给出了不同测序文件的结果示例(结果示例

重点说明一下:不同测序得到的结果也不一样,结果中reads或是碱基的组成和分布也不一样,应该根据具体问题具体分析。

【下面的运行结果示例是按照人重WGS的分析结果进行展示的】


fastqc的运行命令

fastqc seqfile1 seqfile2 .. seqfileN

fastqc [-o output dir] [--(no)extract] [-f fastq|bam|sam] [-c contaminant file] seqfile1 .. seqfileN

-o 结果输出目录,需要预先创建,程序不会自动创建,-f 指定文件格式,默认程序自动检测,-c 指定可以污染序列,文件需要预先建立,后面指定输入文件。-q  quiet 运行提示要不要显示。

运行结束后,保存至输入文件的命名的zip文件中

解压后,目录文件如下图所示:


其中 fastqc_data.txt里面保留了运行过程中计算得到的指标参数,summary.txt中保留了每个运行指标的通过情况

查看html格式的结果报告。结果分为如下几项:


summary

结果绿色的"PASS",黄色的"WARN"和红色的"FAIL"。

1. Basic statistics(基本统计)

如下面例子所示:


2. Per base sequence quality(每个碱基序列的质量)

quality就是Fred值,-10*log10(p),p为测错的概率。所以一条reads某位置出错概率为0.01时,其quality就是20。quality越高,其出错概率越低,结果如下图:


 Per base sequence quality

横轴代表read中碱基位置,纵轴quality。若任一位置的下四分位数低于10或中位数低于25,报"WARN";若任一位置的下四分位数低于5或中位数低于20,报"FAIL".

3 .Per Sequence Quality Scores

每条reads的quality的均值的分布:


横轴为quality,纵轴是reads数目。当出现上图的情况时,我们就会知道有一部分reads具有比较差的质量。当峰值小于27(错误率0.2%)时报"WARN",当峰值小于20(错误率1%)时报"FAIL"。

4 .Per Base Sequence Content

对所有reads的每一个位置,统计ATCG四种碱基(正常情况)的分布:


横轴为reads碱基位置,纵轴为含量百分比。 正常情况下四种碱基的出现频率应该是接近的,而且没有位置差异。因此好的样本中四条线应该平行且接近。当部分位置碱基的比例出现bias时,即四条线在某些位置纷乱交织,往往提示我们有overrepresented sequence的污染。当所有位置的碱基比例一致的表现出bias时,即四条线平行但分开,往往代表文库有bias (建库过程或本身特点),或者是测序中的系统误差。此处可以大致看出WES、WGS、RNA-Seq、WGBS等碱基的组成差异。当任一位置的A/T比例与G/C比例相差超过10%,报"WARN";当任一位置的A/T比例与G/C比例相差超过20%,报"FAIL"。

5 .Per Sequence GC Content

reads的平均GC含量的分布。

红线是实际情况,蓝线是理论分布(正态分布,均值不一定在50%,而是由平均GC含量推断的)。 曲线形状的偏差往往是由于文库的污染或是部分reads构成的子集有偏差(overrepresented reads)。形状接近正态但偏离理论分布的情况提示我们可能有系统偏差。偏离理论分布的reads超过15%时,报"WARN";偏离理论分布的reads超过30%时,报"FAIL"。

6 .Per Base N Content

当测序仪器不能辨别某条reads的某个位置到底是什么碱基时,就会产生“N”。对所有reads的每个位置,统计N的比率:

正常情况下N的比例是很小的,所以图上常常看到一条直线,当Y轴在0%-100%的范围内也能看到“突起”时,说明测序系统出了问题。当任意位置的N的比例超过5%,报"WARN";当任意位置的N的比例超过20%,报"FAIL"。

7 .Sequence Length Distribution


当reads长度不一致时报"WARN";当有长度为0的read时报“FAIL”。

8. Duplicate Sequences

统计序列完全一样的reads的频率。测序深度越高,越容易产生一定程度的duplication,这是正常的现象,但如果duplication的程度很高,就提示我们可能有bias的存在(如建库过程中的PCR duplication)。

横坐标是duplication的次数,纵坐标是duplicated reads的数目。当非unique的reads占总数的比例大于20%时,报"WARN";当非unique的reads占总数的比例大于50%时,报"FAIL“。

fastuniq可以帮助去除测序结果中的重复的reads,由此可以减少后续分析(variant calling)的假阳性结果。作为对比,处理之后的重复分布情况如下图



9. Overrepresented Sequences

如果有某个序列出现次数“太多”,就叫做over-represented。为了计算方便,只取了fq数据的前200K条reads进行统计,所以有可能over-represented reads不在里面。而且只取50bp。如果命令行中加入了-c contaminant file,出现的over-represented sequence会从contaminant_file里面找匹配的hit(至少20bp且最多一个mismatch),可以给我们一些线索。当发现超过总reads数0.1%的reads时报”WARN“,当发现超过总reads数1%的reads时报”FAIL“。

参考来源:

http://www.bioinformatics.babraham.ac.uk/projects/fastqc/

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 162,710评论 4 376
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 68,839评论 2 308
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 112,295评论 0 255
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 44,776评论 0 223
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 53,198评论 3 297
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 41,074评论 1 226
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 32,200评论 2 322
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 30,986评论 0 214
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 34,733评论 1 250
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 30,877评论 2 254
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 32,348评论 1 265
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 28,675评论 3 265
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 33,393评论 3 246
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 26,209评论 0 9
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 26,996评论 0 201
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 36,212评论 2 287
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 36,003评论 2 280

推荐阅读更多精彩内容

  • 当二代测序的原始数据拿到手之后,第一步要做的就是看一看原始reads的质量。常用的工具就是fastqc (http...
    BeautifulSoulpy阅读 19,915评论 0 31
  • 这是一个基于java的分析程序,可以输入FastQ,BAM,SAM等格式的数据文件,然后程序将进行一系列评估分析。...
    晓佥阅读 12,212评论 0 9
  • FastQC - A high throughput sequence QC analysis tool fast...
    JeremyL阅读 15,734评论 0 23
  • 拿到测序数据后我们首先要进行质量评估(Quality Control),常用的工具就是FastQC。FastQC的...
    oddxix阅读 6,520评论 0 23
  • 久违的晴天,家长会。 家长大会开好到教室时,离放学已经没多少时间了。班主任说已经安排了三个家长分享经验。 放学铃声...
    飘雪儿5阅读 7,402评论 16 21