基因组组装(全)

  • 基因组组装一般分为三个层次,contig, scaffold和chromosomes.

contig表示从大规模测序得到的短读(reads)中找到的一致性序列。组装的第一步就是从短片段(pair-end)文库中组装出contig。进一步基于不同长度的大片段(mate-pair)文库,将原本孤立的contig按序前后连接,这一步会得到scaffolds。最后基于遗传图谱或光学图谱将scaffold合并调整,形成染色体级别的组装(chromosome)

一. 下载短序列

  • 首先到Microbiology Resource Annocements(https://mra.asm.org)上找到需要下载reads的SRA号,比如我们找到两篇文章中的SRA号,分别为 SRR020180 和 SRR028694

  • prefetch下载序列:下载的SRA文件默认保存在/ncbi/public/sra中

prefetch SRR020180
prefetch  SRR028694

结果


1.PNG

5.PNG

6.PNG
  • fasterq -dump解压sra文件,将sra文件转化为fastq文件
    也可以用fastq -dump命令,但相对于fasterq -dump,fastq -dump的速度太慢了

--split-spot: 将双端测序分为两份,但是都放在同一个文件中
--split-files: 将双端测序分为两份,放在不同的文件,但是对于一方有而一方没有的reads直接丢弃
--split-3 : 将双端测序分为两份,放在不同的文件,但是对于一方有而一方没有的reads会单独放在一个文件夹里

fastq-dump --gzip --split-3 SRR020180.sra
fastq-dump --gzip --split-3 SRR028694.sra

结果:看到两个SRA文件都分别只生成了一个文件,所以两个SRA文件都是单端测序的结果


1.PNG
2.PNG

二. Fastqc质控

FastQC可以快速地对测序数据进行质量评估

  • 输入fastqc -h可以查看fastqc的基本使用参数


    10.PNG

-o --outdir 生成的报告文件的存储路径
--(no)extract 是否将生成的报告打包成一个压缩文件
--c contaminant file 污染序列选项
-t --threads 选择程序运行的线程数
-q --quiet 安静运行模式,不设置这个参数时,程序实时报告运行状况

  • 对fastq文件进行质控检验
fastqc SRR020180.fastq.gz
fastqc SRR028694.fastq.gz

结果


11.PNG

红色:数据质量很差
黄色:数据质量一般
绿色:数据质量很好

SRR020180:


12.PNG

SRR028694:


13.PNG

可以看到第二条序列的质量很差,我们接下来需要进行数据的过滤

三. Trimmomatic数据过滤

Trimmomatic 支持多线程,处理数据速度快,主要用来去除 Illumina 平台的 Fastq 序列中的接头,并根据碱基质量值对 Fastq 进行修剪。

  • 运行命令行查看Trimmomatic的使用方法
java -jar ~/Trimmomatic-0.38/trimmomatic-0.38.jar
3.PNG

Trimmomatic有两种过滤模式,分别对应 SE 和 PE 测序数据。SE指单末端测序模式,过滤单端测序产生的数据,PE指双末端测序模式,过滤双端测序产生的数据。

之前在fast-dump解压后两个SAR文件都分别只有一个输出文件,所以2个序列都为单端测序产生的序列,所以我们这里选择SE模式。

 java -jar ~/Trimmomatic-0.38/trimmomatic-0.38.jar SE -phred33 SRR020180.fastq.gz SRR020180_clean.fastq.gz ILLUMINACLIP:/Trimmomatic-0.38/adaptersTruSeq3-SE.fa:2:30:10 SLIDINGWINDOW:5:20 LEADING:5 TRAILING:5 MINLEN:50
java -jar ~/Trimmomatic-0.38/trimmomatic-0.38.jar SE -phred33 SRR028694.fastq.gz SRR028694_clean.fastq.gz ILLUMINACLIP:/Trimmomatic-0.38/adaptersTruSeq3-SE.fa:2:30:10 SLIDINGWINDOW:5:20 LEADING:5 TRAILING:5 MINLEN:50

参数:
—— phred33:指质量值体系为phred33,还有phred64,如果不设置默认为phred64,但因为现在基本都用phred33的了,所以这里一定要设置

—— SRR020180.fastq.gz:输入文件
—— SRR020180_clean.fastq.gz:输出文件

—— ILLUMINACLIP:过滤 reads 中的 Illumina 测序接头和引物序列。TruSeq3-PE.fa是接头序列,2是比对时接头序列时所允许的最大错配数;30指的是要求PE的两条read同时和PE的adapter序列比对,匹配度加起来超30%,那么就认为这对PE的read含有adapter,并在对应的位置需要进行切除。
—— SLIDINGWINDOW:滑动窗口长度的参数,SLIDINGWINDOW:5:20代表窗口长度为5,窗口中的平均质量值至少为20,否则会开始切除;
—— LEADING:规定read开头的碱基是否要被切除的质量阈值;
—— TRAILING:规定read末尾的碱基是否要被切除的质量阈值;
—— MINLEN:规定read被切除后至少需要保留的长度,如果低于该长度,会被丢掉。

  • 数据过滤后我们再用Fastqc质控,查看过滤后的结果如何
fastqc SRR020180_clean.fastq.gz
fastqc SRR028694_clean.fastq.gz

结果:
SRR020180:
数据过滤前:

5.PNG

数据过滤后:


1.png

SRR028694:
数据过滤前:

index.png

数据过滤后:
index.png

四. SPAdes短序列拼接

SPAdes 主要用于进行单细胞测序的细菌与基因组拼接,也能用于非单细胞测序数据。现在的SPAdes版本基本都支持paired-end reads,mate pairs和unpairede reads,多个paired-end和mate pairs可以同时输入。

 spades.py --only-assembler --phred-offset 33 -k 55 --s1 SRR020180_clean.fastq.gz -o ./SPAdes2
 spades.py --only-assembler  --careful --phred-offset 33 -k 33,55,77 --s1 SRR028694_clean.fastq.gz -o ./SPAdes1

  • 参数:
    —— only-error-correction:只做数据纠错
    —— only-assembler:只组装,不做数据纠错
    —— careful:减少错误和插入缺失,添加此选项,会消耗更多的时间

—— phred-offset 33:phred质量体系,在数据纠错中会用到,现在illumina数据一般采用phred 33,并且我们之前数据过滤时采用的就是phred 33

—— k:k值,一次可以输入多个,用逗号分隔,kmer最大为127,并且注意只能是奇数,不设置时会自动计算合适的k值,但运算时间较长

——s1:表明是single reades
——pel:表明是paired-end和mate-pair reades

—— o:输出目录

  • 结果

SRR020180:


6.PNG

SRR028694:


7.PNG

五.Quast评价序列拼接结果

  • 评价结果
#评价SRR020180序列结果
 quast.py ~/ncbi/public/sra/SPAdes2/contigs.fasta
#评价SRR028694序列结果
 quast.py ~/ncbi/public/sra/SPAdes1/contigs.fasta
  • 结果
    SRR020180:


    9.PNG

SRR028694:


8.PNG

这个序列文件本来就很小,经过了数据过滤,数据纠错等等数据优化后已经没有剩下可以连接的contig了

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 160,165评论 4 364
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 67,720评论 1 298
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 109,849评论 0 244
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 44,245评论 0 213
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 52,596评论 3 288
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 40,747评论 1 222
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 31,977评论 2 315
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 30,708评论 0 204
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 34,448评论 1 246
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 30,657评论 2 249
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 32,141评论 1 261
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 28,493评论 3 258
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 33,153评论 3 238
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 26,108评论 0 8
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 26,890评论 0 198
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 35,799评论 2 277
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 35,685评论 2 272

推荐阅读更多精彩内容