Pilon | 基因组纠错

前言

三代测序错误率比较高,一般组装后需要进行纠错来提高准确度。本次介绍使用Pilon通过引入二代测序数据来对三代基因组进行纠错。

Pilon官网

https://github.com/broadinstitute/pilon/wiki

Pilon软件安装

#conda 安装pilon
conda install -y pilon
#编译安装
wget https://github.com/broadinstitute/pilon/releases/download/v1.24/pilon-1.24.jar
chomd 755 pilon-1.24.jar

Pilon示例数据下载

#下载二代测序数据用于纠错
wget \
-O illumina.sra \
https://sra-pub-run-odp.s3.amazonaws.com/sra/SRR8482586/SRR8482586

本期需要纠错的基因组选择上期推文中Flye组装的nanopore数据进行演示,即下文assembly.fasta

Pilon示例数据处理

fastq-dump --split-files --gzip illumina.sra

fastq-dump会将sra格式转化成fastq格式,同时--gzip参数会对fastq进行压缩,示例illumina.sra最终会被转化为illumina_1.fastq.gz 和 illumina_2.fastq.gz

Pilon常用参数

--genome : 设置需要纠错的基因组
--fix : 参数可选snps、indels、gaps、local、all等(默认all)
--changes : 列出纠错位点
--frags : 输入paired-end比对文件(不同测序数据该选项不同,具体查看该软件帮助文档;若不知道,可直接使用--bam
--output : 输入结果前缀
--outdir : 输出文件
--vcf : 生成vcf格式文件

Pilon使用案例

示例使用的是conda安装的Pilon

#对拼接结果建立索引(如何获得assembly.fasta详见Flye三代基因组推文)
bwa index assembly.fasta
#illumina与assembly.fasta进行比对,生成assembly_illumina.sam结果文件
bwa mem -t 12 assembly.fasta  illumina_1.fastq.gz illumina_2.fastq.gz > assembly_illumina.sam
#将assembly_illumina.sam进行排序,生成assembly_illumina.sorted.bam 
samtools sort -@ 12 -O bam -o assembly_illumina.sorted.bam assembly_illumina.sam
#运行Pilon
pilon --genome assembly.fasta --fix all --changes --frags assembly_illumina.sorted.bam --output pilon --outdir pilon_result  --vcf

可能会遇到下面的报错信息,这是由于软件设定的内存不足造成的

Exception in thread "main" java.lang.OutOfMemoryError: Java heap space
    at org.broadinstitute.pilon.BaseSum.<init>(BaseSum.scala:24)
    at org.broadinstitute.pilon.PileUp.<init>(PileUp.scala:27)
    at org.broadinstitute.pilon.PileUpRegion.$anonfun$new$1(PileUpRegion.scala:30)
    at org.broadinstitute.pilon.PileUpRegion$$Lambda$52/0x0000000100178840.apply$mcVI$sp(Unknown Source)
    at scala.collection.immutable.Range.foreach$mVc$sp(Range.scala:190)
    at org.broadinstitute.pilon.PileUpRegion.<init>(PileUpRegion.scala:30)
    at org.broadinstitute.pilon.GenomeRegion.initializePileUps(GenomeRegion.scala:150)
    at org.broadinstitute.pilon.GenomeFile.$anonfun$processRegions$4(GenomeFile.scala:104)
    at org.broadinstitute.pilon.GenomeFile.$anonfun$processRegions$4$adapted(GenomeFile.scala:102)
    at org.broadinstitute.pilon.GenomeFile$$Lambda$51/0x0000000100169840.apply(Unknown Source)
    at scala.collection.immutable.List.foreach(List.scala:333)
    at org.broadinstitute.pilon.GenomeFile.processRegions(GenomeFile.scala:102)
    at org.broadinstitute.pilon.Pilon$.main(Pilon.scala:111)
    at org.broadinstitute.pilon.Pilon.main(Pilon.scala)

解决办法如下:

#查询pilon路径
which pilon
#修改pilon配置
vim /home/xiaoli/miniconda3/envs/NGS/bin/pilon

修改下图红色框,将 -Xmsg和-Xmx对应的数值调大,再次运行即可成功。

pilon debug.png

Pilon主要结果文件

pilon.changes  #该文件列出了纠错的位点
pilon.fasta  #最终纠错后文件

查看Pilon纠错效果

#有多少行代表有多少错误被纠正
wc -l  pilon.changes
#统计纠错前后文件信息
seqkit stats pilon.fasta assembly.fasta

PS.纠错可以进行多次,即:将第一次纠错结果作为第二次需要纠错的文件再次纠错

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 156,907评论 4 360
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 66,546评论 1 289
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 106,705评论 0 238
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 43,624评论 0 203
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 51,940评论 3 285
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 40,371评论 1 210
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 31,672评论 2 310
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 30,396评论 0 195
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 34,069评论 1 238
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 30,350评论 2 242
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 31,876评论 1 256
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 28,243评论 2 251
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 32,847评论 3 231
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 26,004评论 0 8
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 26,755评论 0 192
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 35,378评论 2 269
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 35,266评论 2 259

推荐阅读更多精彩内容