细胞器基因组的组装和注释(Getorganelle )

之前有过用二代测序的数据组装植物叶绿体基因组昆虫线粒体的经历,用的是单位的超算(Linux系统)。

用到的软件为Getorganelle和Mitofinder,这里先介绍Getorganelle。

GetOrganelle

官网:https://github.com/Kinggerm/GetOrganelle

下面的教程基本来自于对官网教程的翻译,如有需要可以去看官网原文。

This toolkit assemblies organelle genomes from genomic skimming data

GetOrganelle的主要用途是用基因组测序数据组装完整的细胞器基因组,需要调用的软件包括SPAdes、Bowtie2、BLAST+、Bandage。

GetOrganelle对组装植物质体基因组尤其好用。

GetOrganelle的安装

最简单的安装GetOrganell和它依赖的软件的方法就是用conda安装:

conda install -c bioconda getorganelle

当然用conda安装的前提是你已经安装了miniconda,miniconda的安装可以参考之前的教程:

https://www.jianshu.com/p/9dc419c33f42

在成功安装了GetOrganelle之后,需要下载并初始化你要用到的细胞器基因组的数据库。

假如你要组装动物的线粒体基因组和植物的质体基因组,就要用到动物线粒体基因组数据库和植物的质体基因组:

get_organelle_config.py --add animal_mt,emplant_pt

细胞器基因组数据库类型有:

embplant_pt 植物质体数据库

embplant_mt 植物线粒体数据库

embplant_nr 植物核基因数据库

fungus_mt 真菌线粒体数据库

fungus_nr 真菌核基因数据库

animal_mt 动物线粒体数据库

数据库的默认下载路径为~/.GetOrganelle

组装细胞器基因组

这之后就可以进行细胞器基因组的组装了,很简单,只需要一行命令。

在组装陆地植物的质体基因组的时候,一般需要2G 的 raw data (150bp paired reads),使用的命令为:

get_organelle_from_reads.py -1 forward.fq -2 reverse.fq -o plastome_output -R 15 -k 21,45,65,85,105 -F embplant_pt

我自己组装昆虫线粒体基因组用到的命令为:

get_organelle_from_reads.py -1 file_1.fastq.gz -2 file_2.fastq.gz -s reference.fasta -w 90 -R 30 -k 45,65,85,105,115 -F animal_mt -o outputfile

如果想查看每一个参数的用法,可以用命令;

get_organelle_from_reads.py -h

或者

get_organelle_from_reads.py --help

简要介绍每个参数的意思:

-1:input file with forward paired-end reads

-2:input file with forward paired-end reads

-u:input files with unpaired (single-end) reads

测序公司一般采用的测序方法是双向测序,每个样本返回两个数据, 一个正向测序的数据,一个反向测序的数据,-1和-2后就是两个输入文件,也就是正向和反向测序的原始文件。

如果不是双向测序,而是单向的,那么测序返回的文件只有1个,就用-u 后接输入文件。

-o:output directory 输出文件的路径

-s: input fasta format file as initial seed

-s 后面接种子文件,也就是已知的近缘物种的细胞器基因组序列,需要fasta格式。在组装的过程中,GetOrganelle会把种子文件里的序列作为“饵”,钓取测序数据中的相似序列(可能不准确,但本人是这样理解的)。如果你不提供种子文件,GetOrganelle会使用自身的种子文件数据库。

-F:Target organelle genome types:

-F后接要组装的细胞器基因组的类型,同前面提到的细胞器基因组数据库类型。

-R: maximum extension rounds (suggested >2), default=15

-w:word size for extension. default: auto-estimated

-K:SPAdes kmer setting, default:21,55,85,115

-R、-w、-K都是与组装过程相关的参数,我还没有摸透组装原理,不敢在这里误人子弟。不过都有默认设置,拿不准的话就不用设置了,靠默认的设置就可以。

如果我们有很多测序数据需要组装,那么就可以写一个循环,写在任务脚本run.sh文件里,然后直接运行run.sh文件就可以了。我用的循环如下(惭愧,不是我写的,组上老师写的,这里挪用一下)

解释下上半部分:

-cwd #指定当前路径为工作目录,sge的日志会输出到当前路径

-S #指定远程计算节点的shell路径

-l #指定资源请求,多个请求用逗号(,)隔开

这一部分只针对我们单位系统的超算,不适用于大家,可以不看。

用到的循环如下:

for file1 in $(ls *.R1.fastq.gz)

  do

  for file2 in $(ls *.R2.fastq.gz)

  do

  if [ ${file1:0:4} == ${file2:0:4} ]; then

get_organelle_from_reads.py -1 $file1 -2 $file2 -F animal_mt -w 0.65 -o ${file2:0:4}"out" -R 10 -k 21,45,65,85,105,107,127

  fi

  done

  done

简单解释一下这个循环:

我这里用到的每个样本的两个测序原始数据文件命名为:XXXX.R1.fastq.gz和XXXX.R2.fastq.gz, XXXX是4个数字,把所有的输入文件都放在一个路径下,如果XXXX.R1.fastq.gz和XXXX.R2.fastq.gz具有相同的XXXX(在循环中为${file1:0:4} == ${file2:0:4}),就对它们执行组装命令,输出文件命名为XXXXout(在循环中为 ${file2:0:4}"out")。

然后运行任务脚本就可以了:

qsub run.sh

qsub只是我们单位超算运行任务脚本的命令,大家根据自己的linux系统输入运行脚本的命令。

评价细胞器基因组的组装效果

GetOrganelle可以对组装的效果进行评测,用到的命令为:

evaluate_assembly_using_mapping.py -f assemble.fasta -1 XXXX.R1.fq.gz -2 XXXX.R2.fq.gz -o XXXXoutput -c no --draw

-f 后接的是组装出来的细胞器基因组序列

-1、-2后接原始数据,同前面提到的

-o 后接输出路径

-c 后接组装的序列是否为环形

--draw 是要求给出图形式的组装评测结果

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 158,736评论 4 362
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 67,167评论 1 291
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 108,442评论 0 243
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 43,902评论 0 204
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 52,302评论 3 287
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 40,573评论 1 216
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 31,847评论 2 312
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 30,562评论 0 197
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 34,260评论 1 241
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 30,531评论 2 245
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 32,021评论 1 258
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 28,367评论 2 253
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 33,016评论 3 235
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 26,068评论 0 8
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 26,827评论 0 194
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 35,610评论 2 274
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 35,514评论 2 269

推荐阅读更多精彩内容