TransDecoder软件预测转录本ORF阅读框和编码区

软件说明书:https://github.com/TransDecoder/TransDecoder/wiki

1 TransDecoder 基于以下标准识别可能的编码序列:

  1. 在转录本序列中需要能够找到一个(满足)最小(限定)长度的ORF;
  2. 对数似然数得分大于0。(与GeneID软件计算得到的得分相类似);
  3. 第一阅读框的对数似然数打分同其它5个阅读框比较为最大值时;
  4. 如果候选的ORF完全被包含在其它候选ORF的框架内,那么报告最长的ORF。否则,一个单独的转录本会得到多个ORF的报告。(考虑到有操纵子、嵌合体等情况);
  5. 作为可选项,预测出的多肽在Pfam domain库中存在比对分值高于得分阈值之上的。
    该软件主要由Broad Institute的Brian Haas和Commonwealth Scientific and Industrial Research Organisation的Alexie Papanicolaou维护。它被整合在其它相关的软件中:Trinity,PASA,EVidenceModeler和Trinotate。

1.1 TransDecoder的使用

TransDecoder通过运行一个包含目的转录本序列的fasta文件来实现功能。简单的用法如下:

# Step 1: 提取最长的开放阅读框

TransDecoder.LongOrfs -t target_transcripts.fasta  -O .

默认情况下,TransDecoder.LongOrfs将识别长度至少为100个氨基酸的开放阅读框。你可以通过-m参数来降低这个值,但是要知道随着最小长度的变短,ORF预测的假阳性率迅速增长。

# Step 2: (可选)
可选地,可以通过blast或者pfam搜索已知蛋白的同源序列来识别ORF。见下面的Including homology searches as ORF retention criteria章节。

# Step 3: 预测可能的编码区

TransDecoder.Predict -t target_transcripts.fasta -O .

如果转录本按照有义链进行了调整,那么使用-S标记来只检查top链。完整的使用信息见后面。

候选编码区的最终集合可以在文件.transdecoder中找到。扩展名包括.pep,.cds,.gff3和.bed。

1.2 输出文件说明

longest_orfs.pep : 所有达到最小长度标准的ORF, 不管是否编码

longest_orfs.gff3 : 在目的转录本中发现的所有ORF的位置

longest_orfs.cds : 所有检测到的ORF的核酸编码序列

longest_orfs.cds.top_500_longest : 前500个最长的ORF,用于训练一个编码序列的马尔科夫模型

hexamer.scores : 每个k-mer的对数似然得分 (coding/random)

longest_orfs.cds.scores : 每个ORF同6个阅读框间对数似然得分的总和

longest_orfs.cds.scores.selected : 根据得分标准所选出的ORF

longest_orfs.cds.best_candidates.gff3 : 转录本中选出的ORF的位置

然后,最后的输出文件在你当前的工作目录中。

transcripts.fasta.transdecoder.pep : 最终候选ORF的蛋白质序列;所有较长ORF中的较短的候选序列已被移除。

transcripts.fasta.transdecoder.cds : 最终候选ORF的编码区的核酸序列。

transcripts.fasta.transdecoder.gff3 : 最终被选中的ORF在目的转录本中的位置

transcripts.fasta.transdecoder.bed : 用来描述ORF位置的bed格式文件,最好用GenomeView或IGV来查看。

1.3 其中transcripts.fasta.transdecoder.pep文件的内容:


$ less transcripts.fasta.transdecoder.pep
>TRINITY_DN107_c0_g1_i1.p1 TRINITY_DN107_c0_g1~~TRINITY_DN107_c0_g1_i1.p1  ORF type:internal len:175 (+),score=164.12 TRINITY_DN107_c0_g1_i1:2-523(+)
VPLYQHLADLSDSKTSPFVLPVPFLNVLNGGSHAGGALALQEFMIAPTGAKSFREAMRIG
SEVYHNLKSLTKKRYGSSAGNVGDEGGVAPDIQTAEEALDLIVDAIKAAGHEGKVKIGLD
CASSEFFKDGKYDLDFKNPNSDASKWLSGPQLADLYHSLVKKYPIVSIEDPFAE
>TRINITY_DN10_c0_g1_i1.p2 TRINITY_DN10_c0_g1~~TRINITY_DN10_c0_g1_i1.p2  ORF type:internal len:158 (-),score=122.60 TRINITY_DN10_c0_g1_i1:2-472(-)
TDQDKRYQAKMGKSHGYRSRTRYMFQRDFRKHGAIALSTYLKVYKVGDIVDIKANGSIQK
GMPHKFYQGKTGVVYNVTKSSVGVIVNKMVGNRYLEKRLNLRVEHVKHSKCRQEFLDRVK
SNAAKRAEAKAQGKAVQLKRQPAQPREARVVSTEGNV

文件中:header行包含了蛋白的ID信息、原始转录本ID信息、type信息、长度、正负链、打分信息、ORF坐标信息

其中type信息可能会出现:

  • complete:包含起始、终止密码子
  • 5prime_partial:可能是N端的一部分,但丢失起始密码子
  • 3prime_partial:可能是C端的一部分,但丢失终止密码子
  • internal:既有N端又有C端的部分

2 将直系同源搜索作为ORF的保留标准

为进一步最大化捕捉具有功能意义的ORF的敏感度,可以像之前提到的不管编码似然得分,你可以扫描所有与已知蛋白同源的ORF并保留这类ORF。这可以通过两种方法做到:用BLAST搜索已知蛋白的数据库进,以及搜索PRAM来识别共同的蛋白质结构域。在TransDecoder中是按照如下方式完成的。

2.1 BlastP搜索

使用BLAST+搜索一个蛋白质数据库,诸如Swissprot(较快)or Uniref90 (较慢但更全面)。

一个示例命令就像这样:

blastp -query transdecoder_dir/longest_orfs.pep -db uniprot_sprot.fasta -max_target_seqs 1 -outfmt 6 -evalue 1e-5 -num_threads 10 > blastp.outfmt6

2.2 Pfam搜索

使用Pfam搜索多肽的蛋白质结构域。这需要安装hmmer3和Pfam数据库。

hmmscan –cpu 8 –domtblout pfam.domtblout /path/to/Pfam-A.hmm transdecoder_dir/longest_orfs.pep

就像BLAST搜索中那样,如果你可以使用计算集群,考虑使用HPC GridRunner。

将Blast和Pfam搜索结果整合到编码区域选择

TransDecoder借助上面生成的输出结果来确定将这些被blast命中的和结构域命中的多肽保留在报告的编码区集合中。像这样运行TransDecoder.Predict:

TransDecoder.Predict -t target_transcripts.fasta –retain_pfam_hits pfam.domtblout –retain_blastp_hits blastp.outfmt6

最终的编码区预测结果将包含与编码区域一致的序列字符以及blast得到的直系同源结果或pfam结构域的内容。

参考来源:TransDecoder识别转录本中编码区并预测蛋白

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 159,015评论 4 362
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 67,262评论 1 292
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 108,727评论 0 243
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 43,986评论 0 205
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 52,363评论 3 287
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 40,610评论 1 219
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 31,871评论 2 312
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 30,582评论 0 198
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 34,297评论 1 242
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 30,551评论 2 246
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 32,053评论 1 260
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 28,385评论 2 253
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 33,035评论 3 236
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 26,079评论 0 8
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 26,841评论 0 195
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 35,648评论 2 274
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 35,550评论 2 270

推荐阅读更多精彩内容

  • 夜莺2517阅读 127,665评论 1 9
  • 版本:ios 1.2.1 亮点: 1.app角标可以实时更新天气温度或选择空气质量,建议处女座就不要选了,不然老想...
    我就是沉沉阅读 6,802评论 1 6
  • 我是黑夜里大雨纷飞的人啊 1 “又到一年六月,有人笑有人哭,有人欢乐有人忧愁,有人惊喜有人失落,有的觉得收获满满有...
    陌忘宇阅读 8,471评论 28 53
  • 兔子虽然是枚小硕 但学校的硕士四人寝不够 就被分到了博士楼里 两人一间 在学校的最西边 靠山 兔子的室友身体不好 ...
    待业的兔子阅读 2,538评论 2 9