genbank文件转换成NCBI提交数据时的.tbl文件（genbank convert to tbl）

.tbl文件格式介绍 https://www.ncbi.nlm.nih.gov/Sequin/table.html

方法一：转换格式的perl脚本

ftp://ftp.ncbi.nlm.nih.gov//toolbox/ncbi_tools/converters/scripts/gbf2tbl.pl

用法

perl gbf2tbl.pl genbankfile_name

方法二：在线程序 GB2sequin

网址 https://chlorobox.mpimp-golm.mpg.de/GenBank2Sequin.html

推荐文献
GB2sequin — A file converter preparing custom Genbank files for database submission

叶绿体基因组提交到NCBI的流程
可以利用微信搜索《如何优雅地向NCBI上传线粒体基因组序列》，这篇文章介绍了利用Bankit提交线粒体基因组序列至NCBI的流程，同样适用于叶绿体基因组序列

写在结尾的废话

这个学期一直在看和叶绿体基因组相关的文章，目前学习到向NCBI提交完整的叶绿体基因组序列，需要准备的文件包括叶绿体基因组fasta文件和注释文件，注释文件要求的格式为.tbl，按照常理应该会有已经造好的轮子来利用常规的注释文件（比如genbank格式，或者gff3格式）来生成.tbl文件，可是自己找了将近两天的时间竟然没有找到（找到了一些python脚本或者小软件，但是都没有运行成功；同时也找到了NCBI提供的小软件table2asn_GFF3，目测功能是利用gff3格式的注释文件生成.tbl文件，试运行了一下，可是参数太多，暂时还没有搞明白该怎么使用），自己也尝试着写了一些脚本，奈何能力有限没有能够解决，前前后后大约折腾了4天左右的时间，之后因为忙一些其他事情中断了一个星期左右，今天再次尝试的时候发现原来叶绿体基因组注释在线工具GeSeq https://chlorobox.mpimp-golm.mpg.de/geseq.html 中包括了格式转换的工具GB2sequin,然后找到了这篇文献来看又发现了格式转换用到的perl脚本，暂时解决了提交序列的问题！

小小感悟：

面对解决不了的问题不要着急，只需要停下来让脑子休息下然后在重新出发！

更新20190102

推荐一篇论文

Complete plastome sequences from Bertholletia excelsa and 23 related species yield informative markers for Lecythidaceae

论文中提供了部分分析结果和分析使用到的相关代码：The scripts and alignments used in this study can be found at https://bitbucket.org/oscarvargash/lecythidaceae_plastomes；其中有一部分是向NCBI提交叶绿体基因组的数据

55.PNG

记录自己慢慢理解的过程
自己使用Bankit向NCBI提交叶绿体基因组数据时要求的注释文件中应该有对应的product内容，自己注释使用的是在线程序GeSeq，输出的genbank文件中没有product的内容；那么如何把对应的product添加到已经生成好的genbank文件中呢？今天想到了解决办法：因为SeqIO模块解析genbank文件后codon_start、transl_table、translation、product等内容存储在字典里；是可以手动添加其他内容的，比如初始的genbank文件是这样的

56.PNG

然后可以把它变成这样

57.PNG

from Bio import SeqIO
with open("rpl16.gb","gb"):
  for rec in SeqIO.parse("sequence.gb","gb"):
    for feature in rec.features:
      if feature.type == "CDS":
        feature.qualifiers["yan"] = "ming"
        feature.qualifiers["kobe"] = "bryant"
    SeqIO.write(rec,fw,"gb")

自己的叶绿体基因组注释是使用GeSeq做的，输出的genBank文件中有一行’note‘；首先将这一行去掉

from Bio import SeqIO
for rec in SeqIO.parse("fileName.gb"):
  for feature in rec.features:
    if feature.type == "gene" and feature.qualifiers.__contains__("note"):
      feature.qualifiers.pop("note")
  fw = open("output_file.gb","w")
  SeqIO.write(rec,fw,"gb")
fw.close()

python小知识点:移除字典中指定的键：值 pop()

x = {}
x["yan"] = "ming"
x["kobe"] = "bryant"
x
x.pop("kobe")
x

然后在NCBI上选一些和自己研究物种亲缘关系比较近的物种的叶绿体基因组的genbank文件，放到同一个文件夹下，分别将基因名的对应的产物名写到字典中的键和值
python小知识点：fnmatch模块，字符串匹配文件名的标准库，主要有四个函数
fnmatch 判断文件名是否符合特定的格式
fnmatchcase 区分大小写
比如我想筛选出某个文件下以gb结尾的文件的文件名

import fnmatch
fnmatch.fnmatch("abc.gb","*.gb") #返回True
import os
for file in os.lsidir("./"):
  if fnmatch.fnmatch(file,"*.gb"):
    print(file)

接下来是为genbank文件添加product字段

import os
import fnmatch
from Bio import SeqIO
fileName = []
for file in os.listdir("./")
  if fnmatch.fnmatch(file,"*.gb"):
    fileName.append(file)
products = {}
for file in fileName:
  for rec in SeqIO.parse(file,"gb"):
    for feature in rec.features:
      if feature.type == "CDS" or feature.type == "tRNA"
        products[feature.qualifiers["gene"][0]] = features.qualifiers["product"][0]
with open("output_1.gb","w") as fw:
  for rec in SeqIO.parse("own_gb_file.gb","gb"):
    for feature in rec.features:
      if feature.type == "CDS" or feature.type == "tRNA":
        feature.qualifiers["product"] = products[feature.qualifiers["gene"][0]]
    SeqIO.write(rec,fw,"gb")

理解了SeqIO解析genbank格式文件的数据存储后，自己应该也可以写一个简单的脚本将genbank格式的文件转化成.tbl文件，好好想一想该如何实现；SeqIO模块的源码自己抽时间要多看几遍！

更新2019018

自己的叶绿体基因组数据注释是使用在线程序GeSeq做的，输出结果genBank文件中包括intron和exon的信息，不想要这部分信息，想写个脚本删掉

第一版

for rec in SeqIo.parse(“input_file.gb”,"gb"):
 fea_index = [] 
 for a,b in enumerate(rec.features):
   if b.type == "intron" or b.type == "exon":
    fea_index.append(a)
  for i in fea_index:
    rec.features.pop(i)
  fw = open("output_file.gb","w")
  SeqIO.write(rec,fw,"gb")
  fw.close()

一直遇到报错IndexError: pop index out of range
想了好长时间才想明白： rec 里面存储的内容删除一项后，对应的后面的内容的index会相应迁移，比如有1，5，7，9，12五个数字，对应的位置分别是1，2，3，4，5；如果删除前两个，12对应的位置就有原来的5 改为了3

更改脚本

for rec in SeqIO.parse("注释文件/完成/Malus_baccata_C108_1.gb","gb"):  
    fea_index = []
    for a,b in enumerate(rec.features):
        if b.type == "exon" or b.type == "intron":
            fea_index.append(a)
        for s,i in enumerate(fea_index):
          rec.features.pop(i-s) ######
    fw = open("1.gb","w")
    SeqIO.write(rec,fw,"gb")
    fw.close()

最后编辑于：2019.01.18 22:19:06

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 159,716评论 4赞 364
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 67,558评论 1赞 294
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 109,431评论 0赞 244
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 44,127评论 0赞 209
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 52,511评论 3赞 287
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 40,692评论 1赞 222
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 31,915评论 2赞 313
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 30,664评论 0赞 202
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 34,412评论 1赞 246
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 30,616评论 2赞 245
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 32,105评论 1赞 260
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 28,424评论 2赞 254
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 33,098评论 3赞 238
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 26,096评论 0赞 8
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 26,869评论 0赞 197
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 35,748评论 2赞 276
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 35,641评论 2赞 271