自学生信Python(第七天)|提取序列的ID

提取序列的ID

本人是一枚生物学的学生,由于对生物信息学特别感兴趣,于是想自学生物信息学(新手莫怪)。了解到生物信息学要有编程基础,尤其是要会一门编程语言,例如:R语言、Python、Perl等,还要熟悉Linux系统,作为生信小白,听说Python挺简单的,于是就自学了Python,花了两天时间了解了Python的基础语法后,今天想做个练习题试试手(实践是检验真理的唯一标准),下面是练习题:(试题来源:《PYTHON生物信息学数据管理》)
**1 读取 FASTA 格式序列文件,并只将序列标题写到一个新文件中 **
FASTA 文件中的每个序列记录由两部分组成: 一个标题行和多个 64 个字符长的序列 行(这个数字取决于序列长度〉。 标题行在行首位置用大于符号(> )标记,用户可以用它来区 分标题行和序列行。

由于这部分比较简单,就直接上注释完的脚本:(这个脚本可用于提取序列的ID)

fasta_file = open('C:/GooF.fasta','r')  #打开要读取的文件
out_file = open('C:/GooF_ID.txt','w')     #要输出的文件
for line in fasta_file:         #分行读取
    if line[0:1] == '>':        #读取以>开头的行,并匹配
        out_file.write(line)    #将匹配的结果按行输出
        print(line)             #输出结果
out_file.close()                #关闭文件夹
fasta_file.close()

如何从多序列 FASTA 文件中提取登记码的列表

Python 脚本所用的输入数据文件是如何产生的呢?考虑 SwissProtSeq.fasta,这是 FASTA 文件的一种形式 。 登记码 (Accession Code)可以在类似下面的标题行中获取,两边附上了管道符号" I " :



下面这个简单的脚本从文件的每个标题行提取登记码,将其添加到列表中,并打印列表:(我使用的是别的数据库中的fasta文件,类似 SwissProtSeq.fasta文件)

input_file = open("C:/Sorbi1_aa.fasta","r" )
out_file = open('C:/SB_ID.txt','w')     #要输出的文件
ac_list = []
for line in input_file:
    if line [0] == '>':
        fields = line.split('|')
        out_file.write(fields[2]+'\n')
        ac_list.append(fields[2])
print(ac_list)
out_file.close()

输出结果为:

745699', '4745700', '4745701', '4745702', '4745703', '4745704', '4745705',
.........
Process finished with exit code 0

注意,列表使用 append()方法填充之前,已被初始化为空列表。为了从每个标题行中提取登 记码(AC) ,先要通过一个 if 条件(此处使用了 FASTA 文件标题行由一个初始"> "符号来标记的事实) ,然后用字符串对象的 split()方法将字符串切分,它返回的是一个 Python 列表, 由括号中的参数(在这里是"|",作为分隔符)所分隔的子串构成。 像通常一样,这一方法与 它的对象通过点连接。
这个例子展示了一件重要的事情:如果想程式化地解析记录文件(任何记录文件) ,就必 须首先分析文件格式和结构,并找出一个"窍门"(如,一个反复出现的元素,它标志着专用 行或特定的记录,或者一个与特定文字相关的符号,一个合适的能将一行拆成几列的分隔符 等等)来选择性地提取相关的信息。

日常结尾:
虽然这是个小小的计算程序,但对于初学者的我来说每一次对原代码的升级改造,哪怕是读懂后的注释都感觉是一次进步提升,总之代码虽小,动手最重要!希望更多学习Python的爱好者不要像我一样眼高手低,学习编程就是要,思考,敲码,思考,敲码,敲码,再敲码!

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 160,108评论 4 364
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 67,699评论 1 296
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 109,812评论 0 244
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 44,236评论 0 213
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 52,583评论 3 288
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 40,739评论 1 222
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 31,957评论 2 315
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 30,704评论 0 204
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 34,447评论 1 246
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 30,643评论 2 249
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 32,133评论 1 261
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 28,486评论 3 256
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 33,151评论 3 238
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 26,108评论 0 8
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 26,889评论 0 197
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 35,782评论 2 277
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 35,681评论 2 272

推荐阅读更多精彩内容

  • 一、Python简介和环境搭建以及pip的安装 4课时实验课主要内容 【Python简介】: Python 是一个...
    _小老虎_阅读 5,618评论 0 10
  • # Python 资源大全中文版 我想很多程序员应该记得 GitHub 上有一个 Awesome - XXX 系列...
    小迈克阅读 2,862评论 1 3
  • 原文链接 《Python数据分析》(Python for Data Analysis, 2nd Edition)第...
    李绍俊阅读 8,091评论 0 5
  • 花已谢完,潮以退了。我喜欢的那首歌曲已经听完了。还剩下什么?还剩下什么?只剩下一个人在默默的祈祷、在真心的祝福、在...
    岁月不饶人老不正经阅读 277评论 2 1
  • 由于在主观概念上存在的一些偏差,导致我们对事物的认识也跟着出错,所以往往都宁愿相信自己以外的地方出了问题,很多人相...
    viper44阅读 128评论 0 0