python——提取fasta文件中10G的序列

#!/usr/bin/python
# -*- coding: utf-8 -*-
# conda activate python3
"""
    作者：徐诗芬
    内容：截取原始序列的10G,读一行写一行，当序列长度叠加到10G时终止读写 
    日期：2021.1.11
"""
import sys
import time
import gzip

def usage():
    print('Usage: python cut_sequence_10G.py [infile.fq.gz] [outfile.fq.gz]')


def main():

    global name
    inf = gzip.open(sys.argv[1], 'rt')
    ouf = gzip.open(sys.argv[2], 'wt')

    fq = {}
    i = 0
    size = 0
    Gb = 10**9
    for line in inf:
        line = line.strip()
        i += 1
        if line.startswith('@'):
            name = line
            ouf.write(line + '\n')  # 写@所在行
            fq[name] = []  # 将剩余三行放入列表中
        else:
            fq[name].append(line)
            ouf.write(line + '\n')  # 依次写入剩下三行
        if i % 4 == 2:
            size += len(line)  # 如果是序列行，叠加序列长度
        if size > 10*Gb:
            break
    inf.close()
    ouf.close()

try:
    main()
except IndexError:
    usage()

end_time = time.process_time()
print('Running time: {:.2f} Seconds'.format(end_time))

上面的脚本只能一个文件输入和一个文件的输出，适用于单端测序数据。对于双端测序数据，通常需要两个文件的reads数目是一致的，因此，我们需要同步输入和输出两个文件，用python3里的zip函数连接，zip函数可以把两个或者两个以上的迭代器封装成生成器，这种zip生成器会从每个迭代器中获取该迭代器的下一个值，然后把这些值组装成元组（tuple）。这样，zip函数就实现了平行地遍历多个迭代器。脚本如下：注意4个输入输出文件的顺序！！

import sys
import time
import gzip

def usage():
    print('Usage: python cut_sequence_10G.py [input_file1.gz] [input_file2.gz] [outfile1.gz] [outfile2.gz]')


def main():
    global name
    inf1 = gzip.open(sys.argv[1], 'rt')
    ouf1 = gzip.open(sys.argv[3], 'wt')
    inf2 = gzip.open(sys.argv[2], 'rt')
    ouf2 = gzip.open(sys.argv[4], 'wt')
    
    i = 0       ##记录行号
    size = 0    ##序列总长度
    Gb = 10**9  
    for line1, line2 in zip(inf1, inf2):
        line1 = line1.strip()
        line2 = line2.strip()
        i += 1
        if line1.startswith('@'):
            ouf1.write(line1 + '\n')  # 写@所在行
        else:
            ouf1.write(line1 + '\n')  # 依次写入剩下三行
        if line2.startswith('@'):
            ouf2.write(line2 + '\n')  # 写@所在行
        else:
            ouf2.write(line2 + '\n')
        if i % 4 == 2:
            size += len(line1)  # 如果是序列行，叠加序列长度
        #这里只用一个file的序列长度作为终止操作的条件
        if size > 10*Gb:
                break
    inf1.close()
    inf2.close()
    ouf1.close()
    ouf2.close()

try:
    main()
except IndexError:
    usage()
end_time = time.process_time()
print('Running time: {:.2f} seconds'.format(end_time))

最后编辑于：2021.04.13 16:46:13

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 158,233评论 4赞 360
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 67,013评论 1赞 291
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 108,030评论 0赞 241
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 43,827评论 0赞 204
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 52,221评论 3赞 286
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 40,542评论 1赞 216
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 31,814评论 2赞 312
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 30,513评论 0赞 198
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 34,225评论 1赞 241
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 30,497评论 2赞 244
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 31,998评论 1赞 258
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 28,342评论 2赞 253
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 32,986评论 3赞 235
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 26,055评论 0赞 8
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 26,812评论 0赞 194
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 35,560评论 2赞 271
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 35,461评论 2赞 266

python——提取fasta文件中10G的序列

推荐阅读更多精彩内容