CAFE输出结果整理2——提取特定Orthogroups里某个物种的基因名

比较基因组分析很多时候都是用OrthoFinder生成的Orthogroups来进行分析,然后得到一系列OG的ID,对于不同的物种,我们还需要在orthogroup里找到对应的基因名,来进行后续的富集分析等。
*推荐使用第二个脚本。第一个脚本保留的原因是如果需要批量对文件操作可以根据这个来仿写。

一、根据物种名所在位置提取single copy gene序列文件里的对应物种位置的基因名,只适用于单拷贝基因序列
#!/usr/bin/python
# -*- coding: utf-8 -*-
# conda activate python3
"""
    作者:徐诗芬
    内容:1.根据OrthogroupID列表提取单拷贝Orthogroup文件;
         2.根据OrthogroupID列表名读取文件里的基因名;
         3.根据物种对应name.txt的相同位置来提取对应的基因名
    日期:2021.12.16
"""
import sys
import os
import re

def usage():
    print('Usage: python gene_find.py [targetOG.txt] [Single_copy_gene] [name.txt] [species]')

def file_extract(path):
    # 提取基因蛋白序列文件,或者提取mafft.fa文件等修改匹配条件即可
    file_list = []
    for root, dirs, files in os.walk(path):
        for f in files:
            match = re.match(r'OG[0-9]*.fa', f)  # 如果需要其他类型的文件可以修改这里的匹配条件
            if f == match.group(0):
                file = os.path.join(root, f)
                file_list.append(file)
    return file_list

def fasta2dict(inf):
    # 按行读取序列
    # 输入fasta文件,返回名称,序列
    dict = {}
    for line in inf:
        line = line.strip()
        if line.startswith('>'):
            line = line.strip()
            name = line[1:]
        else:
            dict[name] = dict.get(name, '') + line
    return dict

def key_list(d):
    # 生成一个键值的list
    result = []
    for k, v in d.items():
        result.append(k)
    return result

def flag(species, name_list):
    # 定位物种所在的行号
    for num, line in enumerate(name_list):
        while species in line:
            return num
def main():

    Or_index = open(sys.argv[1], 'rt')       # targetOG.txt, 目标 Orthorgroup ID
    Or_list = []
    for i in Or_index.readlines():
        i = i.strip()
        Or_list.append(i)
    path = os.readlink(sys.argv[2])         # Single_copy_gene # Orthorgroup文件所在路径的软链接,软链接注意不要加/
    name_index = open(sys.argv[3], 'rt')    # Orthorfinder 运行时的物种名顺序,依据结果里的Log.txt文件
    name_list = name_index.readlines()
    species = sys.argv[4]                   # 目标物种名
    outfile = open('gene.txt', 'w+')

    file_list = file_extract(path)          # 提取路径中特定的文件

    for file in file_list:
        file_name = os.path.basename(file).split('.')[0]          # 提取文件名
        if file_name in Or_list:                                  # 判断文件名是否在OrID.txt的列表里面
            with open(file, 'rt') as f:
                d = fasta2dict(f)
                gene_list = key_list(d)                           # 提取该OR文件的所有基因名
                i = flag(species, name_list)                      # 提取物种对应gene_list的index
                ln = gene_list[i]                                 # 在这个文件所生成gene_list里找到属于该物种的基因名
                #sequence = d[ln]
                outfile.write(ln + '\n')
                #outfile.write(sequence + '\n')                   #这里还可以输出对应的序列

    outfile.close()
    Or_index.close()
    name_index.close()



try:
    main()
except IndexError:
    usage()
二、在多拷贝序列或者Orthogroup里面根据物种名提取对应Ortho_ID所包含该物种的基因名,直接从Orthogroups.tsv文件里提取。适用于提取该物种扩张和收缩的基因家族里的基因名。
import sys
from itertools import islice

def usage():
    print('Usage: python gene_find2.py [targetOG.txt] [species] [Orthogroups.tsv] [output.txt]')

def fasta2dict(inf):
    # 按行读取序列
    # 输入fasta文件,返回名称,序列
    dict = {}
    for line in inf:
        line = line.strip()
        if line.startswith('>'):
            line = line.strip()
            name = line[1:]
        else:
            dict[name] = dict.get(name, '') + line
    return dict

def main():

    Or_index = open(sys.argv[1], 'rt')       # Sl.txt, 目标 Orthorgroup ID
    Or_list = []
    for i in Or_index.readlines():
        i = i.strip()
        Or_list.append(i)
    species = sys.argv[2]                  # 目标物种名
    outfile = open(sys.argv[4], 'w+')            # 输出文件

    OG_dict = {}
    with open(sys.argv[3], 'rt') as f:
        for head in islice(f, 0, 1):           # 读取文件第一行信息
            head_list = head.strip().split('\t')
        for line in islice(f, 1, None):
            line = line.strip().split('\t')
            name = line[0]
            OG_dict[name] = line[1:]

    for Or in Or_list:
        if Or in list(OG_dict.keys()):                      # 横向找OG的ID所在行
            line = OG_dict[Or]                              # Or所对应的值依旧是一个列表
            flag = head_list.index(species)                 # 找该物种的索引位置
            if len(line) < flag:
                continue  # 设置基因家族收缩时该OG没有基因名的情况,就跳过
            else:
                gene_list = line[flag - 1]  # 找到物种对应该Or的基因集
                for i in gene_list.split(', '):
                    outfile.write(i + '\n')  # 逐一输出基因名

    outfile.close()
    Or_index.close()

try:
    main()
except IndexError:
    usage()
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 159,290评论 4 363
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 67,399评论 1 294
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 109,021评论 0 243
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 44,034评论 0 207
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 52,412评论 3 287
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 40,651评论 1 219
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 31,902评论 2 313
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 30,605评论 0 199
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 34,339评论 1 246
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 30,586评论 2 246
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 32,076评论 1 261
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 28,400评论 2 253
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 33,060评论 3 236
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 26,083评论 0 8
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 26,851评论 0 195
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 35,685评论 2 274
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 35,595评论 2 270

推荐阅读更多精彩内容