物种间基因家族进化分析

引言

同源基因家族的拷贝数在不同物种间普遍存在差异,这种差异是由不同的基因得失速率引起。基因家族的拷贝数变异为物种表型的创新及多样化等提供了遗传基础,并且与生物体基因组大小的进化和物种分化等紧密相关。通过全基因组比较分析, 已经揭示了不同物种间许多基因家族拷贝数发生了显著的数量变化,这种变化与基因得失速率息息相关, 且受到自然选择与遗传漂变的共同作用。例如,白鱀豚基因组在氧化还原、铁离子结合等基因上发生基因家族扩张,而嗅觉基因家族则出现收缩,同时一些色素相关基因则发生了假基因化。通过小须鲸基因组比较基因组研究发现一些与压力应答和低氧代谢相关的基因发生扩张现象,而与毛发形成以及嗅觉相关基因发生收缩。通过严格的基因家族分析,鉴定出弓头鲸基因组41个基因家族发生扩张,且这些基因家族富集于翻译、DNA修复以及衰老等相关GO通路。这些研究结果均揭示了鲸类适应次水生生镜的分子进化机制。因此,深入研究不同物种间基因家族大小的进化,可以帮助我们更好地理解不同生物的物演化进程,同时为理解基因组进化与表型多样性的联系提供理论证据。

研究基因家族大小进化的主流统计分析工具主要有两款:CAFE(命令行模式)和Count(界面化模式)。CAFE使用随机的出生和死亡过程来模拟一个系统发育过程中基因家族大小的进化,对于一个特定的系统发育树,并给定现存物种的基因家族大小,CAFE可以估计全基因组水平的基因家族的出生率和死亡率,推断所有内部节点上最可能的基因家族大小,确定基因加速损益率的基因家族。然而,CAFE软件的运行以及分析结果整理,往往需要研究者具有数据编程能力,对于生信小白颇有难度。相比之下,Count软件功能强大,操作简便,有多种分析和计算方法可供选择,界面十分友好。所以,本次选择介绍Count软件的使用。

Count软件分析原理

Count软件综合了基因进化分析中常用的方法,如Dollo和Wagner简约法(Dollo & Wagner Parsimony)、基因丢失倾向法(Propensity for Gene Loss),以及系统发育新生-消亡模型(Birth-and-Death model)的概率分析方法。它根据系统发育树分支分布的情况以及支长,结合基因家族数目,来推断物种祖先基因组的大小以及各个基因家族的获得、丢失、扩张、收缩情况。

Count软件主要只需要两个输入文件:带有分支长度的系统发育树(Newick格式,系统发育的分支长度只有在计算基因丢失倾向时使用,在大多数情况下被忽略)和每个物种基因家族的数目。系统发育树可通过IQTREE、RAxML或PhyML等软件构建,每个物种基因家族的数目可通过OrthoMCL或者Orhofinder等软件等获得,具体方法可参考徐洲更大神的简书(链接),本文不再赘述。

Count软件的使用

1. 输入树文件

下载好之后,运行软件,点击首页Session→Start new session来选择要上传的数据。我们今天以软件包test文件夹中的示例文件来进行演示,首先选择KOGs-euk7.tre树文件,树文件包含了物种分支的分布和长度信息。


2.输入基因家族数目

树文件载入之后,就可以接着导入基因家族数值统计表了。点击Data→Open annotated table,在这里我们选择test文件夹中的示例文件KOGs-annotated.txt文件,基因家族数值统计表包括了基因家族编号、KOG数据库分类号、详细的注释结果和每个物种的序列数目。另外,


3.基因家族筛选

在分析结果的表格中,可以直接使用鼠标或使用逻辑选择条件选择多个基因家族,通过双击弹出菜单中的表格单元格来显示选择标准。如果双击数值列,则选择选项为“等于”、“小于或等于”和“大于或等于”,其参考值取自您单击的单元格。如果双击文本列(注释和族名称),则选择选项为“EQUALS”和“CONTAINS”。通过这种方式,可以选择具有特定功能类别、大小或分类单元表示的族。或者,使用显示某些分析结果的表格,可以基于祖先节点的存在或其他推断特征来定义选择条件。


4.基因翻转率

比率模型的信息面板由三部分组成:显示增益率/损失率/复制率数值的表格(左上角)、比率类别的图解(右上角)和分支机构特定增益率、损失率和重复率的图解(下半部分)。


模型参数设置过程:首先要通过#lin≥1过滤基因家族。第二,需要选择初始模型,可以是预定义空模型,也可以是以前计算的比率模型。第三,需要选择优化的模型架构:增益-损失-复制、复制-损失、增益-损失和纯损失。最普遍的模型是获得-损失-复制模型,因为它没有限制谱系特异速率;复制-丢失模型,假设所有获得率为零;获得-丢失模型,假设所有复制率为零;纯损失模型,假设获得和复制率都为零。第四,需要选择根处的先验分布的类型:泊松分布、负二项分布或伯努利分布。第五,如果树边缘之间的复制率和增益率可能不同,则必须选择该选项。比方说,如果选中了“所有谱系中相同的获得/丢失比”框,则优化假设ˆκe=κ用于某个公共获得率κ,并且优化单个模型参数κ以及ˆTee和可能的ˆλe。第六,需要选择系列间速率变化的类型:这包括离散伽马类别的数量(如果没有伽马变化=1),以及可能的无重复和无获得类别。最终的参数集包括用于数值优化的计算参数。优化分轮次进行:所有模型参数每轮次优化一次。当在连续的两轮中,对数似然(自然对数)变化小于给定的收敛阈值时,优化在给定的最大优化轮次之后或更早停止。

在“模型参数”选项卡下,您可以设置所有模型参数的初始值,也可以将某些参数排除在优化之外。要从优化中排除某些参数,请选中其“固定”复选框。


5. 祖先基因家族推断

然后我们进行下一步的祖先基因家族推算及物种基因组进化分析,Count提供了四种对应的分析方法:

  • Dollo parsimony:假设每个基因家族仅出现一次,然后用系统特异性解释存在-缺失模式;
  • Wagner parsimony:优化每个基因家族个体的得失情况,推断严谨度(penalty)的最小值;
  • posterior probabilities:通过后代(外围分支)基因组大小,计算内部节点基因家族大小的概率以重建祖先的基因组;
  • 基因丢失倾向法PGL (Propensity for Gene Loss)。
    这四种方法都有相似的结果页面,由三部分组成,包括基因家族个性化展示界面、种系进化(基因得失数目)展示界面,以及展示在下方的发育树。


左上方的表格中每一行代表一个基因家族,它们的信息包括基因家族索引号、名称、功能注释、末端分支出现该家族在的个数(#lin)、该家族在末端分支的出现次数(#mem)和系统进化框架(phylogenetic profile),最后一列列出了使用的分析方法。在进化框架profile 中黑色条块表示基因家族存在,条块的高度与每个节点家族大小的对数成正比。在家族表格中可以选中多行,右方的种系进化(基因得失数目)展示界面(lineage table)会显示基因家族得失的总和,下方的发育树会对所选中家族的进化历史进行可视化标注。

系统表格合计了选中家族的数目,包括所选基因家族的总数(Families),每个节点展示multi-member家族的总数(:m)、每个节点边缘基因家族的得(:g,gains)、失(:l,losses)扩增(++,expansions)和收缩(--,contractions)。

分析页面下方展示的发育树显示了所选中的基因家族的进化历史推断情况。当选中的家族数目少于7个时,就会将每一个分开进行展示。如果数目大于7,就会汇总展示总数。图中空的矩形表示基因家族相对于祖先基因组发生了基因丢失,阴影代表存在。上半部分的信息显示了基因家族存在多重成员(multiple members),阴影面积的大小在单个矩形的水平程度的正比就是这个多重成员以及基因家族存在(下部分)的可能性。


参考链接

  1. https://www.cnblogs.com/huangying78/p/8638506.html
  2. https://www.cnblogs.com/djx571/p/10697673.html
  3. http://www.iro.umontreal.ca/~csuros/gene_content/count.html
  4. https://www.jianshu.com/p/146093c91e2b
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 159,015评论 4 362
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 67,262评论 1 292
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 108,727评论 0 243
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 43,986评论 0 205
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 52,363评论 3 287
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 40,610评论 1 219
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 31,871评论 2 312
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 30,582评论 0 198
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 34,297评论 1 242
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 30,551评论 2 246
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 32,053评论 1 260
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 28,385评论 2 253
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 33,035评论 3 236
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 26,079评论 0 8
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 26,841评论 0 195
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 35,648评论 2 274
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 35,550评论 2 270

推荐阅读更多精彩内容