分子进化树构建及数据分析方法介绍【转】

首先是方法的选择。
基于距离的方法有UPGMA、ME(Minimum Evolution,最小进化法)和NJ(Neighbor-Joining,邻接法)等。其他的几种方法包括MP(Maximum parsimony,最大简约法)、ML(Maximum likelihood,最大似然法)以及贝叶斯(Bayesian)推断等方法。其中UPGMA法已经较少使用。
一般来讲,如果模型合适,ML的效果较好。对近缘序列,有人喜欢MP,因为用的假设最少。MP一般不用在远缘序列上,这时一般用NJ或ML。对相似度很低的序列,NJ往往出现Long-branch attraction(LBA,长枝吸引现象),有时严重干扰进化树的构建。贝叶斯的方法则太慢。对于各种方法构建分子进化树的准确性,一篇综述(Hall BG. Mol Biol Evol 2005, 22(3):792-802)认为贝叶斯的方法最好,其次是ML,然后是MP。其实如果序列的相似性较高,各种方法都会得到不错的结果,模型间的差别也不大。
对于NJ和ML,是需要选择模型的。对于各种模型之间的理论上的区别,这里不作深入的探讨,可以参看Nei的书。对于蛋白质序列以及DNA序列,两者模型的选择是不同的。以作者的经验来说,对于蛋白质的序列,一般选择Poisson Correction(泊松修正)这一模型。而对于核酸序列,一般选择Kimura 2-parameter(Kimura-2参数)模型。如果对各种模型的理解并不深入,作者并不推荐初学者使用其他复杂的模型。
Bootstrap几乎是一个必须的选项。一般Bootstrap的值>70,则认为构建的进化树较为可靠。如果Bootstrap的值太低,则有可能进化树的拓扑结构有错误,进化树是不可靠的。
对于进化树的构建,如果对理论的了解并不深入,作者推荐使用缺省的参数。需要选择模型的时候(例如用NJ或者ML建树),对于蛋白序列使用Poisson Correction模型,对于核酸序列使用Kimura-2参数模型。另外需要做Bootstrap检验,当Bootstrap值过低时,所构建的进化树其拓扑结构可能存在问题。并且,一般推荐用两种不同的方法构建进化树,如果所得到的进化树类似,则结果较为可靠。
软件的选择表1中列出了一些与构建分子进化树相关的软件。
构建NJ树,可以用PHYLIP(写得有点问题,例如比较慢,并且Bootstrap检验不方便)或者MEGA。MEGA是Nei开发的方法并设计的图形化的软件,使用非常方便。作者推荐MEGA软件为初学者的首选。虽然多雪列比对工具ClustalW/X自带了一个NJ的建树程序,但是该程序只有p-distance模型,而且构建的树不够准确,一般不用来构建进化树。
构建MP树,最好的工具是PAUP,但该程序属于商业软件,并不对学术免费。因此,作者并不建议使用PAUP。而MEGA和PHYLIP也可以用来构建进化树。这里,作者推荐使用MEGA来构建MP树。理由是,MEGA是图形化的软件,使用方便,而PHYLIP则是命令行格式的软件,使用较为繁琐。对于近缘序列的进化树构建,MP方法几乎是最好的。构建ML树可以使用PHYML,速度最快。或者使用Tree-puzzle,速度也较快,并且该程序做蛋白质序列的进化树效果比较好。而PAML则并不适合构建进化树。
ML的模型选择是看构出的树的likelihood值,从参数少,简单的模型试起,到likelihood值最大为止。ML也可以使用PAUP或者PHYLIP来构建。这里作者推荐的工具是BioEdit。BioEdit集成了一些PHYLIP的程序,用来构建进化树。Tree-puzzle是另外一个不错的选择,不过该程序是命令行格式的,需要学习DOS命令。PHYML的不足之处是没有win32的版本,只有适用于64位的版本,因此不推荐使用。值得注意的是,构建ML树,不需要事先的多序列比对,而直接使用FASTA格式的序列即可。
贝叶斯的算法以MrBayes为代表,不过速度较慢。一般的进化树分析中较少应用。由于该方法需要很多背景的知识,这里不作介绍。
表1 构建分子进化树相关的软件
软件

网址

说明

ClustalX

http://bips.u-strasbg.fr/fr/Documentation/ClustalX/

图形化的多序列比对工具

ClustalW

http://www.cf.ac.uk/biosi/research/biosoft/Downloads/clustalw.html

命令行格式的多序列比对工具

GeneDoc

http://www.psc.edu/biomed/genedoc/

多序列比对结果的美化工具

BioEdit

http://www.mbio.ncsu.edu/BioEdit/bioedit.html

序列分析的综合工具

MEGA

http://www.megasoftware.net/

图形化、集成的进化分析工具,不包括ML

PAUP

http://paup.csit.fsu.edu/

商业软件,集成的进化分析工具

PHYLIP

http://evolution.genetics.washington.edu/phylip.html

免费的、集成的进化分析工具

PHYML

http://atgc.lirmm.fr/phyml/

最快的ML建树工具

PAML

http://abacus.gene.ucl.ac.uk/software/paml.html

ML建树工具

Tree-puzzle

http://www.tree-puzzle.de/

较快的ML建树工具

MrBayes

http://mrbayes.csit.fsu.edu/

基于贝叶斯方法的建树工具

MAC5

http://www.agapow.net/software/mac5/

基于贝叶斯方法的建树工具

TreeView

http://taxonomy.zoology.gla.ac.uk/rod/treeview.html

进化树显示工具

需要注意的几个问题是:
其一,如果对核酸序列进行分析,并且是CDS编码区的核酸序列,一般需要将核酸序列分别先翻译成氨基酸序列,进行比对,然后再对应到核酸序列上。这一流程可以通过MEGA 3.0以后的版本实现。MEGA3现在允许两条核苷酸,先翻成蛋白序列比对之后再倒回去,做后续计算。
其二,无论是核酸序列还是蛋白序列,一般应当先做成FASTA格式。FASTA格式的序列,第一行由符号“>”开头,后面跟着序列的名称,可以自定义,例如user1,protein1等等。将所有的FASTA格式的序列存放在同一个文件中。文件的编辑可用Windows自带的记事本工具,或者EditPlus(google搜索可得)来操作。
文件格式如图1所示:
图1 FASTA格式的序列

另外,构建NJ或者MP树需要先将序列做多序列比对的处理。作者推荐使用ClustalX进行多序列比对的分析。多序列比对的结果有时需要后续处理并应用于文章中,这里作者推荐使用GeneDoc工具。而构建ML树则不需要预先的多序列比对。
因此,作者推荐的软件组合为:MEGA 3.1 + ClustalX + GeneDoc + BioEdit。
数据分析及结果推断一般碰到的几类问题是,(1)推断基因/蛋白的功能;(2)基因/蛋白家族分类;(3)计算基因分化的年代。关于这方面的文献非常多,这里作者仅做简要的介绍。
推断基因/蛋白的功能,一般先用BLAST工具搜索同一物种中与不同物种的同源序列,这包括直向同源物(ortholog)和旁系同源物(paralog)。如何界定这两种同源物,网上有很多详细的介绍,这里不作讨论。然后得到这些同源物的序列,做成FASTA格式的文件。一般通过NJ构建进化树,并且进行Bootstrap分析所得到的结果已足够。如果序列近缘,可以再使用MP构建进化树,进行比较。如果序列较远源,则可以做ML树比较。使用两种方法得到的树,如果差别不大,并且Bootstrap总体较高,则得到的进化树较为可靠。
基因/蛋白家族分类。这方面可以细分为两个问题。一是对一个大的家族进行分类,另一个就是将特定的一个或多个基因/蛋白定位到已知的大的家族上,看看属于哪个亚家族。例如,对驱动蛋白(kinesin)超家族进行分类,属于第一个问题。而假如得到一个新的驱动蛋白的序列,想分析该序列究竟属于驱动蛋白超家族的14个亚家族中的哪一个,则属于后一个问题。这里,一般不推荐使用MP的方法。大多数的基因/蛋白家族起源较早,序列分化程度较大,相互之间较为远源。这里一般使用NJ、ME或者ML的方法。
计算基因分化的年代。这个一般需要知道物种的核苷酸替代率。常见物种的核苷酸替代率需要查找相关的文献。这里不作过多的介绍。一般对于这样的问题,序列多数是近缘的,选择NJ或者MP即可。如果使用MEGA进行分析,选项中有一项是“Gaps/Missing Data”,一般选择“Pairwise Deletion”。其他多数的选项保持缺省的参数。
总结在实用中,只要方法、模型合理,建出的树都有意义,可以任意选择自己认为好一个。最重要的问题是:你需要解决什么样的问题?如果分析的结果能够解决你现有的问题,那么,这样的分析足够了。因此,在做进化分析前,可能需要很好的考虑一下自己的问题所在,这样所作的分析才有针对性。
序列比对建议用ClustalX
建NJ或MP树,用MEGA就可以了,非常方便
若要建ML树推荐用phyML
建Bayes树推荐用Parallel MrBayes

NCBI的COG介绍:
什么是COG
COG”是Cluster of Orthologous Groups of proteins(蛋白相邻类的聚簇)的缩写。构成每个COG的蛋白都是被假定为来自于一个祖先蛋白,并且因此或者是orthologs或者是paralogs。Orthologs是指来自于不同物种的由垂直家系(物种形成)进化而来的蛋白,并且典型的保留与原始蛋白有相同的功能。Paralogs是那些在一定物种中的来源于基因复制的蛋白,可能会进化出新的与原来有关的功能。请参考文献获得更多的信息。
COG分类是如何构建的?
COG是通过把所有完整测序的基因组的编码蛋白一个一个的互相比较确定的。在考虑来自一个给定基因组的蛋白时,这种比较将给出每个其他基因组的一个最相似的蛋白(因此需要用完整的基因组来定义COG。注1)这些基因的每一个都轮番的被考虑。如果在这些蛋白(或子集)之间一个相互的最佳匹配关系被发现,那么那些相互的最佳匹配将形成一个COG(注2)。这样,一个COG中的成员将与这个COG中的其他成员比起被比较的基因组中的其他蛋白更相像,尽管如果绝对相似性比较的。最佳匹配原则的使用,没有了人为选择的统计切除的限制,这就兼顾了进化慢和进化快的蛋白。然而,还有一个加的限制就是一个COG必须包含来自于3个种系发生上远的基因组的一个蛋白。
注1:仅仅应用在形成COG时,不包含新蛋白的信息。
注2:为了简化,许多步骤都省略的,请参考文献。
使用COG可以得到什么样的信息?
简单的说,有三方面的信息:
1,蛋白的注解。COG的一个蛋白成员的已知功能(以及二维或三维结构)可以直接应用到COG的其他成员上去。然而,这里也要警告,因为有些COG含有paralogs,它们的功能并非对应与那些已知蛋白。
2,种系发生图谱。这给出在一个特定的COG中一个给定物种是否存在某些蛋白。系统使用,这些图谱可以用来确定在一个物种中是否一个特定的代谢途径。
3,多重对齐。每一个COG页面包括了一个链接到COG成员的一个多重对齐,那可以被用来确定保守序列残基和分析成员蛋白的进化关系。
COG分类有哪些?
目前COG分类中每个字母代表的功能分类含义:
INFORMATION STORAGE AND PROCESSING
[J] Translation, ribosomal structure and biogenesis
[A] RNA processing and modification
[K] Transcription
[L] Replication, recombination and repair
[B] Chromatin structure and dynamics
CELLULAR PROCESSES AND SIGNALING
[D] Cell cycle control, cell division, chromosome partitioning
[Y] Nuclear structure
[V] Defense mechanisms
[T] Signal transduction mechanisms
[M] Cell wall/membrane/envelope biogenesis
[N] Cell motility
[Z] Cytoskeleton
[W] Extracellular structures
[U] Intracellular trafficking, secretion, and vesicular transport
[O] Posttranslational modification, protein turnover, chaperones
METABOLISM
[C] Energy production and conversion
[G] Carbohydrate transport and metabolism
[E] Amino acid transport and metabolism
[F] Nucleotide transport and metabolism
[H] Coenzyme transport and metabolism
[I] Lipid transport and metabolism
[P] Inorganic ion transport and metabolism
[Q] Secondary metabolites biosynthesis, transport and catabolism
POORLY CHARACTERIZED
[R] General function prediction only
[S] Function unknown

遗传密码的新排列和起源探讨
肖景发, 于军中国科学院北京基因组研究所, 中国科学院“基因组科学及信息”重点实验室
摘要根据DNA核苷酸组分的动态变化规律将遗传密码的传统排列按密码子对GC和嘌呤含量的敏感性进行了重排. 新密码表可划分为两个半区(或1/2区)和四个四分区(或1/4区). 就原核生物基因组而言, 当GC含量增加时, 物种蛋白质组所含的氨基酸倾向于使用GC富集区和嘌呤不敏感半区所编码的氨基酸, 它们均使用四重简并密码, 对DNA序列的突变具有相对鲁棒性(Robustness). 当GC含量降低时, 大多数密码子处于AU富集区和嘌呤敏感半区, 这个区域编码的氨基酸具有物理化学性质的多样性. 因为当密码子第三位核苷酸(CP3)在嘌呤和嘧啶之间发生转换时, 密码子所编码的氨基酸也倾向于发生变化.
关于遗传密码的进化存在多种假说, 包括凝固事件假说、共进化假说和立体化学假说等, 每种假说均试图解释遗传密码所表现出来的某些化学和生物学规律. 基于遗传密码的物理化学性质、基因组变异的规律和相关的生物学假说, 我们提出了遗传密码分步进化假说(The Stepwise Evolution Hypothesis for the Genetic Code). 在人们推断的最原始的RNA世界里, 原初(Primordial)遗传密码从只能识别嘌呤和嘧啶开始, 编码一个或两个简单而功能明确的氨基酸. 由于胞嘧啶C的化学不稳定性, 最初形成的遗传密码应该仅仅由腺嘌呤A和尿嘧啶U来编码, 却可得到一组七个多元化的氨基酸. 随着生命复杂性的增加, 鸟嘌呤G从主载操作信号的功能中释放出来, 再伴随着C的引入, 使遗传密码逐步扩展到12、15和20个氨基酸, 最终完成全部进化步骤.
遗传密码的进化过程同时也伴随以蛋白质为主体的分子机制和细胞过程的进化, 包括氨酰tRNA合成酶(AARS)从初始翻译机器上的脱离、DNA作为信息载体而取代RNA以及AARS和tRNA共进化等基本过程. 分子机制和细胞过程是生命的基本组成元件, 它们不但自己不断地趋于完善, 也促使生命体走着不尽相同的道路, 要么维持鲁棒性(Robustness, 如细菌), 要么寻觅多元化(Diversity, 如节肢动物和植物), 要么追求综合性(Complexity, 如脊椎动物).
自从密码子被全部发现以来, Crick[1]
就将遗传密码表排列成化学家所认可的形式. 尽管后来有些特殊表现形式的列方式(如同心圆、八卦式和二元密码等), 但其基本排布一直延续至今[1~3]
. 遗传密码以4个脱氧核糖核苷酸作为基本符号来组成遗传信息, 并以20个氨基酸作为基本结构单元来构建蛋白质. 遗传密码是使用4个碱基(两个嘌呤: 腺嘌呤A和鸟嘌呤G; 2个嘧啶: 尿嘧啶U和胞嘧啶C)构成的三联体密码子, 共64个, 分别对应20个氨基酸或翻译起始和终止信号. 生物体要将DNA分子中储存的信息内涵转变成功能内涵, 就要利用信使mRNA、解码分子tRNA和完整翻译机器等多重功能. 各种复杂分子机制和细胞过程的诞生和成熟一定会反映生命从RNA世界到RNA-蛋白质世界, 再到RNA-蛋白质-DNA世界逐渐转变的过程, 遗传密码作为一个独立的生物学机制也一定是漫长生命进化过程中的一个必然产物.
20世纪60年代初, 实验分子生物学最大的进展就是解码遗传密码, 发现它在生命有机体中, 基本是统一的. 自此不同的假设均试图解释遗传密码的信息和化学特性, 从简单的凝固事件假说到更复杂的统计学、共进化和立体化学理论. 凝固事件假说认为密码子与氨基酸的对应关系是在某个生命发生时段里被固定下来, 并且很难被改变[2]
, 这个假说一直被基于适应性、历史性和化学性的不同论点所挑战[4]
. 尽管关于遗传密码的进化也有人提出过不同的假设, 但是解释密码子的分配原则、物理化学性质的相关性和DNA组分变化对密码子使用频率的牵动, 从而揭示遗传密码表的生物学本质仍然是一个不小的挑战[2,5]
.
1 重排遗传密码表
重排遗传密码表有3个重要原因. 首先, DNA序列有4个最基本的可度量的变化, 即核苷酸序列、序列长度、GC含量和嘌呤(R或AG)含量. 假如把核苷酸序列和长度相对于时间的变化暂时不考虑, 那么只有后面的两个变量对于传统的遗传密码表具有影响力, 所以重排应该以GC和嘌呤含量的变化为主线. 但以前大家熟知的密码表排列只是为了简明和清晰地显示密码子和氨基酸的一一对应关系, 却忽略了密码表本身对氨基酸物理化学性质多样性的表现和DNA编码承受突变的鲁棒性等明显信息. 因此, 有必要把传统的密码表进行重新排列[6]
, 使其能够表现信息内涵和功能内涵之间的基本关系. 其次, 当GC含量和嘌呤含量变化时, 希望从密码表中找出相应蛋白质组成变化的线索. 图1展示了GC含量和嘌呤含量在极端状态下4个微生物基因组的氨基酸组分分布.


图****1 ****在****GC****含量和嘌呤含量极端状态下****4****个微生物基因组的氨基酸组分分布
1.1 密码表的分区和基本内涵
遗传密码表可按密码子对于GC含量变化的敏感性分为4个四分区(或称1/4区, 见图2): AU富集、GC富集和两个GC不敏感区(GCP1和GCP2区). 如果暂时忽略密码子第三位的变化, 可以看出AU和GC富集区对GC含量变化非常敏感. 还可以根据密码子在这个区里的分布预测密码子第二位的GC含量大于第一位的GC含量(GC2>GC1), 因为GCP2区里含有终止密码子, 尽管密码子使用偏好可能使真实统计变得复杂些. 在AU富集区里编码的氨基酸具有理化性质的多元性, 共有16个密码子. 除了编码7个氨基酸外, 还编码两个终止密码子和一个起始密码子. 比较而言, GCP1和GCP2区分别只编码6个氨基酸, 而GC富集区则只编码4个氨基酸. AU富集区只占编码总量的1/4, 却含有足够多的信息, 使得很容易推测这个区可能在生命的早期(只有A和U存在时)作为原始的遗传密码来编码简单的蛋白质组分或更简单的多肽. 正是这些简单的蛋白质使原始生命体的分子机制和细胞过程开始变得复杂和多元.
新表按照对嘌呤含量变化的敏感性可划分成两个半区. 同时, 也可按照编码氨基酸在三联密码子第三位(CP3位)嘌呤和嘧啶(Y)间的变化再分为四重简并和两重简并(两个特例为AUR和UGR). 基于它们对所编码氨基酸功能的暗示, 将这两个半区分别叫做趋变半区(Pro-diversity)和趋棒半区(Pro-robustness), 简称为PD半区和PR半区. 这种清晰的划分使人们能进一步观察、分析和预测DNA序列变化与密码子(氨基酸)的关系. 首先值得关注的是具有六联码(六重简并)的3个氨基酸: 丝氨酸(Ser)、精氨酸(Arg)和亮氨酸(Leu). 它们的四联部分和二联部分恰好都分布在两个不同的半区里, 因此它们可以通过内部密码子间的转换分别平衡在所跨的半区里的分布(图2(C)). 因为它们的简并性, 可以预测它们是所有物种中相对最富集的氨基酸. 该分布也可以用这3个氨基酸的特殊物理化学性质(如重要催化残基)和独特功能域骨架(如Leucine zipper和SR富集功能域等)在细胞蛋白质组中的丰度来解释. 另外, 所有的无义密码子均分布在PD半区. 当GC含量变化时, UAA, UAG和UGA会转变成其他氨基酸, 具有在3′末端扩展蛋白质长度的潜力. 另外, 由于分布在密码表多个区域, 两个碱性氨基酸Arg和赖氨酸(Lys)对GC含量变化具有鲁棒性. 而两个酸性氨基酸, 天门冬氨酸(Asp)和谷氨酸(Glu), 同时分布在GCP2区对GC含量变化不敏感, 同样可以预测它们在蛋白质的中丰度会较高, 同时两者的化学性质具有很高的相似性, 成为典型的伪四联码(Pseudoquartet). 最后, 脯氨酸(Pro)处于GC富集区的角落处, 只有当GC含量通常较高时才会在蛋白质组中多见, 用它的肽键所形成的小拐角来取代多个氨基酸所形成的大拐角. 总之, 在DNA组分变化时, 20种氨基酸也随之发生有规律的变化, 造成蛋白质组(几乎所有的蛋白质)的鲁棒性和多元化, 这些互动和变化的规律一定受限于氨基酸的物理化学性质和蛋白质的生物功能, 最后形成了一种相对稳定的关系, 这就是密码表所要体现的关系.
2
2

图****2**** ****重新排布的遗传密码表和按照****GC****含量和****AG****含量遗传密码表的两种划分方式
R: 嘌呤; Y: 嘧啶; St: 终止密码子; Sr: 起始密码子
1.2 遗传密码形成的基本要素
重新排布的密码表揭示了密码子的分布与GC含量变化的直接关系(真细菌基因组的GC含量的波动幅度在20%~80%之间). 首先以GC含量变化作为初始参数, 可以把遗传密码分成两部分. 其次, 高GC含量的遗传密码多为四联码, 它们的形成是为了缓解GC含量增加的影响(CP3位), 减轻DNA突变压力, 因为GC富集区编码的氨基酸很少参与催化活性以及起始和终止信号. 另外, 物理化学性质多样性的氨基酸和信号密码子大多集中在AU富集区. 同时, GC不敏感区的功能主要是保护功能丰富性氨基酸, 而最原始的理化性质往往已经被其他分布所平衡, 例如亮氨酸(Leu)和丙氨酸(Ala)已经在AU富集区和GC富集区间造成疏水性氨基酸间的平衡.
嘌呤含量变化是第二个需要考虑的因素. 其实真细菌基因组嘌呤含量的波动在40%~60%之间, 并非Chargaff规则所说的50%[7,8]
. 图3展示了真细菌基因组GC含量和嘌呤含量变化的基本关系. 根据对嘌呤含量的敏感性将密码表划分PD和PR两个半区, 这种划分清晰地把四重简并密码和其他密码划分开来. 趋棒半区的5个氨基酸(六重简并的除外)具有低多样性和高突变稳定性的特点, 每一个氨基酸都在表中其他位置有物理化学性质相近的其他氨基酸, 变化仅仅体现在某些细微的程度上(Subtlety).
重排密码表的另一个显著特点是把那些体积最小但理化性质特异的氨基酸分布在DNA组分变化时不大容易发生的区域(变化均为颠换而不是转换). 假如按照大小作为参数排列这4个最小的氨基酸, 甘氨酸(Gly)(侧链体积60.1和表面积75), Ala(88.6和115), Ser(89和115)和半胱氨酸Cys(108.5和135), 其他氨基酸都比这4个氨基酸大.
3
3

图**** 3 ****真细菌基因组****GC****含量和嘌呤含量变化的基本关系
1.3 密码子合理分布的最终目的是平衡蛋白质组分的多样性和对
DNA
突变的鲁棒性
遗传密码分布的实质是体现一种平衡, 一种既可利用DNA突变来增加蛋白质组的多样性又可利用密码子的分布来减轻突变所造成损失的能力. 尽管遗传密码表可划分GC与嘌呤的敏感性和不敏感性、氨基酸多样性和简并性、突变敏感性和突变耐受性, 但是这些划分并没有任何明显的倾向性. 可以预见这个平衡有时也会遭到严重破坏, 比如GC含量到极至和真细菌的嘌呤含量也超过Chargaff规则时[9]
, 这种压力就会毫无保留地体现在蛋白质序列的改变上. 但在密码表嘌呤敏感(PD和趋变)半区的氨基酸之间也具有某些补救性的分布. 例如Asp和Glu就位于同一个四分区, 当只有负电荷变得重要(大小和容积不太要求)时, 嘌呤和嘧啶在CP3位置变化的影响就被弱化了. 扩展来说, 在PD半区有几种相似的情况出现, 包括Q/H(尺度)、M/I(疏水性)、L/F(疏水性)、R/S(极性)、W/C(极性)和K/N(极性)(表1). 这种分析体现了很强的合理性, 目前还没有发现在同一分组(四联位)中编码的氨基酸具有混合特征, 如: 疏水性对亲水性, 极性对非极性等. 因此, 密码表的这些基本排布原则, 称之为“最小损伤原则”(Minimal Damage Principle).
**2 **关于遗传密码起源的种种假说和新的分步进化假说
关于密码子的起源和进化一直是科学界广泛探讨的一个重要话题, 多年来的主要研究进展包括凝固事件假说、共进化假说和立体化学假说等[10~19]
, 以及本研究组最近提出的关于密码分步进化的新推测[20,21]
.
2.1进化假说
进化假说(Co-evolution Hypothesis)提出标准密码(Canonical Code)是从早期原始的简单密码进化而来的. 这个原始的密码可能是由64个密码子通过高度简并, 只编码少量的氨基酸. 现在的氨基酸密码可能是通过篡夺和它具有相近生物合成路径氨基酸的密码而得到的[10~14]
.
L. Klipcan[13]
提出假设氨酰tRNA合成酶(AARS)和氨基酸及其辅因子的生物合成存在关联性, 并指出Class II 的AARS 相对应的氨基酸较早出现, 而Class I 的AARS对应的氨基酸在进化上出现较晚. 他还指出最原始的遗传密码可能是5个基本氨基酸Ala, Gly, Ser, Asp, Glu和缬氨酸(Val). 所有这些氨基酸均是GC富集和相应的生物合成路径最短和最简单的氨基酸, 以及相应的AARS属于Class II. 接着引入4~5个氨基酸对应遗传密码的扩展, 分别为天门冬酰胺(Asn)、苏氨酸(Thr)、Pro和谷氨酰胺(Gln). 另一个可能是Arg, 这些氨基酸生物合成路径的复杂性基本处于中间位置. 第三阶段所有编码的氨基酸均被引入, 这次引入的氨基酸和Class I 的AARS有很强的相关性, 同时这些氨基酸使用的遗传密码多含尿嘧啶, 最后引入的氨基酸合成通常需要非常长的代谢途径.
B.K. Davis[14]
通过氨基酸生物合成路径长度和其他关于密码分配时间分子描述符比较来检验和构建密码的进化的主要阶段, 认为密码树来源于16个三联体密码(NAN系列)对应于4个固N氨基酸 (Asp, Glu, Asn, Gln). 通过这些氨基酸的寡聚化形成包含多聚阴离子氨基酸的肽链把不带电荷氨基酸定位于带正电荷的矿物质表面. 为了降低基因突变导致基因编码不可解读的危险性,遗传密码需要进一步扩展. 这一步通常起始于翻译序列5'端密码, 对应疏水性氨基酸NUN系列密码分配相对较慢, 它编码大部分非极性氨基酸. 最后带正电荷和芳香性氨基酸最后被引入, 自此具有酸碱催化功能的酶的合成也成为可能, 对应的两种类型氨酰tRNA合成酶应该出现在这一时期.
2.2 立体化学假说
立体化学假说指出密码子的分配直接与RNA和氨基酸之间的化学作用密切相关, 因此密码的立体化学本质扩展到氨基酸和相应的密码子之间的物理和化学方面的互补性[15~19]
.
Wu[17]
提出一个简单密码进化的新假设, 基于翻译过程中每一步3个碱基的读码机制包含从单体到双联体密码再到三联体密码子的进化过程. 建议三联体密码是从两种类型双联体密码逐渐进化得来的, 这两种双联体密码划分是按照三联体密码中固定的碱基位置划分的, 包括前缀密码子(Prefix codons)和后缀密码子(Suffix codons). 这个假设可以解释遗传密码多种特征, 如其中包含四重简并三联体密码和两重简并三联体密码的模式, 翻译错误最小化性质的本质和为什么只有20个编码的氨基酸.
Delarue[18]
按照tRNA的氨酰基化机制把密码子的分配表当成一个典型的反对称分布模式, 这种模式可以通过连续的二元决定阈逐步降低密码子的模糊性, 可以通过定义一个简单的规则, 使每个密码子的解码可以按照二元分类方式, 从而提供相应密码和密钥. 按照模型密码子的最终分化步骤包括: (1) Y/R 在密码子的第二个位置打破对称性分配; (2) 在密码子的第二个位置按照 G/A 和 C/U特殊性; (3) R/Y在密码子的第一个碱基位置对称性打破; (4) 在密码子的第一个碱基位置对称打破A/G和C/U; (5) Y/R在密码子的第三个位置按照对称性打破.
按照分子识别理论,通过无义密码和有义密码矩阵、反义和反无义密码矩阵以及与疏水性矩阵的比较, 可以明显地把氨基酸分成两个组: 疏水性和亲水性组, 这个划分直接与蛋白质的折叠相关. 初始的遗传密码只区分这两种类型的氨基酸, 使蛋白质具有折叠成稳定三维结构的能力, 这种多肽与RNA分子形成核糖体蛋白复合物来稳定编码RNA. Houen[
19]
指出, 基于上述推断原始的密码子包括Leu, Arg和Ser. 遗传密码的进一步扩展增加功能性亲水氨基酸, 因为暂时还没有增加结构疏水性氨基酸的必要性. 在遗传密码进化的某一阶段, 双链DNA作为遗传信息的载体取代RNA, 此过程需要高度特异性的酶体系, 因此需要对遗传密码进行进一步优化而引入其他氨基酸.
**2.3 **遗传密码的分步进化假说
基因密码与人造密码具有相似性, 即需要成对的算法和两个相应的解码钥匙共同创造和完成解码工作, 基因密码的算法和钥匙的组成材料是由两个细胞空间的成分组成: 细胞核和细胞质. 细胞核的成分是DNA(Text1)和三重密码子(Key1)共同组成遗传密码(Algorithm1), 胞质里的成分包含蛋白质(Text2)和mRNA-ribosomes-tRNA 组成的复合体(Algorithm2), 通过氨酰tRNA合成酶(Key2)进行解码, 使mRNA序列所承载的编码内容被解码(图4). 这个过程是通过长期进化演变出来的分子机制和细胞过程统一实施的.
4
4

图**** 4 ****遗传密码****(A)****和文本密码****(B)****的比较

(1) RNA世界和早期遗传密码. RNA世界的存在首先被RNA分子具有相应催化功能的生物学特性所支持[22~26]
. 在RNA世界里, RNA具有双重的功能, 既是信息载体也是功能载体. 因为生命的基本分子机制和细胞过程起源于RNA世界, 所以没有理由说遗传密码不起源于RNA世界. 在RNA世界里RNA分子可以组成简单的核苷酸多聚物, 这种多聚物在近亿年的成熟期里, 为生命提供了足够的功能上的复杂性和多样性. 原始细胞可以通过相互争斗和吞噬获得基本的组成成分,因此基于模板的RNA合成可能对于生命的初始不是必需的. 可以想象这些RNA分子可以通过简单的聚合酶来合成, 通过自身剪接或化学修饰转变为其他相似的结构, 从而达到结构的可变性和功能的多样性. 此外, RNA的编辑(RNA Editing)也一定起了非常重要的作用, 这一分子机制一直延续到现在, 在包括人类在内的高级物种中仍然存在.
在现代生物世界里, 剪接体(Spliceosome)通常是用于RNA分子的剪接, 由蛋白质和RNA分子组成. 可以做两个假设, 生命可能起源于类真核有机体的原型细胞(在DNA引入之前)而不是类原核有机体的原型细胞. 在RNA组成的翻译机器(Translational Machinery)没有形成之前, 初始遗传密码可能不是必需的. 一旦这个初始生命进入到RNA-蛋白质组成的世界时, 多肽才逐渐按照密码子开始有序合成, 遗传密码就开始发挥其作用了. 可以认为有序的生命可以在与相对无序生命的争斗中更容易获胜和取得繁衍的空间.
现在可以推测初始遗传密码在RNA世界存在和进化的基本过程和起源时的基本逻辑关系. 初始生命一定比较简单, 分子间相互作用也比较宽松, 最小的编码系统可能只要区分嘌呤R和嘧啶Y就够了. 假定现代密码在生命的早期阶段已经被统一并相对忠实地继承了RNA密码的基本关系, 这个可能的原始编码就至少有7个氨基酸(I和M视为等同; 图5), 同时也有起始和终止密码子. 这7个氨基酸的侧链具有广泛的物理化学性质(氨基、酰基、苯环、羟基、酚基、烃链和甲硫基等), 但是没有小的和酸性的氨基酸. 可以推测: 体积小的氨基酸在初始蛋白质相互作用中的作用显然不如大的重要, 而碱性氨基酸的功能对于酸性DNA则是显而易见的. 另外的一种可能性是氨基酸与tRNA以及AARS之间的关系不是十分明确, 一个密码子对应多氨基酸的情况可能在遗传密码成熟前是普遍存在的[27]
. 由于7个氨基酸的编码区处于现代密码表的AU富集区, 可以确信初始密码子始于这个区域, 后来扩展到嘌呤敏感区即所谓趋变半区. 这个阶段的存在既复合由简到繁的逻辑, 也迎合了实验的证据, 那就是C的不稳定性和G在RNA操作功能上的作用[21, 28~29]
.


图**** 5 ****遗传密码的分步进化假说
最初形成的遗传密码应该仅仅由腺嘌呤A和尿嘧啶U来编码, 共编码7个多元化的氨基酸, 随着生命复杂性的增加, 鸟嘌呤G从主载操作信号的功能中释放出来, 再伴随着C的引入, 使遗传密码逐步扩展到12, 15和20个氨基酸
因为初始密码的核心作用, 有必要再拓展一下讨论. 认为初始密码的简单化是由初始翻译机器的原始性来决定的. 第一个AARS可能首先被作为蛋白质加工机器的组成部分(如核糖体的亚基之一), 它可以: (1) 不区别氨基酸的微妙差别, 或只识别简单的部分; (2) 将氨基酸底物按核糖体的排列随机加在肽链上; (3) 与氨基酸的代谢途径耦联, 受底物浓度的影响. 显然, 这个部分的分离是蛋白质复杂性增加的关键, 随后AARS不得不从蛋白质合成机器上分离出来, 对底物的专一性产生并不断增加, tRNAs也随之远离核糖体. 由于初始RNA编码的多肽通常用于细胞的完整性和对遗传物质的保护, 所以可以确信蛋白质的初始功能是与RNA结合和稳定膜的结构, 因此初始氨基酸必然是碱性、芳香性和疏水性的氨基酸. AARS的分离和独立进化是为了保证蛋白质成分的多样性, 也就是功能的多样性. AARS的进化树进一步成为本研究推断的佐证[30,31]
. 比如, AARS必须区分两个极性氨基酸Asn和酪氨酸(Tyr)、两个芳香性氨基酸Phe和Tyr, 但是对于Leu, Ile和甲硫氨酸(Met)则没有必要区分, 因此AARS两个家族的分化和本推论是完全一致的.
(2) 遗传密码的第一次拓展. 对于遗传密码的延伸, 引入新的构建元件, 本文有两个基本假定: 鸟嘌呤G的引入和A(腺嘌呤)-I(次黄嘌呤)编辑机制的作用, 这两种假设给原始的mRNA提供了显著的结构多样性和编码能力. 尽管这两种假设并不互相排斥, 两者之间可能独立或同时存在, 只是为了简单化才把它们分别进行讨论. 首先, G引入到转录本中存在有限的途径(同时作为蛋白质合成的能源和过程信号), 由于AG和GU作为剪切体的识别信号, 因此密码子的扩展只限于色氨酸(Trp), Glu, Asp, Cys和Gly. 这些扩展的氨基酸彼此之间具有显著不同的侧链理化性质: Trp是最大的氨基酸, Asp和Glu是带负电荷的氨基酸, Cys是可形成二硫键的氨基酸, Gly是最小的氨基酸. Glu, Asp和Cys的出现为蛋白质自身结构的稳定性和独立性提供了必要的结构单元. 其次, A-I的可选择性和经常性的RNA编辑使mRNA的复杂性不断增加. A和I的同时存在, 使密码子扩展到更多氨基酰-tRNA. 这个推断得到AARS分布的支持, 氨基酸的拓展和AARS家族的分类具有同步的规则, 而且核苷酸的修饰作用也被后续的生命机制所延续, 如tRNA反密码子和mRNA的摆动机制.

(3) 遗传密码的第二次拓展. 当GU和AG从作为剪接信号功能释放出来以后(剪接体的结构和功能随着蛋白质的演变而复杂化和精密化), 遗传密码引入了Arg, Ser和Val. 氨基酸的个数变成15个, 这次扩展是对已经存在的氨基酸物理化学性质和二级结构特性的扩展. Arg是Lys的替代体, Ser则对应Tyr, Val是疏水性氨基酸Leu, Ile和Met的补充[32~35]
.
最具吸引力的是六重简并的3个氨基酸Arg, Leu和Ser. 这些氨基酸在被引入后, 又由于核苷酸C在RNA世界的应用而扩展出各自的新四联码, 成为六重简并. 首先, Leu是在现代基因组中包括所有三界生物在内最丰富的氨基酸, Ser是真核生物第二丰富的氨基酸, Arg也是一个富有的氨基酸, 通常在细菌基因组中位于前10位. 其次, Leu在二重简并密码和四重简并之间最容易转换, 只需要通过简单U到C转换(UUR-CUR)即可, 这也说明Leu对于大多数蛋白质来说是用于当GC含量增加时维持蛋白质功能的完整性. 这些观察引出相应的假设: 这3个氨基酸的附加密码是为了当GC含量或AG含量增加时平衡富有氨基酸, 相应的密码分布按照平衡遗传密码的蛋白质多样性和蛋白质鲁棒性二等分. 这种平衡能力用于当编码序列突变发生时稳定蛋白质的氨基酸组成, 从而维护蛋白质结构的完整性.
(4) 遗传密码的最终拓展. 遗传密码的最终拓展是在DNA作为信息载体取代RNA使得信息载体具有更高的准确性和稳定性, 同时也产生了最为关键的从RNA到DNA的逆转录机制. 基于模板的DNA复制机制开辟了新的DNA-蛋白质-RNA世界. 很多新分子机制的进化包括DNA复制和修复、RNA的转录等, 使这个生物界里分子机制和细胞过程更趋于多元和完善. 同时当C和其脱氧衍生物分别作为结构模板加入RNA和DNA时, 标准遗传密码也就随之产生并被固定下来. 遗传密码本身得到新的补充并且编码能力有了很大提高. 组氨酸(His)和Glu立刻加入进来, 主要是由于它们具有相应的催化性质以及和原有的两个碱性氨基酸的相似性, Thr扩展了Ser的功能, 同时使蛋白质的结构增加了精细度, Ala同Ser相比具有类似的体积和尺度, 但其和Ser比具有很强的疏水性质[32,33]
. 这些新引入的氨基酸在蛋白质结构和功能多样性上起到非常关键的作用. 不容怀疑的是Pro的最后加入, 它具有其他氨基酸所不具备的性质, 即通过特有的方式使蛋白质的骨架结构扭曲达到蛋白质结构的紧密折叠. 相应的扩展模式在AARS同样得到支持遗传密码扩展的假设, 除了3个六重简并的遗传密码外, 这次共有六组遗传密码最终被引入, 同时编码6个氨基酸. 这6个氨基酸的AARS分类按照G和I 的配对原则延伸而来. 例如AARS对于双重编码的氨基酸His(CAR)和Gln(CAY)的对应, Glu(GAR)和Asp(GAY)的对应等.
遗传密码的进化就是密码子的有序发生和合理分布, 这个分布的合理性一定经过一个复杂选择过程. 首先, 通过长时间的创造和优化, 使其在基因组核苷酸序列发生突变时对蛋白质的结构起到缓冲的作用; 第二, 密码子采取这样一种特殊的排布方式: 当DNA组成从AU富集区到GC富集区改变时, 氨基酸的分布倾向于从具有催化性质的氨基酸转到具有结构性质的氨基酸; 第三, 充分利用密码子第三位多变的优势(通常体现在R和Y之间的转换), 来改变编码氨基酸的物理化学性质, 致使在趋变半区里大约有15个氨基酸对第三个位置R和Y之间的转换呈现敏感.
(5) 分子机制与细胞过程的进化. 尽管分子机制与细胞过程的根本界限有时会很模糊, 但还是将它们分开: 前者强调物理性的相互作用、发生的空间和组分的存在, 后者强调化学反应的结果、发生的时间和过程. 从一方面讲, DNA的变异显然是细胞过程的产物, 遗传密码的发生和最终形成也是它的产物. 从另一方面讲, 密码子与氨基酸的关系影响到细胞的蛋白质组分的变化, 即分子机制的变化[21]
. 比如, 如果在RNA世界需要产生多个拷贝的RNA分子, 一定需要一个分子机制来实现. 在现代生物世界里, 通常是由以DNA为模板的转录机制来完成, 但在RNA世界里没有RNA的复制, 多个RNA分子产生是由多聚酶和编辑体(Editosome)共同来完成的. 也许就是那个最原始的细胞机制. RNA世界的第二个分子机制发明可能是就剪接体, 这个分子机制在现代生物世界里仍然在发挥其重要的作用. 第三个分子机制也许是翻译体(Translatosome)的形成, 其用于直接进行蛋白质分子的加工, 这一分子机制是从原始的RNA世界到成熟的RNA世界再到现代生物世界里转折的重要标志. 在转折期里, 分子机制在蛋白质精确度的变化中不断完善和复杂, 直到DNA通过RNA和蛋白质的复合体引进到生命世界和逆转录体(Reverse Transcriptosome)的诞生. 在现代生物世界里, 生命体又最终发明了复制体(Replisome)、修复体(Repairosome)和转录体(Transcriptosome), 所有这些分子机制均以DNA为物质基础. 如果说翻译体是RNA世界终止的标志, 那么逆转录体也就意味着现代生物世界的诞生.
尽管遗传密码在现代生物世界里已经基本固定, 但新的分子机制和细胞过程还在不断地被创造, 它们不断地趋于完善和复杂, 新的物种也在不断地诞生. 代表生命的物种们也在不断的进化中走着不尽相同的道路, 要么维持鲁棒性(Robustness, 如细菌), 要么寻觅多样性(Diversity, 如节肢动物和植物), 要么追求复杂性(Complexity, 如脊椎动物). 很难相信遗传密码和它所编码的氨基酸就是铺垫所有这些道路的开创者和基石.
3 结束语
重排的密码表从根本上解释了DNA变异的规律与蛋白质编码序列(也就是氨基酸组成)之间的内在关系. 从这个关系里, 不仅找到了氨基酸物理化学性质与密码起源的关系, 也找到了可能的密码子进化和完善的途径, 并最终提出遗传密码的进化是与细胞的分子机制进化同步发生的. 理解遗传密码的起源和进化, 也就是理解生命的起源和进化.
尽管对于遗传密码的进化有很多假说, 本文也不想否定它们的合理性, 但是本文强调现代遗传密码的基本变化规律和生物学机制对人们自由遐想的限制. 事实不容许无限制地去推论, 人们需要的是寻求与遗传密码的起源和进化相关的事实或实验证据. 本研究提出遗传密码分步进化的机制, 不仅解释了遗传密码的分配机制是平衡氨基酸多样性和对DNA突变的鲁棒性, 也同时解释了AARS和遗传密码的共进化特征. 本研究组未来要揭示的是生命赖以存在的分子机制和细胞过程的起源和进化, 而不是单纯地探讨遗传密码的起源.
正如假说所预言: 如果AARS和tRNA联手的话, 遗传密码就有被重新排列的可能性. 但是如果现代氨基酸的存在不发生变化的话, 重排的结果可能还会是一样, 因为它们的理化性质是确定的. 也许在地球甚至地下的某一个角落里, 会发现某个氨基酸的根本缺失, 那时密码表显然会被改写, 但它的基本排列和对DNA突变压力的分解是不会改变的.

进化树上Bootstrap和Identity区别
Bootstrap,即自展值,是用来检验你所计算的进化树分支可信度的。简单地讲就是把序列的位点都重排,重排后的序列再用相同的办法构树,如果原来树的分枝在重排后构的树中也出现了,就给这个分枝打上一分,如果没出现就给0分,这样经过你给定的repetitions次(至少1000次)重排构树打分后,每个分枝就都得出分值,计算机会给你换算成bootstrap值。
Bootstrap values (步长值)是指在你选择的遗传距离算法(一般选择邻接法即NJ法)中软件根据所比对序列得到结果 比如 bootstrap value设置为1000,即软件构建了相应的1000”棵树“,在每个节点上显示的bootstrap value 即指在这1000次建树过程中,有相应的次数的频率这个分枝内的几株菌或几段序列在进化速度上相似,一般认为节点处的bootstrap value大于500时分析结果可信,bootstrap value 在mega ,philiphy,等软件中常见。
而在SAS等软件中,简述过程相对麻烦但是 最终显示的是Identity scores 即遗传距离,或者指进化距离,同样表示了待分析菌或序列的进化关系的远近。

分子进化树构建及数据分析

一、方法的选择首先是方法的选择。基于距离的方法有UPGMA、ME(Minimum Evolution,最小进化法)和NJ(Neighbor-Joining,邻接法)等。其他的几种方法包括MP(Maximum parsimony,最大简约法)、ML(Maximum likelihood,最大似然法)以及贝叶斯(Bayesian)推断等方法。其中UPGMA法已经较少使用。
一般来讲,如果模型合适,ML的效果较好。对近缘序列,有人喜欢MP,因为用的假设最少。MP一般不用在远缘序列上,这时一般用NJ或ML.对相似度很低的序列,NJ往往出现Long-branch attraction(LBA,长枝吸引现象),有时严重干扰进化树的构建。贝叶斯的方法则太慢。对于各种方法构建分子进化树的准确性,一篇综述(Hall BG. Mol Biol Evol 2005,22(3):792-802)认为贝叶斯的方法最好,其次是ML,然后是MP。其实如果序列的相似性较高,各种方法都会得到不错的结果,模型间的差别也不大。
对于NJ和ML,是需要选择模型的。对于各种模型之间的理论上的区别,这里不作深入的探讨,可以参看Nei的书。对于蛋白质序列以及DNA序列,两者模型的选择是不同的。以作者的经验来说,对于蛋白质的序列,一般选择Poisson Correction(泊松修正)这一模型。而对于核酸序列,一般选择Kimura 2-parameter(Kimura-2参数)模型。如果对各种模型的理解并不深入,作者并不推荐初学者使用其他复杂的模型。
Bootstrap几乎是一个必须的选项。一般Bootstrap的值>70,则认为构建的进化树较为可靠。如果Bootstrap的值太低,则有可能进化树的拓扑结构有错误,进化树是不可靠的。
对于进化树的构建,如果对理论的了解并不深入,作者推荐使用缺省的参数。需要选择模型的时候(例如用NJ或者ML建树),对于蛋白序列使用Poisson Correction模型,对于核酸序列使用Kimura-2参数模型。另外需要做Bootstrap检验,当Bootstrap值过低时,所构建的进化树其拓扑结构可能存在问题。并且,一般推荐用两种不同的方法构建进化树,如果所得到的进化树类似,则结果较为可靠。
二、软件的选择构建分子进化树相关的软件:
ClustalX http://bips.u-strasbg.fr/fr/Documentation/ClustalX/ 图形化的多序列比对工具

ClustalW http://www.cf.ac.uk/biosi/research/biosoft/Downloads/clustalw.html 命令行格式的多序列比对工具

GeneDoc http://www.psc.edu/biomed/genedoc/ 多序列比对结果的美化工具

BioEdit http://www.mbio.ncsu.edu/BioEdit/bioedit.html 序列分析的综合工具

MEGA http://www.megasoftware.net/ 图形化、集成的进化分析工具,不包括ML

PAUP http://paup.csit.fsu.edu/ 商业软件,集成的进化分析工具

PHYLIP http://evolution.genetics.washington.edu/phylip.html 免费的、集成的进化分析工具

PHYML http://atgc.lirmm.fr/phyml/ 最快的ML建树工具

PAML http://abacus.gene.ucl.ac.uk/software/paml.html ML建树工具

Tree-puzzle http://www.tree-puzzle.de/ 较快的ML建树工具

MrBayes http://mrbayes.csit.fsu.edu/ 基于贝叶斯方法的建树工具

MAC5 http://www.agapow.net/software/mac5/ 基于贝叶斯方法的建树工具

TreeView http://taxonomy.zoology.gla.ac.uk/rod/treeview.html 进化树显示工具

上面中列出了一些与构建分子进化树相关的软件构建NJ树,可以用PHYLIP(写得有点问题,例如比较慢,并且Bootstrap检验不方便)或者MEGA。MEGA是Nei开发的方法并设计的图形化的软件,使用非常方便。作者推荐MEGA软件为初学者的首选。虽然多序列比对工具ClustalW/X自带了一个NJ的建树程序,但是该程序只有p-distance模型,而且构建的树不够准确,一般不用来构建进化树
构建MP树,最好的工具是PAUP,但该程序属于商业软件,并不对学术免费。因此,作者并不建议使用PAUP。而MEGA和PHYLIP也可以用来构建进化树。这里,作者推荐使用MEGA来构建MP树。理由是,MEGA是图形化的软件,使用方便,而PHYLIP则是命令行格式的软件,使用较为繁琐。对于近缘序列的进化树构建,MP方法几乎是最好的。
构建ML树可以使用PHYML,速度最快。或者使用Tree-puzzle,速度也较快,并且该程序做蛋白质序列的进化树效果比较好。而PAML则并不适合构建进化树。ML的模型选择是看构出的树的likelihood值,从参数少,简单的模型试起,到likelihood值最大为止。ML也可以使用PAUP或者PHYLIP来构建。这里作者推荐的工具是BioEdit。BioEdit集成了一些PHYLIP的程序,用来构建进化树。Tree-puzzle是另外一个不错的选择,不过该程序是命令行格式的,需要学习DOS命令。PHYML的不足之处是没有win32的版本,只有适用于64位的版本,因此不推荐使用。值得注意的是,构建ML树,不需要事先的多序列比对,而直接使用FASTA格式的序列即可。
贝叶斯的算法以MrBayes为代表,不过速度较慢在一般的进化树分析中较少应用,且该方法需要很多背景知识,这里不作介绍。
需要注意的几个问题是,其一,如果对核酸序列进行分析,并且是CDS编码区的核酸序列,一般需要将核酸序列分别先翻译成氨基酸序列,进行比对,然后再对应到核酸序列上。这一流程可以通过MEGA 3.0以后的版本实现。MEGA3现在允许两条核苷酸,先翻成蛋白序列比对之后再倒回去,做后续计算。其二,无论是核酸序列还是蛋白序列,一般应当先做成FASTA格式。FASTA格式的序列,第一行由符号“>”开头,后面跟着序列的名称,可以自定义,例如user1,protein1等等。将所有的FASTA格式的序列存放在同一个文件中。文件的编辑可用Windows自带的记事本工具,或者EditPlus(Google搜索可得)来操作。文件格式如图1所示:


另外,构建NJ或者MP树需要先将序列做多序列比对的处理。作者推荐使用ClustalX进行多序列比对的分析。多序列比对的结果有时需要后续处理并应用于文章中,这里作者推荐使用GeneDoc工具。而构建ML树则不需要预先的多序列比对。
因此,作者推荐的软件组合为:MEGA 3.1 + ClustalX + GeneDoc + BioEdit。
三、数据分析及结果推断一般碰到的几类问题是:
(1)推断基因/蛋白的功能;
(2)基因/蛋白家族分类;
(3)计算基因分化的年代。
关于这方面的文献非常多,这里作者仅做简要的介绍。
推断基因/蛋白的功能,一般先用BLAST工具搜索同一物种中与不同物种的同源序列,这包括直向同源物(Ortholog)和旁系同源物(Paralog)。如何界定这两种同源物,网上有很多详细的介绍,这里不作讨论。然后得到这些同源物的序列,做成FASTA格式的文件。一般通过NJ构建进化树,并且进行Bootstrap分析所得到的结果已足够。如果序列近缘,可以再使用MP构建进化树,进行比较。如果序列较远源,则可以做ML树比较。使用两种方法得到的树,如果差别不大,并且Bootstrap总体较高,则得到的进化树较为可靠。
基因/蛋白家族分类。这方面可以细分为两个问题。一是对一个大的家族进行分类,另一个就是将特定的一个或多个基因/蛋白定位到已知的大的家族上,看看属于哪个亚家族。例如,对驱动蛋白(kinesin)超家族进行分类,属于第一个问题。而假如得到一个新的驱动蛋白的序列,想分析该序列究竟属于驱动蛋白超家族的14个亚家族中的哪一个,则属于后一个问题。这里,一般不推荐使用MP的方法。大多数的基因/蛋白家族起源较早,序列分化程度较大,相互之间较为远源。这里一般使用NJ、ME或者ML的方法。
计算基因分化的年代。这个一般需要知道物种的核苷酸替代率。常见物种的核苷酸替代率需要查找相关的文献。这里不作过多的介绍。一般对于这样的问题,序列多数是近缘的,选择NJ或者MP即可。如果使用MEGA进行分析,选项中有一项是“Gaps/Missing Data”,一般选择“Pairwise Deletion”。其他多数的选项保持缺省的参数。
四、总结在实用中,只要方法、模型合理,建出的树都有意义,可以任意选择自己认为好一个。最重要的问题是:你需要解决什么样 的问题?如果分析的结果能够解决你现有的问题,那么,这样的分析足够了。因此,在做进化分析前,可能需要很好的考虑一下自己的问题所在,这样所作的分析才有针对性。
※※※名词解释※※※
1.FASTA
在生物信息学中,FASTA格式(又称为Pearson格式),是一种基于文本用于表示核苷酸序列或氨基酸序列的格式。在这种格式中碱基对或氨基酸用单个字母来编码,且允许在序列前添加序列名及注释。
2.MAFFT
主站:http://mafft.cbrc.jp/alignment/software/
维基百科:http://en.wikipedia.org/wiki/MAFFT
3. Bootstrap(摘自百度)
即自展值,是用来检验你所计算的进化树分支可信度的。简单地讲就是把序列的位点都重排,重排后的序列再用相同的办法构树,如果原来树的分枝在重排后构的树中也出现了,就给这个分枝打上一分,如果没出现就给0分,这样经过你给定的repetitions次(至少1000次)重排构树打分后,每个分枝就都得出分值,计算机会给你换算成bootstrap值。重排的序列有很多组合,值越小说明分枝的可信度越低,最好根据数据的情况选用不同的构树方法和模型。
4.CDS****序列(摘自百度)
CDS(coding sequence)序列是编码序列,是用来编码蛋白质的那段序列,是mRNA的一部分。通常外显子指的是编码蛋白序列。严格地说,外显子是指保留在初级mRNA中不被剪切掉的区域,包括5’非翻译区(5’UTR)、编码序列和3’非翻译区(3’UTR)。所以mRNA的外显子的概念应该要大于CDS序列的范畴。
问:知道了基因的mRNA,怎样通过mRNA找到它的内含子序列......
要看这个物种是不是已经全基因组测序了……如果已经有了全基因组测序,就可以把整个mRNA序列拿去Genbank去blast(大概应该是那个RNA到DNA的,还可以试一下蛋白blast DNA的,有时候这个blast会比较准),然后把两个高同源的部分中间的部分复制粘贴下来就行了,如果需要实际拿到序列就根据两边的外显子(如果短)或者中间的部分序列(如果长)设个引物,用提取的核基因组做模板扩一下就行了。如果没有,那就只好找一个亲缘关系比较近的、已有全基因组测序结果的物种重复一下上面的blast,然后根据中间的长度估一下扩增的条件,然后用两端的外显子设一下引物去扩增获得产物去测序,从而获得内含子序列。
本文地址:丁香通(稍作修改) http://www.biomart.cn/experiment/430/586/588/25195.htm
1.欧洲生物信息中心 http://www.ebi.ac.uk/
2.核酸和蛋白质序列分析方法汇总
http://web.91bio.com/nucleic-acid-and-protein-sequence-analysis-methods-summary.html

  1. EditPlus Text Editor http://www.editplus.com/

MEGA软件——系统发育树构建方法(图文讲解)
一、序列文本的准备
构树之前先将目标基因序列都分别保存为txt文本文件中(或者把所有序列保存在同一个txt文本中,可以用“>基因名称”作为第一行,然后重起一行 编辑基因序列),序列只包含序列字母(ATCG或氨基酸简写字母)。文件名名称可以已经您的想法随意编辑。



二、序列导入到Mega 5软件
(1)打开Mega 5软件,界面如下

(2)导入需要构建系统发育树的目的序列


OK
选择分析序列类型(如果是DNA序列,点击DNA,如果是蛋白序列,点击Protein)

出现新的对话框,创建新的数据文件

选择序列类型

导入序列



导入序列成功。
(3)序列比对分析

点击工具栏中“W”工具,进行比对分析,比对结束后删除两端不能够完全对齐碱基

(4)系统发育分析

关闭窗口,选择保存文件路径,自定义文件名称

三、系统发育树构建

根据不同分析目的,选择相应的分析算法,本例子以N—J算法为例

Bootstrap 选择1000,点击Compute,开始计算

计算完毕后,生成系统发育树。

根据不同目的,导出分析结果,进行简单的修饰,保存

FastTree:快速对成千上万条序列构建进化树
今天搜了一下,在PLoB中已经有不少介绍构建进化树的文章,目前构建进化树的算法中比较常用的有ML(maximum likelihood,最大似然),MP(maximum parsimony,最大简约)等等。尤其是最大似然法,一直用的比较多。今天再给大家推荐一款基于近似最大似然法的算法构建进化树的软件。
FastTree是一款从成千上万条,甚至更多的蛋白质序列或者核苷酸序列中快速推断近似最大似然的系统发生树的软件(approximately-maximum-likelihood phylogenetic trees)。号称是比其他基于最大似然构建进化树的软件( PhyML 3.0 和 RAxML 7)要快100倍,尤其是当序列数目越多,优势越明显。而且在这构建进化树的短时间内,还能对每一个节点提供一个节点的可信度(local support value)。
关于FastTree的下载和安装,以下是各个版本下载地址:
Linux 64-bit executable (+SSE) (64位linux)

Multi-threaded executable (+SSE +OpenMP) (还是64位linux版本,但是支持多线程)

Windows 32-bit command-line executable (no SSE) (windows版本)

多重序列比对及系统发生树的构建
在现代分子进化研究中,根据现有生物基因或物种多样性来重建生物的进化史是一个非常重要的问题。一个可靠的系统发生的推断,将揭示出有关生物进化过程的顺序,有助于我们了解生物进化的历史和进化机制。
对于一个完整的进化树分析需要以下几个步骤:
⑴ 要对所分析的多序列目标进行比对(alignment)。
⑵ 要构建一个进化树(phyligenetic tree)。
构建进化树的算法主要分为两类:独立元素法(discrete character methods)和距离依靠法(distance methods)。
所谓独立元素法是指进化树的拓扑形状是由序列上的每个碱基/氨基酸的状态决定的(例如:一个序列上可能包含很多的酶切位点,而每个酶切位点的存在与否是由几个碱基的状态决定的,也就是说一个序列碱基的状态决定着它的酶切位点状态,当多个序列进行进化树分析时,进化树的拓扑形状也就由这些碱基的状态决定了)。
而距离依靠法是指进化树的拓扑形状由两两序列的进化距离决定的。进化树枝条的长度代表着进化距离。独立元素法包括最大简约性法(Maximum Parsimony methods)和最大可能性法(Maximum Likelihood methods);距离依靠法包括除权配对法(UPGMAM)和邻位相连法(Neighbor-joining)。
⑶ 对进化树进行评估,主要采用Bootstraping法。
进化树的构建是一个统计学问题,我们所构建出来的进化树只是对真实的进化关系的评估或者模拟。如果我们采用了一个适当的方法,那么所构建的进化树就会接近真实的“进化树”。模拟的进化树需要一种数学方法来对其进行评估。不同的算法有不同的适用目标。
一般来说,最大简约性法适用于符合以下条件的多序列:
i 所要比较的序列的碱基差别小,
ii 对于序列上的每一个碱基有近似相等的变异率,
iii 没有过多的颠换/转换的倾向,
iv 所检验的序列的碱基数目较多(大于几千个碱基);

用最大可能性法分析序列则不需以上的诸多条件,但是此种方法计算极其耗时。如果分析的序列较多,有可能要花上几天的时间才能计算完毕。UPGMAM(Unweighted pair group method with arithmetic mean)假设在进化过程中所有核苷酸/氨基酸都有相同的变异率,也就是存在着一个分子钟。这种算法得到的进化树相对来说不是很准确,现在已经很少使用。邻位相连法是一个经常被使用的算法,它构建的进化树相对准确,而且计算快捷。其缺点是序列上的所有位点都被同等对待,而且,所分析的序列的进化距离不能太大。另外,需要特别指出的是对于一些特定多序列对象来说可能没有任何一个现存算法非常适合它。
CLUSTALX和PHYLIP软件能够实现上述的建树步骤。CLUSTALX是Windows界面下的多重序列比对软件。PHYLIP是多个软件的压缩包,功能极其强大,主要包括五个方面的功能软件:
i,DNA和蛋白质序列数据的分析软件。
ii,序列数据转变成距离数据后,对距离数据分析的软件。
iii,对基因频率和连续的元素分析的软件。
iv,把序列的每个碱基/氨基酸独立看待(碱基/氨基酸只有0和1的状态)时,对序列进行分析的软件。
v,按照DOLLO简约性算法对序列进行分析的软件。
vi,绘制和修改进化树的软件。

测试数据查看源代码
打印帮助

1
M._mulatta AAGCTTTTCT GGCGCAACCA TCCTCATGAT TGCTCACGGA CTCACCTCTT

2
M._fascicu AAGCTTCTCC GGCGCAACCA CCCTTATAAT CGCCCACGGG CTCACCTCTT

3
M._sylvanu AAGCTTCTCC GGTGCAACTA TCCTTATAGT TGCCCATGGA CTCACCTCTT

4
Homo_sapie AAGCTTCACC GGCGCAGTCA TTCTCATAAT CGCCCACGGG CTTACATCCT

5
Gorilla AAGCTTCACC GGCGCAGTTG TTCTTATAAT TGCCCACGGA CTTACATCAT

6
Pongo AAGCTTCACC GGCGCAACCA CCCTCATGAT TGCCCATGGA CTCACATCCT

7
Saimiri_sc AAGCTTCACC GGCGCAATGA TCCTAATAAT CGCTCACGGG TTTACTTCGT

8
Lemur_catt AAGCTTCATA GGAGCAACCA TTCTAATAAT CGCACATGGC CTTACATCAT

分析步骤一、用CLUSTALX软件对已知DNA序列做多序列比对。操作步骤:
1、以FASTA格式准备8个DNA序列test.seq(或txt)文件。


2、双击进入CLUSTALX程序,点FILE进入LOAD SEQUENCE,打开test.seq(或txt)文件。
2
2

3、点ALIGNMENT,在默认alignment parameters下,点击Do complete Alignment 。在新出现的窗口中点击ALIGN进行比对,这时输出两个文件(默认输出文件格式为Clustal格式):比对文件test.aln和向导树文件test.dnd。
3
3

4、点FILE进入Save sequence as,在format 框中选PHYLIP,文件在PHYLIP软件目录下以test.phy存在,点击OK。
5、将PHYLIP软件目录下的test.phy文件拷贝到EXE文件夹中。用计事本方式打开的test.phy文件的部分序列如下:
4
4

图中的8和50分别表示8个序列和每个序列有50个碱基。
二、用PHYLIP软件推导进化树。1、进入EXE文件夹,点击SEQBOOT软件输入test.phy文件名,回车。
5
5

图中的D、J、R、I、O、1、2代表可选择的选项,键入这些字母,程序的条件就会发生改变。D选项无须改变。J选项有三种条件可以选择,分别是Bootstrap、Jackknife和Permute。文章上面提到用Bootstraping法对进化树进行评估,所谓Bootstraping法就是从整个序列的碱基(氨基酸)中任意选取一半,剩下的一半序列随机补齐组成一个新的序列。这样,一个序列就可以变成了许多序列。一个多序列组也就可以变成许多个多序列组。根据某种算法(最大简约性法、最大可能性法、除权配对法或邻位相连法)每个多序列组都可以生成一个进化树。将生成的许多进化树进行比较,按照多数规则(majority-rule)我们就会得到一个最“逼真”的进化树。Jackknife则是另外一种随机选取序列的方法。它与Bootstrap法的区别是不将剩下的一半序列补齐,只生成一个缩短了一半的新序列。Permute是另外一种取样方法,其目的与Bootstrap和Jackknife法不同,这里不再介绍。R选项让使用者输入republicate的数目。所谓republicate就是用Bootstrap法生成的一个多序列组。根据多序列中所含的序列的数目的不同可以选取不同的republicate,此处选200,输入Y确认参数并在Random number seed (must be odd) ?的下面输入一个奇数(比如3)。当我们设置好条件后按回车,程序开始运行,并在EXE文件夹中产生一个文件outfile,Outfile用记事本打开如下:
6
6

这个文件包括了200个republicate。
2、文件outfile改为infile。点击DNADIST程序。选项M是输入刚才设置的republicate的数目,输入D选择data sets,输入200。
7
7

设置好条件后,输入Y确认参数。程序开始运行,并在EXE文件夹中产生outfile,部分内容如下:
8
8

将outfile文件名改为infile,为避免与原先infile文件重复,将 原先文件名改为infile1。
3、EXE文件夹中选择通过距离矩阵推测进化树的算法,点击NEIGHBOR程序。输入M更改参数,输入D选择data sets。输入200。输入奇数种子3。
9
9

输Y确认参数。程序开始运行,并在EXE文件夹中产生outfile和outtree两个结果输出。outtree文件是一个树文件,可以用treeview等软件打开。outfile是一个分析结果的输出报告,包括了树和其他一些分析报告,可以用记事本直接打开。部分内容如下:
10
10

4、将outtree文件名改为intree,点击DRAWTREE程序,输入font1文件名,作为参数。输Y确认参数。程序开始运行,并出现Tree Preview图。
11
11

5、点击DRAWGRAM程序,输入font1文件名,作为参数。输Y确认参数。程序开始运行,并出现Tree Preview图。
12
12

6、将EXE文件夹中的outfile文件名改为outfile1,以避免被新生成的outfile 文件覆盖。点击CONSENSE程序。输入Y确认设置。EXE文件夹中新生成outfile和outtree。Outfile文件用记事本打开,内容如下:
13
13

7、将EXE文件夹中的intree文件名改为intree1,将outtree改intree。点击DRAWTREE程序,输入font1文件名,作为参数。输Y确认参数。程序开始运行,并出现Tree Preview图。
14
14

8、点击DRAWGRAM程序,输入font1文件名,作为参数。输Y确认参数。程序开始运行,并出现Tree Preview图。
15
15

推荐一款强大的进化树编辑软件
最近一个同学开发了一款很强大的进化树编辑、管理的在线服务程序,EvolViewEvolView是一个进化树可视化的软件,同时可以做各种编辑和处理,同时还支持额外增加一些数据上去,譬如把进化树和其他的表格数据关联起来等。最喜欢的另外一点,他是我目前用到的可视化编辑软件中,画出来的图形最漂亮的。EvolView支持一些列的数据格式例如,Newick, Nexus, Nhx and PhyloXML。图片可以导出高质量的PNG,JPEG,SVG等图片。
有兴趣的可以了解一下,附上其中的一个UI界面(点击图片查看大图)。


EvolView在线网站地址:http://www.evolgenius.info/evolview.html
这款软件发表在Nucleic Acids Research,下面是论文的相关信息:
EvolView, an online tool for visualizing, annotating and managing phylogenetic treesHuangkai Zhang, Shenghan Gao, Martin J. Lercher, Songnian Hu1, and Wei-Hua Chen
EvolView is a web application for visualizing, annotating and managing phylogenetic trees. First, EvolView is a phylogenetic tree viewer and customization tool; it visualizes trees in various formats, customizes them through built-in functions that can link information from external datasets, and exports the customized results to publication-ready figures. Second, EvolView is a tree and dataset management tool: users can easily organize related trees into distinct projects, add new datasets to trees and edit and manage existing trees and datasets. To make EvolView easy to use, it is equipped with an intuitive user interface. With a free account, users can save data and manipulations on the EvolView server. EvolView is freely available at: http://www.evolgenius.info/evolview.html.

上篇下篇

果蝇性染色体的进化过程追踪

Drosophila
Drosophila

果蝇常被用来进行遗传研究,因为其寿命比较短,而且在实验室可以很容易繁殖,其突变体可以被广泛使用。目前果蝇有1500中已知的种。近日一项刊登在Science上的研究追踪了果蝇一对性染色体进化历程,这对染色体大约在100万年之前出现。
果蝇的X、Y染色体和人类的很像,在尺寸和基本序列上存在很多不同;人类的染色体对被认为是出现于200万年之前,Y染色体仅仅包含有50个基因,而X染色体包含着将近1000个基因。在许多物种中,从常染色体到性染色体进化发生的时间非常之久,而且难以追踪。
来自加州大学的研究者通过研究果蝇属米兰达果蝇(miranda flies)的全基因组,试图去寻找性染色体进化过程。
果蝇近X和近Y染色体形成的时候,大约3000个基因和性染色体相关,雌性果蝇X染色体有两个拷贝,而雄性X和Y各有一个拷贝。在数百万年的进化之中,Y染色体显现出大的退化迹象,有近乎三分之一的Y染色体失去了功能。随着基因失去功能,Y染色体上的其它基因开始进化变得对雄性更加有益,并且表达诸如男性的一些标志性特征,如前列腺以及睾丸等。相似的进化也发生在X染色体上,随之表现而来的是基因表达成为特定的雌性组织。
基因表达的过程对于雌性比较有益,因为雄性仅仅含有一个拷贝的X染色体,相比Y染色体而言,X染色体的表达分配会更慢一些。然而X染色体的进化并不缓慢,当然包括一些大事件的发生,比如其它染色体上的基因掺入X染色体中。
研究者Bachtrog表示,果蝇中某些性染色体也会转变成为常染色体,而且很有可能米兰达果蝇的Y染色体最终会消失,或者有可能另外一种决定性别的机制正在进化之中。
相关文献:
Sex-Specific Adaptation Drives Early Sex Chromosome Evolution in Drosophila
Most species’ sex chromosomes are derived from ancient autosomes and show few signatures of their origins. We studied the sex chromosomes of Drosophila miranda, where a neo-Y chromosome originated only approximately 1 million years ago. Whole-genome and transcriptome analysis reveals massive degeneration of the neo-Y, that male-beneficial genes on the neo-Y are more likely to undergo accelerated protein evolution, and that neo-Y genes evolve biased expression toward male-specific tissues—the shrinking gene content of the neo-Y becomes masculinized. In contrast, although older X chromosomes show a paucity of genes expressed in male tissues, neo-X genes highly expressed in male-specific tissues undergo increased rates of protein evolution if haploid in males. Thus, the response to sex-specific selection can shift at different stages of X differentiation, resulting in masculinization or demasculinization of the X-chromosomal gene content.
全文链接:http://www.sciencemag.org/content/337/6092/341

推荐阅读更多精彩内容

  • 趣味复习周之生化篇 本文由中医仲景协会整理,如需要原文件请联系QQ1769090563 蛋白质的结构及功能 第一节...
    陶墨阅读 2,635评论 1 6
  • 《DNA:生命的秘密》 作者: 詹姆斯·沃森(James D. Watson) / 安德鲁·贝瑞(Andrew B...
    kevinou2007阅读 4,083评论 0 8
  • 你有哪些基因可能并不重要,是基因网络而非单个基因在发挥作用。通常有几十到几百个基因网络对应一个相同的表现型;而构成...
    innesfry阅读 195评论 0 2
  • 2016年9月3日、4日 做了一次志工,填充了人生中想要做一次志愿者的空白! 志工,也叫义工,就是志愿工作者。顾名...
    愉人自乐阅读 33评论 0 0
  • 【执子之手】儿童学习力六期 践行记录20170914Day122 1、听了鹅妈妈音频。2、宝宝今天不舒服,其他没有践行。
    cancan妈阅读 36评论 0 0