《适者降临》读书笔记

图片发自简书App

书名
适者降临
作者
(美)安德烈亚斯·瓦格纳(Andreas Wagner)
译者
祝锦杰
豆瓣
http://douban.com/book/subject/27666938/
目录

前言 世界够大,时间够多
01 达尔文进化论的局限
02 新性状的起源
03 宇宙图书馆
04 构型之美
05 命令与操控
06 神秘的建筑师
07 从大自然到工程技术
后记 柏拉图的洞穴


前言 世界够大,时间够多

大自然的创造充满了神奇之处,但更奇妙的是,每一种不可思议的生物特性都是从一个极小的分子开始的,在漫长的世纪进化中,经过无数次的演变,最后交由大自然精挑细选。
达尔文进化论的主流观点是,优势性状赋予生物的优势,无论多么微不足道,都将在生物漫长的繁衍生息中被无限放大,这个观点解释了包括游隼在内的所有生物的多样性。
自然选择的神奇之处是毋庸置疑的,但它也有自身的局限性。自然选择能保留由变异产生的新性状,却不能创造它们。认为变异总是随机的观点,暴露了我们对变异的无知。自然界众多的生物性状,如果没有大自然对于生物进化的助益,其中许多近乎完美的结构可能永远都不会出现,而这种助益正是生物进化的能力。
目前的研究数据告诉我们,进化的奥秘远远不止我们的肉眼所见。神秘的自然规律隐藏在每个精巧的DNA里,隐藏在每个独一无二而又美丽动人的生命体中。

01 达尔文进化论的局限

在达尔文时代来临之前,进化理论已经拥有了众多支持者,当然反对的声浪也同样喧嚣。
柏拉图对现代西方思想的影响十分深远,20世纪的哲学家阿尔弗雷德·诺斯·怀特海(Alfred North Whitehead)曾直言,欧洲哲学的发展不过是循着“柏拉图的脚印”罢了。
柏拉图哲学深深植根于抽象的数学和几何学世界。在柏拉图的世界观里,可见的物质世界反倒是海市蜃楼,不过是更高等的世界投射下的一掠缩影而已,那个更高等的世界是由各种图形组成的几何世界,比如三角形和圆形。对于柏拉图学派的人来说,篮球、网球和乒乓球有一个共同的本质,那就是球状的外形。每种球的物理特征无论如何变化,都不过是虚无的幻影,只有完美的、几何的、抽象的球形本质才是真实的。
对于像林奈和居维叶这样的科学家来说,要实现自己的目标,即把混乱无序的生物多样性以某种方式组织起来,柏拉图式的物种概念显得方便实用:每个物种都拥有区别于其他物种的不变本质。正是因为这种“不变的本质”,所以爬行动物中没有腿和眼睑的物种被称为“蛇”。在这种柏拉图式世界观的影响下,博物学家们的日常任务就变成了寻找物种的特质。这样说反倒是轻描淡写了,事实上,在本质主义的世界观里,“物种的特质”和“物种”这两个概念的界限是模糊的,特质即物种。
与之对比鲜明的恰恰是真实的世界,现实的自然界不断喷吐着新物种,并与原有的物种相互交融。生物进化的纷繁世界无疑是追求简洁和秩序的本质主义者的死敌。因此,当20世纪的动物学家厄恩斯特·迈尔(Ernst Mayr)称柏拉图以及他的信徒是“进化论者最伟大的敌人”时,也就情有可原了。
如果生物多样性建立在每一个物种被独立创造的基础上,那么局面就会像一团“剪不断,理还乱”的乱麻。而达尔文,有史以来最伟大的理论学家之一,将它们编织成了自己理论中的美丽丝线。他无畏地向创世论者宣战,宣称所有的生物都有共同的祖先,把《创世记》从辩论桌上掀翻在地。
生物可以进化只是达尔文卓越的洞见之一,除此之外,他还提出了自然选择理论。这个自然界的中心法则是他在观察动植物选种的过程中偶然想到的。《物种起源》的整个第1章都在赞叹人类育种师培育的狗、鸽子、农作物以及观赏花卉的多样性。在短短100年里,人类就从同一个祖先中先后驯养出了大丹狗、灰狗、英国斗牛犬、吉娃娃等各种品类的狗。达尔文从这个令人惊叹的人工选择过程中意识到,自然选择应该也遵循着相似的原则,只不过它所历经的时间会更长、范围也更广。新物种的变异每时每刻都在发生,虽然绝大部分变异都稍显逊色,只有极少部分变异能够得到优等的性状。但无论优劣,它们都得符合一个相同的标准,那就是自然选择:只有适者才能得到生存和繁衍的机会。这个过程几乎完美地解释了生物多样性,遗传学家西奥多修斯·杜布赞斯基(Theodosius Dobzhansky)曾说:“只有在进化论的光芒照耀下,生物学的一切才有意义。”
不过,这道进化论的光辉仅仅照亮了无数自然奥秘中的一小部分,还有一个它鞭长莫及的藏匿在黑暗中的疑问是:遗传机制。亲代将自己的遗传物质传给子代的时候,如果没有稳定的遗传机制作为保证,遗传性状,比如鸟的翅膀、长颈鹿的脖子、蛇的尖牙,就无法稳定延续下去。如果没有遗传,自然选择也就成了空中楼阁。
达尔文的理论就像萨莉奔跑的镜头,与静态摄影相比,那部时长一秒钟的默片在当时意味着革命性的超越,但离现代成熟的长篇电影依旧还有弱水之隔。事实上,在达尔文逝世的时候已经有人提出了遗传机制理论,只是人们并不知晓。
在孟德尔的论文发表34年后,“沉睡多年的睡美人”还是被荷兰植物学家雨果·德弗里斯(Hugo De Vries)唤醒了。德弗里斯独立完成了类似于孟德尔的实验。
德弗里斯唤醒了孟德尔定律,醒来的睡美人一发不可收,迅速在生物界确立了地位,成为一个全新的分支,也就是现在广为人知的遗传学。孟德尔式的遗传性状存在于许多动物、植物及人类身上。
德弗里斯把孟德尔所说的遗传因子命名为“泛子”(pangenes),后来遗传学家威廉·卢德维格·约翰森(Wilhelm Ludvig Johannsen)又选择舍弃了前缀“pan”。
约翰森对现代生物学的贡献还包括另外两个重要的名词,他创造了“基因型”(genotype)和“表现型”(phenotype)这两个词,并对它们进行了定义。用今天的话来讲,基因型是指生物个体所有基因的遗传构成,而表现型则是生物个体表现出来的性状:生物的大小、颜色,是否有尾巴、羽毛或外壳等。从理解这两个词的区别开始,我们才能够进一步辨别生物进化中性状演变的因果关系。
20世纪初期,变异既用于形容孟德尔式的遗传变化,同时也被用于表达单纯的外观变化,对生物体变化的因果关系研究造成了巨大的混淆。一个世纪之后我们才知道,变异改变的是基因型,比如远古动物体内视觉蛋白的变异。所谓的“变异”往往会影响生物的表现型,有些表现型对生物发育至关重要,比如只有视蛋白的出现,我们才能看到这个多姿多彩的世界。
对达尔文来说,变异是个大问题,因为自然选择本身并不会导致变异。自然选择不创造新的变异体,而仅仅是对已存在的变异体进行选择。达尔文的确意识到了自然选择在生物进化中的正面作用,却始终无法参透变异的来源。
当今的我们和地球上最早的生命体之间每一丝细小的差异,都意味着曾经发生过的一次进化,是生命面对生存的挑战时做出的适应性改变。
这些适合生存的新性状,从最常见的光合作用、呼吸作用,到保护爬行动物的鳞片和为鸟类保温的羽毛,还有起到连接作用的结缔组织和内骨骼。有的性状相对复杂,而有的则相对简单。
自然选择没有,也无从创造这些新性状。如果我们无法理解最适者从何而来,那么我们也就无法解释当今生命所展示的惊人多样性。
生命具有进化的能力。不仅如此,生命在变异的同时依旧能够通过稳定的遗传保留已有的性状,它同时具有可变性和保守性。在20世纪早期,生物学家对其中的奥秘无从得知,这也在情理之中,因为离解决这些问题所需的生物实验技术和计算工具登场还有将近一个世纪的时间。
事实上,当我们回过头来看,20世纪早期的科学家意识到基因型和表现型的区别,就已经是一件非常了不起的事了。同孟德尔和迈布里奇一样,他们对自己所研究的东西充满了疑惑,甚至不确定“基因”到底是不是真实存在。它可能像重力一般无影无形,但也有可能切实存在,能够从生物体内分离出来并在实验室里单独进行研究。直到多年之后我们才知道,基因存在于染色体上,是由DNA构成的分子片段。
在发现基因的物理本质之前,先是由达尔文点燃了一场生物革命的星星之火,而孟德尔的发现则像一阵狂风使得火势肆无忌惮地蔓延开来。但是离散、单位化并不是所有遗传方式的特征,最简单的反例恰好来自我们的日常生活。达尔文之后的博物学家在自然界发现了许多呈连续性分布的遗传性状:作物的产量、鸡蛋的重量、树叶的形状。总而言之,这种性状是大多数生物性状的遗传特征,它的重要性由此可见一斑。
以达尔文为早期代表的自然主义者和渐进主义者倾向于关注微小的连续性变异;而另一些学者,如“孟德尔主义者”“变异论支持者”“突变论者”则倾向于关注孟德尔研究中的离散性突变。如果要给这个争论的双方拍一部卡通片,那么渐进主义者会说花园里的玫瑰是从它的某个五片花瓣的祖先一代一代进化而来的,而突变论者则会反驳说,只需要一次偶尔的“大突变”就能得到美丽的玫瑰,而无论它的祖先有多少片花瓣。
虽然后来的研究证实孟德尔主义者的观点是错误的,大多数生物的进化的确有赖于漫长时间中自然选择的积累,但他们的观点也不是完全不对。困扰科学家多年的疑问不是自然选择,而是新性状到底起源于何处。但是孟德尔主义者关于变异的观点太超前了,在当时根本无法用科学的方法对遗传和变异给出解释,所以两大阵营的争论一直持续了整个20世纪。直到一个人们熟悉的观点再次进入大众视野,这场争论才慢慢平息并渐渐有了答案。这个观点就是:遗传和变异不仅仅发生在个体中,同时也是一种群体现象。
群体遗传学的核心不是研究某个生物个体,也不是整个种群的表现型,而是种群的基因池。
种群的等位基因频率在日积月累中影响着个体的性状比例。
生物学研究的方式自亚里士多德以来就不曾发生过变化,生物学家总是先仔细观察,而后进行详细的实地或实验室调研,最后对观察结果进行详细记录,但是从群体遗传学开始,生物学家迷上了数学的力量,并把各种数学工具引入了生物学,包括微分方程和方差分析等。在各路科学巨匠,如休厄尔·赖特(Sewall Wright)、霍尔丹(J.B.S.Haldane)、统计学家费希尔(R.A.Fisher)等的共同努力下,群体遗传学能够相对精确地解决关于自然选择的量化问题。于是在同一时间,博物学家纷纷在野外研究桦尺蠖种群中等位基因的频率,而实验学家则在实验室里研究能快速繁殖的果蝇。数学像红娘一样把原先井水不犯河水的两者一起牵引到了生物学的殿堂里。
群体遗传学中的新证据告诉我们,变异的概念极其宽泛,既有孟德尔式的离散性突变,也有连续性变异。孟德尔式的性状,如翅膀的颜色、豌豆的形状,都由等位基因中效力相对较强的主效基因控制;而连续性性状,比如身高,则是由多个微效基因控制的,每个基因都具有相同的效力。群体遗传学告诉我们,自然选择同时影响了这两种基因,但真正令人惊异的是自然选择在其中所起到的作用。
博物学家和实验学家都发现,微效基因的例子远多于主效基因,由此可见当年孟德尔在选择豌豆的时候有多么小心谨慎,毕竟他选出的性状都是由主效基因控制的,而这样的例子在自然界并不多见。进化在多数时候都是循序渐进的,不是一蹴而就的。
到了20世纪30年代,基于自然选择、遗传本质和种群思想的概念,诞生了一个新的理论:现代综合进化论(modern synthesis)。现代综合进化论对人类生物学研究的各个领域,如追寻人类起源、研究人类迁徙、认识基因疾病等,都功不可没。
现代综合进化论的创立者抛弃了生物体本身和表现型,一味执着于对基因型的研究。他们忽视了生物体本身的复杂和伟大性,有些生命体由上亿个细胞孕育而成,每一个细胞又由无数功能复杂的大分子组成。他们忽视了这些伟大的生命体是如何从一个简单的受精卵,经过无数精细而繁复的过程发育而来的,而基因又在这个过程中起了什么作用。
因为没有关注生命的复杂性,现代综合进化论的创立者侥幸避开了这个问题,结果是他们对进化最终的产物——生物体本身视若无物。
现代综合进化论除了忽略生物整体之外几乎别无选择,因为用抽象的方式理解复杂事物总要付出代价:为了理解冰山的一角,你就必须用盲人摸象的方式忽略相对不重要的部分。现代综合进化论的支持者只是在尽量简化这个问题而已,以便能够理解基因和基因型在进化中的作用。这个理论之所以能成功解释自然选择也正是因为摒弃了生物的复杂性。
但是当一个理论相对成功的时候,就很容易让人忽略它的局限性,这也是现代综合进化论在其鼎盛时期所犯的错误,生命的进化被重新定义,然后被贬低到了“基因库中等位基因变化”的层次。而最主要的局限性也使它无法回答《物种起源》中的第二个关键问题:新的性状到底从何而来?现代综合进化论解释了新性状如何在种群内传播,但还是无法解释它的起源。
在20世纪后期,当进化发育生物学(简称“进化发生学”)开始作为一门新兴学科登上生物学舞台,誓要整合胚胎发展、进化学和遗传学的时候,那些胚胎学家曾经坚持不懈的呐喊声也渐渐得到了人们的关注。进化发生学对基因和胚胎的关系提出了全新的见解,解释了不同的基因如何像和谐的管弦交响乐团一样完美协作,从而使胚胎发育成为可能。
可惜迄今为止,还没有一个成型的理论能够和现代综合进化论相提并论。如果说现代综合进化论者有一个牺牲了表现型而得出的遗传理论,那么胚胎学家手里则攥着众多生物的表现型,却没有任何可以拿出手的理论。
进化发生学告诉了我们一件很重要的事,为了理解生物新性状的产生,我们无法弃表现型于不顾。虽然我们无法全然了解一个生物体的复杂性,但是至少知道了某些表现型与生物进化的关系。
前有达尔文,后有孟德尔,生物学在同一个世纪里发生了翻天覆地的变化,现代综合进化论又孕育了生物化学,一门在700多年前,从人类开始酿酒的过程中就初露锋芒的学科。1897年,爱德华·比希纳(Eduard Buchner)证实,发酵的过程不一定需要生物参与,因为不含活体细胞的酵母提取物也能导致发酵。比希纳的发现加速了“活力论”的消亡,这个理论认为生命需要某种神秘的“生命力”,而生命力遵循着和非生命物体完全不同的自然法则。
比希纳除了告诉我们生命是基于化学的之外,更大的贡献是他发现了酶,这是一类由成百上千个氨基酸构成的巨大生物分子,它能加速化学反应过程。
比希纳的发现开启了生物化学领域一扇新的大门。他关注催化反应,而不是酶本身,揭开了化学世界的面纱,新陈代谢的过程也不再神秘莫测。广义来说,“新陈代谢”这个词来源于希腊语,原意是“改变”,主要包含两种类型。第一种改变是分解外源分子,比如葡萄糖分子,释放能量;第二种改变是生物体从外界环境中获取营养物质并转变成自身的组成成分,比如蛋白质中的氨基酸,同时储存能量。新陈代谢起着分解并排出代谢废物的作用。这些过程相对复杂,都需要酶的作用,涉及上千个化学反应,从而使生物体能够完成能量交换和自我更新的过程。
蛋白酶对表现型的重要作用是20世纪一个具有里程碑意义的发现。同时它也为理解生物进化提供了新的视角:生物体无论发生多大的改变,都是从单个的蛋白质分子变化开始的。即便如此,它的光芒还是被另一个更重要的发现盖过了:基因的化学结构。
在这70年间,生物学领域也发生了突飞猛进的变化,群体遗传学和现代综合进化论都在这个期间涌现,同时科学家还阐释了酶与DNA结构的奥秘(和彩色电视机的出现在同一时期)。化学知识在我们理解生物进化的过程中起到了无与伦比的重要作用,让我们离生命的终极奥秘又近了一些。
从19世纪50年代开始,关于蛋白质如何折叠的研究就已经在血液的珠蛋白中展开,但是这些实验往往过程烦琐、耗时又长。通过DNA碱基序列预测氨基酸链不是什么难事,但是预测蛋白质的折叠方式就要复杂得多,就像要把爱尔兰诗人和剧作家叶芝的诗翻译成中文一样。
对于想要探索表现型来源的人们来说,这并不是什么好消息。想要了解生物体的表现型,不管是彩色的翅膀、敏锐的眼睛还是强健的骨骼,归根结底还是要了解组成生物体最基本的大分子结构。如果我们无法预测大分子的形态,就无法从基因型跨越到表现型。
不过每个蛋白质不都总是独立存在的,它们往往通过共同合作来应对机体复杂机制的作用,这让我们理解蛋白质的努力更是雪上加霜。自沃森和克里克发现双螺旋结构之后,分子生物学家开始前赴后继地研究这一类问题。通过对一条条蛋白质链的研究,他们逐渐揭开了复杂大分子网络的神秘面纱,如那些控制人体感官和行为的大分子,甚至是任何一个方面的分子结构。
人类在这条研究之路上已经耕耘了很久,也收获了很多。走得越远,才越发现这条道路的漫长和蛋白质网络的复杂,从基因型转向表现型的探索也越加深远。
然而综观整个20世纪,仍然有很多支持进化论的生物学家完全不为表现型的复杂性所动。他们沐浴在现代综合进化论的阳光下,沉浸在对基因型的研究当中,这种执着在沃森和克里克的发现席卷了无知的人类之后,由于DNA分子序列识别新技术的出现而变得更加疯狂。这些技术也带动了一个新兴领域的诞生,叫作“分子进化生物学”(molecule evolutionary biology),主要研究氨基酸和DNA序列的变异。这项技术的前身就跟迈布里奇的诡盘投影机一样笨拙低效,一年时间只能研究不到几百个碱基对。而到了19世纪80年代中期,分析的效率提高了将近10倍,足以对人群中多个较短的DNA序列进行检测。
分子进化论者在这项技术的帮助下,发现了一件始料未及的事情:数量众多的基因变异在基因组中无处不在,甚至在那些数亿年中都没有发生明显改变的生物体内亦是如此。
进化论思想中的进步与其他科学领域的改革不同。20世纪早期的量子物理学带来了和传统的经典物理学相冲突的世界观,而进化生物学的改革却丝毫不影响先前理论的核心观点。它们进一步深化、改造了历史,而不是推翻它。这些理论添加了层层的解释和方法,带来了新的视角。
达尔文发现了自然选择的力量,现代综合进化论从基因频率的角度解释了自然选择,而分子进化生物学家则试图在DNA中寻找自然选择的蛛丝马迹,例如大量存在的不表达基因。不同的分支学科通力合作,渐渐揭开了达尔文留给世人的层层迷团。之所以不是所有的迷团,是因为分子进化生物学告诉我们更多的是有关生物基因的东西,而不是表现型,后者才是生物起源的核心问题。
在20世纪80年代,光是掌握识别DNA碱基对的技术已经令人称奇。然而,与庞大的整个人类基因组相比,小小的碱基对就相形见绌了。
人类基因组是生物学领域众多的里程碑之一,它展示了无数的基因信息:人类所有的基因以及它们所编码的蛋白质序列等。
基因型和表现型的关系复杂得难以想象。雄心勃勃犹如“人类基因组计划”,也只不过是从基因型出发,前往表现型途中的又一个一公里而已,这条路的尽头依旧遥不可及。
虽然“人类基因组计划”有它的局限性,但也带来了许多益处,其中一个就是DNA测序技术的蓬勃发展。这些技术使得研究人类和其他物种的基因变异成为可能,它们把种群基因学上升到了种群基因组学的高度。
种群基因组学的诞生意味着基因型研究的终点,但对表现型来说却并非如此。在20世纪50年代中期,有关蛋白质的功能以及相互作用的研究就已经启动,科学家们一路高歌猛进,势如破竹。但时至20世纪90年代,他们就不得不转换研究思路了。
科学家努力得到的结果还不足以告诉我们关键的细节,例如一个过程中涉及的蛋白质分子数量为多少,或者分子之间的关系强弱为几何。
处理这种整体性的唯一手段是数学,数学能够消化大量的实验数据,从而描述生物大分子的活动和密度是如何随时间变化的,这些活动是理解表现型的关键。只有数学的精确量化能够帮助我们理解这种微妙的过程,这是单纯的罗列和分类做不到的。
然而,用数学方法描述表现型并非易事,从数十年的实验数据来看,主要大分子相互之间的相互作用有许多变量。这些计算的复杂性绝非简单的人工笔算所能完成,即使是最杰出的数学家也做不到,必须要有计算机的协助。
生物学领域中,计算机技术的整合是一个新兴现象。纵观生物学的发展历史可以看到,生物学的发展总是受制于数据处理能力。如今这种景象已经一去不复返了。新一代的科学家——计算机生物学家,只负责处理现成的数据即可,而无须自己进入实验室收集信息。生物学家摇身一变成为信息科学家,享有着无穷无尽的数据信息。在探讨自然法则的过程中,限制我们的仅仅是自己的想象力和分析数据的技巧。
当然,这些技术也会面临相应的挑战,因为生物性状起源的问题已经困扰了科学家将近一个世纪的时间。一方面,我们知道生物的表现型就像一幅巨大的点彩画,作画的人每次只往画上加一点。但是,这个比喻并不能告诉我们具体应当如何创作出一幅美丽的图画。研究性状起源的挑战很容易让人望而却步。仅有自然选择不足以解释自然界惊人的有序性,我们仍然缺少一种能够加快进化速度的方法。
由于生命体由分子构成,所以我们需要通过分子来了解进化:不仅是DNA中的基因,还有基因型究竟如何塑造了表现型。表现型和DNA本身并不对等,它是生物体有序的层级架构,从最高层的器官到组织,再到细胞,再往下还有构成细胞的分子和分子之间形成的关系网络,最后精确到单个蛋白质。新的表现型和性状可以在这之中的任何一个层级出现。30年前,我们对于这种复杂性还一无所知。
达尔文对生命真正的复杂性毫无察觉,许多后人也因此觉得他们可以理直气壮地忽略这一点。但是为了找寻生命进化的秘密,我们必须勇敢面对生命的复杂性,而不是逃避。
一种久经考验的认识生命复杂性的方法是关注一个或几个基因型以及它们对应的表现型,这也是早期基因学家发现基因的基本方式:通过某个表现型的变化追溯源头的变异基因。在基因组时代,这个方法也适用于研究DNA序列的功能:诱变某个基因并观察相应的表现型变化。
对于生命的创造性,我们也需要绘制这么一张地图,一张从基因型到表现型的地图,标出每一个基因型的变化,以及它们如何影响了表现型。我们需要这样的地图来补全达尔文的伟业。
不过即使拥有最好的技术,这张地图也没有那么容易绘制。绘制一张高分辨率的生命地图不只是困难,几乎是件不可能的事。幸运的是,我们并不需要把每一粒沙子都在地图上描绘出来,如果我们只关注地形特征,就能减轻很多绘制的负担,需要研究的基因型数量也会大大下降,不过剩余的基因型数量依旧数以亿万计。鉴于表现型可研究的角度很多,所以我们要精心选择,保证这些我们研究的角度对生命的进化而言至关重要,同时又处于现有知识和分析工具所能处理的范围之内。
柏拉图的本质主义论与进化主义论不共戴天数十年之后,在这些地图中正东山再起。与柏拉图时期简单枯燥的几何世界相比,21世纪本质主义的内涵要丰富得多。它对达尔文主义思想兼容并蓄,又不拘一格,是我们理解自然选择的关键。
现代技术给我们展示了一个柏拉图式的色彩斑斓的世界,展示了40亿年以来生命进化的动力和起源。

02 新性状的起源

在过去的一个世纪里,我们知道了生命体复杂多样的表现型正是“自然发生说”面临的最大困境。如果一个拥有特定氨基酸序列的蛋白质分子都不能自发形成,那一个包含了数百万种蛋白质和其他复杂分子的大肠杆菌又怎么可能凭空出现呢?现代生物化学使得我们能够估算一个大肠杆菌自然发生的概率,在此前提下,复杂生命体自然发生的概率几乎为零。
不过这并不意味着自然发生在生命出现的早期阶段没有出现过。事实上,早期生命的出现甚至需要自然发生的帮助,只是其产物的复杂程度远远比不上现代的细胞及蛋白质。化学家不仅说明了早期生命出现的过程,还证实了一个更重要的假说:今天自然界所有生化反应所遵循的原则,与生命出现之前的无异。无论古今,新性状和最适者的出现都需要新的化学反应过程和分子作为前提。
生命以及生命背后驱动新性状出现的动力似乎并不是多么神秘莫测的东西。驱使进化发生的动力本身和生命一样古老。
地球上生命的起源需要用化学理论来解释,其中最早的理论被称为“原始汤”假说。
“原始汤”理论一直作为一个假说存在了数十年。直到1952年,诺贝尔奖得主哈罗德·尤里(Harold Urey)位于芝加哥大学实验室的研究生斯坦利·米勒(Stanley Miller),为这个假说提供了强有力的证据支持。米勒实验最重要的意义在于,它把有关生命起源的讨论从哲学思考上升到了实验科学的范畴。
组成生命的成分在宇宙中十分常见,不禁让人联想到地球上的生命可能来自宇宙。
生命的成分到底是来自外太空还是诞生于地球,也许我们永远都无从得知。不过,从天文观测中我们还是能得到许多简单而重要的启示。首先,只要环境条件合适,组成生命的物质成分是可以自然发生的。其次,所谓合适的环境并不像达尔文描述的“小池子”那样近在咫尺而又得天独厚。它可以远在数光年之外,也可以像星云那样在宇宙里随处可见。
还有一点是关于直到今天依旧适用的新性状的:新性状的出现有赖于新的分子和合成这些新分子的化学反应的存在。
组成生命的物质分子并不是生命本身,就像一堆砖头和木材根本算不上是一栋大楼。至少,生命还需要一张包含许多获取能量、合成生物体所需物质分子的化学反应网络,这张网络也被称为新陈代谢。生命还需要有增加自身数量的能力,即自我复制,以遗传的方式将自己的优势特征传递给子代个体。如果没有子代对亲代性状的遗传,达尔文主义者的进化论就成了空谈,自然选择也就没有了意义。
不过这并不意味着新陈代谢和自我复制总是两者兼有。即使在你生活的周围,这两者也不总是同时存在的。
蛋白质并不是一种理想的自我复制分子。但是核酸似乎也没有比别的分子好到哪里去。DNA最基本的任务是储存信息,为此它可以牺牲其他一切。它懒惰、保守,在生物体中一代又一代地保持传递。所以在酶被发现之后的半个多世纪里,科学家一度认为只有蛋白质可以催化化学反应,而核酸则没有这个能耐。
RNA也能像蛋白质一样催化化学反应的惊人发现,本身就像一剂科学的催化剂。
远古时期,RNA可能同时肩负着储存遗传信息和催化自我复制两种作用,但我们对于它如何做到这点却一直百思不得其解。为了说明最早出现的生命形式,我们不妨将起源之初的生命抽象为一个能够自我复制的简单分子。这个单分子将非常类似于RNA复制酶(RNA replicase),一种能够催化RNA复制的酶。
如今,世界上一些最优秀的化学家正在全力寻找这种简单的复制酶。他们迄今为止最好的成果是合成了一段长度为189个核苷酸的RNA,这段RNA具有一定的增殖行为,但它远不具备自我复制的能力,能够作为模板进行复制的区域仅包含其中的大约14个核苷酸。但是这依然启发我们,如果能够解决几个关键问题,RNA自身催化复制是完全可能的。其中一个主要的问题恰恰在于碱基互补性。
互补的碱基对会自动配对,也就是说一条母链和互补的子链能够退火成一条双链RNA,就像双链DNA的形成过程一样。为了复制出更多的RNA,双链分子必须要解旋为单链,以便每条链上的信息可以被阅读。不过一旦你或复制酶将双链分开,互补的碱基对就会马上退火,像透明胶一样互相黏着在一起。所以对于RNA的自我复制而言,成也碱基互补,败也碱基互补,这是一把双刃剑。
最初的复制酶面临的另一个问题是必须绝对精确,因为任何复制错误都会导致误差灾变(error catastrophe)。
只有那些几乎不犯错的复制酶才能保全核酸酶本身的遗传序列,从而保全其自我复制的能力。如果复制酶的准确性太低,催化产物多数为有瑕疵的复制酶,效率低下,或者催化复制更加不准确,随着时间的推移,这些催化产物最终会降解为无用的分子碎片,最初的编码信息也随之丢失。
幸运的是,生命在这方面的造诣远远超过当下的人类。催化DNA复制的蛋白酶,其误读率低于1/106。这种精确性的代价是其作用方式的高度复杂性。催化复制的酶包括一些功能高度专精的蛋白质,它们负责校对和修正其他酶的复制错误,这相当于有一群分工明确的僧侣,互相检查抄录的经文内容。编码这些蛋白质需要相当长的基因,远非原始的RNA复制酶可以相比。为了确保遗传信息复制的完成度,RNA复制酶催化的复制反应必须高度精确。你或许会发现一个新的“鸡与蛋”式的问题已经呼之欲出了,它的另一个名字是艾根悖论(Eigen's paradox):精确的复制需要庞大而复杂的酶分子进行催化,而庞大和复杂的酶分子则需要精确的复制来保证。直到今天,大自然也没有为我们指出任何解决这个悖论的出路,不过我们将会在第6章中看到,生物的进化方式为我们提供了些许线索。
互补的RNA分子之间顽固的黏着性,以及要命的艾根悖论,都让“自我复制先于新陈代谢出现”的观点显得岌岌可危。但是如果和接下来的第三个问题相比,它们简直就是珠穆朗玛峰山脚和山顶的区别:从哪里获得充足的原料以满足复制的需要?复制所需的原料是富含化学能的分子,它们包含了几乎所有需要的化学元素,包括碳元素、氮元素以及氢元素。举个例子,现代生物体中的蛋白质催化DNA复制时,每秒钟需要消耗大约1 000个脱氧核苷酸分子。
即便最初出现的复制酶效率非常低下,每秒钟只能消耗一个脱氧核苷酸分子,大概需要三分钟才能完成自身的复制,由此可以看出,复制对于原料的需求依旧不会因此而降低。
生命的本质,正是一支贪得无厌、如狼似虎吞噬高能物料的分子大军,和所有行军的队伍一样,一旦切断补给,生命就会迅速崩溃。不仅如此,鉴于达尔文进化论和自然选择建立在物种大量繁殖,即复制的基础上,如果没有持续供应的食物链,两者都将成为空谈。另外,复制酶也和士兵一样争强好胜。在竞争中处于下风的分子最终将会由于复制不出足够数量的本体遭到淘汰,而饥饿会加快劣势分子消失的速度。没有足够的原料,生命就如同一根受潮的火柴,在贫瘠的地球上昙花一现,而后销声匿迹。
米勒的实验以及外太空播撒到地球的化学物质,都不足以支持早期地球上的那支饥饿的军队。虽然它们都带来了生命的重要组分,比如氨基酸,但是仅凭它们还远不足以解决早期生命的温饱。在地质史早期,嗷嗷待哺的复制酶未必能够等到从天而降的那一块陨石。
在第一个能够自我复制的分子出现之前,一张为生命提供各种原料的化学反应网络就已经准备就绪,为生物体源源不断地提供所需的物质。换句话说,生命的开端不应当是一个可以自我复制的分子,而是一张新陈代谢的网络。
伴随恰当的分子出现,为生命提供能量和所需物质的化学反应最后也应运而生,但是这个“最后”并没有那么轻描淡写,生命的出现经历了相当长的时间。如果没有外界的帮助,生物体内的某些化学反应需要数千年才能完成。因此,新陈代谢需要催化剂,生物体内的催化分子可以显著提高反应的速度。催化剂的一个突出特征是:它们的催化效应与热力学有关。热是原子和分子的无序运动的结果,催化剂会改变反应分子之间的碰撞和接触,同时自身在反应中保持不变。催化剂在新陈代谢反应中煽风点火,它的主要作用是降低一个特定化学反应所需的活化能,从而成倍地提高反应的速率。现代新陈代谢中化学反应的催化剂几乎全部为酶,它们是极其高效和复杂的蛋白质分子,一种酶严格对应一种化学反应,某些酶还能将所催化反应的速度提高万亿倍。我们的身体里有数千种不同的酶,失去任何一种都可能让我们像得不到食物补给的原始复制体一样崩溃。
我们目前不知道,也许不久以后可以弄明白,三羧酸循环是不是所有新陈代谢反应的鼻祖。我们也不知道是不是在RNA复制酶之前真的有新陈代谢反应出现。不过确切无疑的是,地球历史上第一个能被叫作活物的东西,不论它是什么玩意儿,都需要自催化反应来解决自己的温饱问题。生命所需的新陈代谢可不是区区几个反应,因为每一个反应都需要许多其他代谢反应提供原料,以保证充足的代谢物质。一旦工厂和供应商都就位,达尔文的进化论就开始展现威力了。进化论使得相对优秀的工厂保留下来,与这些工厂相关的、更出色的供应商也就得以保全,后者又反过来造就了更优秀的工厂,以此类推,在无尽的循环里支撑起所有的生命之舟。
鉴于科学家发现的另一种罕见的催化剂,上述循环反应能够在深海热泉里诞生可能并非完全出于偶然。蒙脱石(montmorillonite),得名于法国的一个小镇蒙脱城(Montmorillon),当地农民利用这种黏土矿石在盐碱旱地里储存水源。20世纪末期,吉姆·费里斯(Jim Ferris)等化学家发现了蒙脱石的一个新作用,它可以让组成RNA的小分子自动装配成超过50个核苷酸长度的RNA链。
当新陈代谢和自我复制准备就绪,生命就几乎要从一片混沌之中涅槃而出了。不过它还缺一身合适的行头,现代所有的生命体都在用相同的材料包裹自己:两亲性(amphiphilic)的脂质分子。“amphiphilic”的词根来自古希腊语中的“both”(双)和“love”(亲)。由于一端含有亲水基团,而另一端含有疏水基团,就像水坑里的一滴油会在表面散开一样,两亲性的分子同时“亲”水和“亲”脂。
只要成分正确,复杂的结构就能凭空出现,这让人多少嗅到了范·海尔蒙特“自然发生说”的味道。不过,两者存在着本质的区别。老鼠、蛆虫或细菌的自然发生,需要借助无法解释的神秘或超自然力量,比如活力。在活力论面前,由比希纳发现的酶显得滑稽而可笑。相比之下,生物膜和生物分子的自发装配,或者说是自组织(self-organization)形式,只需要简单的物理学和化学常识就可以理解。膜结构的装配只需要大量相似分子之间的相互吸引,就像海底火山喷发的颗粒自发堆积成高耸的海底“烟囱”,或者在蒙脱石催化下延伸的RNA链。以自组织形式形成的膜和分子在自然界算不上是什么稀罕的玩意儿。
自组织在宇宙中随处可见,甚至平常得往往会被我们忽略。自组织的出现远早于生命以及自然选择,它是恒星和星系出现的原因,也是地球诞生的推手,地球继而通过自组织俘获了月球,获得了海洋和大气,这股洪荒之力还在持续改变着板块的位置。自组织造就了小到显微镜下的雪花的对称结构,大到狂怒的台风云,另外还有沙丘变幻的轮廓以及晶体永恒的美丽形状。如果说生命的起源中同样包含了自组织,我们也不用感到惊奇,因为自组织的确无处不在。
生命的自组织生物膜模型能够解决另一个有关早期生命的谜题:第一个细胞进行分裂的方式。现代细胞分裂的方式极其精致和复杂:由数十种蛋白质通力合作挤压并分开细胞,同时确保每一个子细胞都获得一份完整的母细胞DNA拷贝。脂质囊泡的分裂则显得相对原始和简单,舒斯塔克的团队在2009年观察到了快速生长的脂质囊泡在分裂过程中的性状改变,即球形的液滴在分裂时逐渐变为细长的空心管。这些空心管非常不稳定,轻微的碰触就会让它们破碎成一个个小的液滴。更神奇的是,当研究者把RNA分子置入空心管时,它们会被分配到后来形成的小液滴里。没有生命的脂质液滴能够像细胞一样分裂:只需要借助体系内各成分简单的化学特性,而无须借助活力论,并且完全是自发的。
虽然我们已经从最开始的原始汤理论一路走到了这里,但是面前依旧有一些无法解决的问题,其中之一便是拦在从自分裂的脂质分子演变到真正的原始细胞之间的首要问题:如果细胞内的RNA的复制快于细胞生长,那么细胞会长到足够大再进行分裂,但如果是细胞生长快于RNA复制,那么RNA会渐渐变得不足,新生细胞中将出现没有RNA的空壳囊泡。为了能够生存,生命必须平衡两者,精确调节复制和生长之间的关系,以便使RNA的复制不快于细胞本身的生长。这种协调性到底是如何建立的,是20世纪科学遗留给后人的问题之一。
虽然生命的某些特征在它们出现之后的3 000多万个世纪里都没有改变过,我们将在后续的章节里看到,生命的成分分子、调节方式以及新陈代谢一直都是新性状出现的源泉,但是进化也在不断塑造着生命除此以外的方方面面。早期原始的RNA复制体变成了复杂的蛋白质酶系,除了RNA和脂质,生命还学会了调节和平衡数千种其他分子。无数后来出现的生化反应将现代细胞的新陈代谢,相当于法拉利的引擎,变成了一项化学技术上的奇迹。
现代的新陈代谢过程正如上述的法拉利引擎,它们能够利用许多不同种类的燃料。除了燃烧供能之外,新陈代谢还可以利用所有这些燃料获得并合成身体所需的基本粒子,身体会利用这些粒子进行生长、繁殖或是修复伤口。这就好比一辆车不光能够利用油箱里的燃料启动引擎,同时还能用它修补漏气的轮胎和破损的挡风玻璃。
新陈代谢的主要任务在生命出现的38亿年间几乎丝毫未变,主要是获取能量以及合成物质。新陈代谢反应本身也没有改变,以前一分子蔗糖通过水解反应得到一分子的葡萄糖和一分子的果糖,现在依旧如此,改变的仅仅是新陈代谢反应的数量。我们远古的祖先只需要依靠寥寥几个生化反应就可以活命,而现代生物则要依赖众多复杂的新陈代谢反应。
现代的新陈代谢是一系列高度复杂且相互关联的生化反应组成的网络,这张反应网是生命经历将近40亿年进化的结果。
大肠杆菌就像一台能够自我构建、自我增殖、自我修复的跑车,而它需要的燃料既可以是煤油,也可以是可口可乐,甚至可以是洗甲水。
成分越是简单的化学环境越适合微生物的实验室研究,但在自然界中如此纯粹可控的环境往往不常见。在类似土壤和人体肠道这样的环境里,物料分子的种类总是不断发生着变化。为了从这样的环境中有效摄取能量和碳源,微生物代谢的物质需要有一个明确的先后顺位。而要建立这种顺位,它们就必须尝试每一种可能的能源和碳源。
当今的生物与它们遥远的祖先的另一个重要区别在催化剂,也就是加速化学反应的功能分子。
不过,现代生物的催化剂已经不是简单的金属元素催化剂了。如今自然界的生物催化剂可以成万亿倍地提高生化反应的速度,让底物分子几乎在相遇的同时就完成反应。自然界有数千种不同的催化分子,每一种都有特定的氨基酸序列。
每一个细胞都含有数千种类似的纳米机器,每一种都负责催化一个特定的生化反应。所有这些酶都在细胞内生物单位分子高度集中的区域内发挥作用,这些代谢反应发生的特定位置通常比东京高峰时段的地铁站还要拥挤,令人称奇。
我们还不知道生命到底是如何从最初简单的形式进化出如此高度的复杂性,或许我们永远也无法知道确切答案。到目前为止,在化石中发现的最古老的细胞已经与现代细胞无异,而它们的祖先至今仍然半遮着容颜,隐藏在氤氲之中。这种未知一点都不奇怪。多数古老的岩石都无法在漫长的时间长河里保留下来。最早的原始生命不过是一团柔软脆弱的分子,即使动荡的大陆板块没有把它们留在岩石上的痕迹抹得一干二净,它们也不是铺满海底的蓝绿藻(blue-green algae),更不用说像生活在数亿年前的恐龙那样,留下巨大的骨骼化石。
但我们可以确信的是,所有生物都来自一个共同的祖先,这并不是说生命起源只发生过一次。由于自组织现象的存在,我不会对历史上生命有过多次起源感到惊奇,最早的生命可能诞生于深海热泉,可能诞生在温暖的池塘,又或者,天晓得是哪里。在所有这些忽明忽暗闪烁于地球早期的微弱的生命之光中,有的星火难以为继,有的则越来越明亮。它们之中只有一个得以辉煌灿烂,并诞下了今天所有的生命。这不是“仁者见仁,智者见智”的问题,而是必须如此,原因只有一个:标准化,精确并且广泛适用的标准化。
大自然不一样,它有标准化的电池,有着各种可利用的能量形式,包括机械能(拆迁时用铁球撞毁房屋)、电能(驱动电脑的电子流)和化学能(分子中把原子连接在一起的键能),其中化学能是最受生命青睐的。地球上的所有生物,从单细胞的细菌到巨大的蓝鲸,都使用同一种标准化的储能物质,这种能量分子就是三磷酸腺苷(adenosine triphosphate, ATP)。三磷酸腺苷分子中有高能的化学键,当高能化学键断裂时,键能就会转移到其他分子中,同时三磷酸腺苷变为相对低能的二磷酸腺苷(adenosine diphosphate,ADP)。为了重新合成三磷酸腺苷分子,需要某些特殊的酶催化,将能量从能源分子转移到二磷酸腺苷当中。
无论最终变成什么形式的能量,不管是机械能、光能还是电能,生物利用的所有能量本质上都是来自三磷酸腺苷的化学能。
如果细胞想利用能源物质来合成自身的成分,比如葡萄糖,它必须首先将葡萄糖里的化学能转移到三磷酸腺苷里。而后一步接一步,三磷酸腺苷的化学能被用于合成其他分子。通过这种方式,来自食物的化学能最终成为生物成分分子中的化学键能。因此,三磷酸腺苷是能量转移过程中关键的中间分子。
所有生物都以三磷酸腺苷为通用的标准能源物质,它们不需要检查电池的型号,也不用在机场为插座转换器支付额外的溢价。现存的所有生物都继承了某个祖先发明的储能标准。然而,这个出色的标准化能源并不是生物唯一的标准化项目。我们已经见识过新陈代谢的中心反应三羧酸循环了,还有自然界通用的生物膜里的脂质分子与水的爱恨情仇。除此之外,还有DNA、RNA以及每三个核苷酸分子对应一种氨基酸的密码子编码方式,所有生物都采用同一套密码子。
三磷酸腺苷和三羧酸循环作为生物界的通用标准,与光速作为宇宙速度的极限存在些微差异。三磷酸腺苷和三羧酸循环不是生命唯一的选择。我们已经发现了可以遗传编码的潜在方式,还有能量载体三磷酸腺苷,甚至是作为遗传信息载体DNA的可能替代物。所以,生物体的标准化不是必然,而是某个远古的共同祖先的遗留物。生命起源之初,有许多踌躇满志的选手对这场进化的马拉松跃跃欲试,不过由于自然选择或者运气不佳,最终只有一名选手坚持到了终点线,留下了自己的子嗣。
对于理解生命起源和进化来说,相比于弄清实际的过程,有两个启示在现阶段显得更为重要。
第一个启示,生命需要进化的能力,甚至在生命还没出现的时候就需要,以保证自催化的新陈代谢和最早的自我复制体诞生。
第二个启示,生物进化的交响曲有三段不同的主旋律。第一个篇章,进化把不同的化学反应组合到一起,比如合成生物单位分子的代谢反应以及合成第一个自我复制分子。第二个篇章,进化需要借助促进分子反应的辅助分子的力量。第三个篇章,进化创造了调节,这是高度复杂的生命体维持自身稳定的关键。伴随着生态圈的生命体变得越来越复杂,适应力不断增加,进化的这三个主旋律回荡在历史长河里,振聋发聩。
原始的新陈代谢演变为复杂的反应网络,网络中的反应不断发生重新组合,让生命尽可能地拓展到了任何可能的栖息地中。复杂的蛋白质酶替代了无机催化剂,并让功能复杂的蛋白质的出现成为可能,比如感光用的视蛋白以及防御用的角蛋白。还有调节,虽然它看起来似乎无关紧要,却是进化必不可少的组分,正是由于调节过程的存在才让多细胞器官得以出现,如四肢、心脏和大脑。
从生命出现到今天,进化一直在不断改变和优化新陈代谢、蛋白质和调节。虽然这三者看起来毫无联系,但在它们背后起关键作用的,正是神奇而强大的自组织形式。

03 宇宙图书馆

人类的文字或许能够记录整个宇宙,前提是那些语言可以涵盖的内容,但在这座宇宙最古老的图书馆里,化学才是创造新陈代谢和生命的通用语种。人类可以用散文和诗歌歌颂这个星球上数以万亿计的任何生命,但创造这些生命却只能用化学语言,特定的化学反应遇到生命基本的构成物,继而造就生命体。图书馆里的所有化学语言之和就是生命之歌。
如同随机庞杂的宇宙图书馆里包含了所有真实存在的书,代谢图书馆里同样包含了所有“真正”的代谢基因型,即那些真实存在于某种生物体内的代谢模式,而另一些并没有实际意义,只不过是乱码的书本而已。有的代谢基因型无法令生物获得能量,而有的则无法合成重要的代谢物质。好比一本书,虽然有的章节、段落或句子语意通顺、语法正确,但整本书却没有主旨,逻辑混乱。更有甚者,通篇连一句有意义的句子都难得一见,只有混乱无序的字母串。这些基因型所代表的代谢由缺乏关联的生化反应组成,它们的合成反应往往以对生物无用的产物分子大量囤积而告终。
新陈代谢与生物进化几乎一样古老,不断进化的生命几乎一经诞生就开始探索这座庞大的图书馆。大自然早在10亿年前就创造了数量多得难以想象的生物性状,远远超出了实际需要。然而进化并没有因为这些早期的成就而骄傲自满、停滞不前。在数以万亿计的现存生物中,新的生物性状依旧以远远超出我们解读能力的速度不断涌现。某些新性状出现的时间还不到100年,对于整个进化史来说,这仅仅是一瞬间而已。
新陈代谢进化的本质在于重新组合。
生物体通过进化获得摄食人造剧毒分子的能力,这种现象在自然界并不鲜见。更极端的是,有的细菌甚至可以分解和吸收专门用来杀死它们的抗生素。能被细菌作为食物的抗生素中包括一些人造的种类,所以它们利用这些抗生素的历史并不长。
自然力量不仅能为无米之炊,把毒药变成生命的美味口粮,还能贤惠地废物利用。
清除垃圾不如废物利用,而大自然尤其擅长后者。无论是氨气还是尿素,动物排出的含氮废物都是植物的肥料。而我们呼吸的每一口氧气也不过是植物光合作用产生的“废物”。每一克动物排泄物里都含有数十亿个细菌:人类排出的废物恰恰是这些微生物的无价之宝。粪便里的每种细菌都有自己独特的代谢方式,不管代谢模式是新是旧,都可以用于降解粪便里的有机分子,为细菌提供能量和所需的分子,使它们繁荣昌盛、生生不息。
代谢的进化不仅发生在适宜的环境里,在极端环境中也同样常见,如极端高温、极端寒冷、极端干燥、高度腐蚀性、辐射过量、极度高渗等。细菌作为个中典型,能够在沸腾的水里生息,也能在冰天雪地里泰然自若,既不害怕具有腐蚀性的硫酸,也对有着致命压强的深海毫无畏惧。为了能够在这些环境里生存下去,它们经历了无数次进化,而许多进化都与代谢相关。
如果没有这些进化,极端环境可以像这些细菌杀死我们一样,轻易地让细菌们毙命。
与其他生物比起来,可怕的极端环境倒显得有些不值一提了。掠食者和捕食者都是生物生存的大麻烦,尤其当你无从逃避的时候。由于无法移动,常见的植物基本都是其他生物的刀下肉,如昆虫、生活在地底的蠕虫、地面上的蛞蝓和食草动物都把植物当作盘中餐。植物无法通过行动进行防御,所以它们进化出剧毒的化学物质令动物避之不及。植物并不是这场化学战争里的唯一参与者,但确实是个中精英和翘楚,其中的原因大概正是因为它们哪儿也去不了。
如果你还在幻想大自然是一个诗情画意的秀丽之地,是伊甸园里的后花园,那么植物的生化武器可以立马把你天真可爱的愿景轰得灰飞烟灭。
上述生化武器分子都是对已有化学反应重新组合得到的产物,新的反应顺序让普普通通的原料转化为剧毒物质。反应的每一步都需要代谢基因型中一段特定的文本作为指导。
不同物种获得新代谢的方式十分类似,这些方式在大型的多细胞生物中也很常见,人类就位列其中。
有价值的能量获取新方式和生物体新结构在种群中的传播范围与传播速度正相关。对于生殖周期为数十年,哪怕是数个月的动物来说,由于繁殖速度的限制,它们的种群都无法快速地实现进化。
即使面对无数的不利条件,包括人类在内的动物在代谢进化方面也并不是无所作为的。
不过,在多细胞生物的世界里,人类根本算不上代谢竞技擂台上的种子选手,许多动物在代谢的不同方面都胜于我们。
进化的真正好手其实是我们星球上最小的生物:细菌。
如果所有的基因水平转移都不需要筛选,那么细菌的基因组势必不断扩大直到变得过于臃肿庞杂。过度冗长的DNA链脆弱易断,复制过程会白白浪费许多能量和原料。对大自然来说,浪费是不能容忍的罪过。幸运的是,由于基因融合和删除之间的平衡,过度冗长的基因组不会出现。基因删除是基因错误的副产物,是指细胞在修复和复制DNA的过程中切除错误基因。与每次只涉及一个碱基对的基因突变不同,基因删除往往涉及数千个碱基对和众多基因。只要基因删除没有累及必需基因,细胞就能够继续存活。非致死的基因删除时刻都在发生,它保证了只有有用的基因能够长久留存于基因组内,以及精简的基因组容量。
基因转移与有性生殖的另一个不同点在于,它不仅发生在亲缘关系相近的物种之间,还能够发生在面包酵母与果蝇和微生物与植物之间。尤其在微生物的世界里,哪怕两种微生物的种间差异大如人类和橡树,它们依旧能发生基因转移。这正是基因转移的强大之处,也是它能成就细菌在代谢进化中的霸主地位的最重要原因。物种之间的差异有多大,它们的代谢方式的差异就有多大。
基因转移通过从一个物种中获得的基因修饰另一个物种,让原本风马牛不相及的优良微生物基因能够融合,正如擅长巴洛克风格和流行唱法的不同微生物终能演绎出一曲风格混搭的乐章。由于不能挑剔或者选择所获得的新基因,而基因的融合随机发生在不同的基因组之间,所以只有部分基因修饰可以改进生物的性状。不过基因转移发生的频率远远超过我们的想象,所以生物进化出新性状的概率其实并不低。即便多数进化的结果乏善可陈,但是宇宙图书馆的书架上摆放了无数本书,在繁多的文字垃圾里依旧有数不清的杰作等待被发掘。
如今我们已经掌握了超过1 000种细菌的DNA序列信息,它们证实大肠杆菌菌株间的差异并不是特例,而是普遍规律。细菌基因组的大部分基因都是从别处交换得来的。你可能不会觉得奇怪,不过许多这些基因的起源的确难以追溯。要寻找某个特定基因来源的难度,无异于在国会图书馆中随手拿起一本小说并挑选其中的一小段,然后考证这一段内容在文学史上的影响。1 000多个菌种,甚至1 000种菌种的100倍,也只是由无数种细菌构成的多样性海洋中的区区一滴水而已。更多的细菌甚至还没有被我们发现,而每一种细菌都可能是其他细菌基因的贡献者。
由于细菌基因组中只有大约1/3的基因与代谢有关,所以基因组改变和代谢改变并不总是一一对应的。基因组编码的蛋白质还有许多其他作用,如帮助细菌移动、转运合成所需的物质等。那么如果基因转移主要涉及这些与代谢无关的基因会如何呢?生物进化在代谢图书馆里的步伐将难以深入,进而导致多数生物的代谢反应高度相似。
我们可以通过基因组序列预测某种生物的代谢基因型,并对不同生物的代谢基因型进行比较,而这正是我所做的工作。
在地球上的每个角落,剧烈的基因拆分和重组都在不断发生。只要是有微生物存在的地方,无论是在海洋深处还是荒凉的山巅,无论是在滚烫的热泉还是寒冷的冰川,无论是在肥沃的平原还是干燥的沙漠,甚至是在我们的体内或体表,生命都在尝试每一种可能的基因新组合,重新解读、重新编译,而后重新布局代谢遗传,片刻也不停歇,造就并不断提升着代谢的多样性。
如果没有读者,一本书就不过是一堆沾染墨水污迹的纤维纸片而已。同样的道理,代谢图书馆里的基因馆藏需要被阅读才能体现它们本身的价值,即每本书所对应的代谢模式应可以代表某种生物可以利用哪些营养物质,又能够合成哪些分子。我们回忆一下某些实实在在、可以被看见的生物表现型,许多代谢表现型如每天的阳光一样朴实可见。
不过代谢表现型并不局限在肤浅的视觉水平,它还存在于我们的眼睛看不见的生化层面,继而不断影响着自然选择。代谢表现型最重要的作用在于保证生物的存活率,归根结底,是与那60多种比色素分子重要得多的基本物质合成有关的能力。存活率,是一种对基因表现型的优劣进行衡量的方式,相当于对一个复杂的故事进行主旨概括,或是一场庭审中的最终判决:如果无法合成所有的基本生命物质,那么就判死刑,并立即执行。任何发生突变致使基本生命物质合成受阻的生物,不是无法存活到可以繁殖的年纪,而是根本无法存活。
为了理解决定生死的表现型,我们必须读懂生物的代谢基因型。这并不容易,不仅是因为基因文本的功能含义要比文本本身复杂得多,我们必须从生物整体上进行把握,考虑不同基因之间的协同效应,还因为我们的大脑并不擅长解读化学语言。幸运的是,我们可以利用计算机与编程演算,协助我们完成这项工作。
基因型可以告诉我们代谢中涉及哪些催化反应,反应中需要消耗哪些原料分子,又能够合成哪些产物。在解读基因型之前,我们必须首先确定营养物质的来源,俗话说得好,“巧妇难为无米之炊”。然后我们需要检验某种生物的代谢能否利用这种营养物质合成生物必需物质,譬如色氨酸。这对于能够在极端环境中生生不息的生存大师们来说并不难,比如大肠杆菌。这些极端的环境中营养物质稀缺,有时候只有一种糖类可供生物作为能源和碳源。
我们会从环境中存在的营养物质入手,罗列一张清单,枚举所有营养物质通过代谢反应能够获得的产物,然后在生物的基因组内寻找消耗这些产物的代谢反应,并列出这些反应的产物。我们需要重复这几步,直到找到一个或多个反应的产物中包含色氨酸。如果最后没能找到这样的反应,那么这种生物的代谢反应就无法合成色氨酸。
接下来,我们可以把注意力转移到另一种生物基本物质上,可能是另一种氨基酸或是DNA的4种基本单位之一,重复上述整个步骤,以检验每一种构建生物的基本物质是否包含在该物种的代谢反应中。只有能够合成所有生物基本物质的物种才有可能存活。
所有这些工作都是在计算机上完成的,如果使用恰当,计算机运算的速度更快、成本更低,甚至比传统的实验结果更可靠。但正如纸上谈兵并不等于可以攻城略地,对生物学家来说,任何没有经过实验验证的计算结果都需要谨慎对待。正如工厂会对出产的产品进行随机抽查,我们也需要抽选一种已知基因型的生物,将其培养在成分已知的环境中,然后静观其变。其实也可以说是冷眼旁观,任它们自生自灭。这种工作早就已经有人做过了,他们实验的对象包括了数百种大肠杆菌的变种菌株,这些变种大肠杆菌都通过基因工程敲除了某一种酶。实验结果与计算机演算结果高度吻合:超过90%的菌株实验与演算结果相符。
大多数知道这项演算实验的生物学家都把它当作理所当然,并不觉得这项工作有多稀奇。但事实上,这远不止是稀奇而已,能够通过计算机预测生物生存能力的技术具有深远的开拓性意义,它是数百年的传统生物学研究与现代计算机科学结合的产物。达尔文以及在他之后的几代生物学家大概做梦也想不到,有朝一日世界上会出现这样的技术,而计算机技术对于我们理解代谢进化,理解大自然如何创造出了新的代谢模式至关重要。
对于任何已经了解其代谢功能的生物而言,在任何成分已知的环境中,无论是极地土壤、热带雨林、海底深渊,抑或是山地草甸,我们都可以用这种算法进行模拟。这种算法同样适用于评估代谢表现型的任何层面,比如预测代谢反应中能够合成的所有分子。不过,在能够进行演算的所有方面中,合成生物基本物质的新手段与利用能源物质的广泛适应性是最重要的层面,而生物存活率则是这一切的根本意义所在。新的代谢能力是不断驱动生命拓展最前沿阵地的引擎。
利用新物质作为燃料的能力之所以如此重要,其原因非常简单:无论一种代谢方式在今天看来有多成功,由于世界的瞬息万变,它几乎注定会在未来的某一天掉下神坛,正如将随着不可再生的化石燃料日渐枯竭而凋零的全球经济。环境中的化学成分也是一样,营养物质总是旧去新来,从来不会一成不变。依赖某几种特定营养物质的生物容易走入进化上的死胡同。生命如果想繁衍下去,就必须寻求新的代谢方式。万幸的是,许多不同种类的分子都可以为生命体提供能量和必需的化学元素,有我们熟悉的葡萄糖和蔗糖分子,也有一些可能相对陌生,比如剧毒的五氯苯酚。
只需要较少的几种原料分子,就可以组合出数量惊人的代谢类型。它们的可能数量相当巨大,不过并不是所有这些代谢表现型都能保证生物的存活。
现代综合进化论的缺陷是它过于忽视生物高度复杂的表现型。
表现型的巨大数量同时也意味着代谢进化的巨大潜力。理论上来说,代谢表现型的数量越多,生物的进化潜力就越大。
由于代谢类型的数量巨大,远远超过宇宙中的氢原子数,所以要腾出一块地方,专门建一栋收纳所有表现型文本的图书馆显得异常艰巨。
一种相当简便的图书馆归档方式是把书按照内容的相关程度摆放。人类的图书管理员在归类不同印刷版次的同一本书时就会用这种方式。如果代谢图书馆在归类书籍的时候也遵循相同的原则,那么越相似的文本之间应该距离越近。但在讨论归档之前我们首先要解决一个问题:采购或者制作这个图书馆需要的书架将是一件痛苦的活计。
在现实的图书馆里,每本书都与另外两本书相邻,左右各一本,即使算上书架上下的书,那么一本书最多也只与四本书相邻。每本相邻的书都只相差一个字母,相邻的代谢基因型之间只差一个生化反应。(两个代谢基因型之间的差异无法比一个更小,而当两者差距进一步拉大时,它们就不会被相邻摆放了。)
代谢图书馆里的每本馆藏不是与两本,也不是与四本,而是与上千本书相邻,具体的数目取决于生化反应数量的多少,相邻的馆藏之间只相差一个字母,也就是一个生化反应。能够满足如此陈列要求的书架可不是那么容易找到的。
为了帮助你理解这种情况有多复杂,我们先从更简单的情况开始讨论,最简单的化学世界莫过于只有一种化学反应。在那个世界的代谢图书馆里只有两本馆藏。
随着例子中化学反应的数量从一到二再到三,对应的代谢型分别占据了一条直线、一个正方形和一个立方体的顶点,不同的几何图形又分别对应一维、二维和三维空间。尽管四维或者更高维度的空间很难用视觉图形的方式呈现,但和它们打交道依旧是数学家们的家常便饭,因为他们能够将已有的几何规则演绎到这些多维空间中。
虽然把高维空间的图形视觉化有点不切实际,但是它们依旧遵循与三维空间的图形一样的原则:边等长、恰当的角度以及与每一种代谢型相对应的顶点。符合这些原则的高维度几何图形,其性质恰好符合代谢图书馆的需要。
当我们讨论五千维空间的时候,顶点数量就达到了25 000个,也就是代谢图书馆的规模。换句话说,我们可以把这些馆藏摆放在一个五千维空间里的超几何体的顶点上。面对五千维空间,身处卑微三维空间的我们几乎束手无策,这就是为什么代谢图书馆里不能用现成的普通书架。它需要一个五千维的解决方案才能维持馆内的运营。
除了馆藏的摆放问题,超几何体还可以很好地解决馆藏之间的相邻问题。
五千维的超几何体中,每一种代谢型都和与维度数一样多的其他顶点相邻,也就是5 000个。从每个代谢型所在的顶点出发,你有5 000个方向可以选择,只需要跨出一步,你就可以到达5 000个与之关联的顶点中的一个,而且相邻的代谢型都只相差一种化学反应。要么多一种,这种情况下某一个编号中的0就是另一个相邻编号中的1;要么少一种,也就是某个1变成0。
生物进化的过程就像参观代谢图书馆,基因删除和基因转移就是生命在图书馆里移动的方式,让它们从一本馆藏跳到下一本,而通常就是相邻的那一本。每本书相邻的所有其他书可以被称为一个“社区”(neighborhood),对于生物进化来说,这个社区如同现实生活中真实的城市社区,对人们的生活而言,具有同等的重要性。城市社区的有用之处体现在它的便捷性上:人们需要的东西都在几步之遥,代谢图书馆的“社区”也是一样的道理。进化只需要对基因型进行微不足道的一点修改,就可以搬进自己邻居的家里。不过城市社区里的居民只能沿着东、南、西、北四个基本的方向行走,而进化有5 000个不同的方向可去。(这个复杂的场面你最好连想都不要去想。)因此,一种代谢型身处的社区肯定比你所在的小区有趣且丰富得多。我们很快就将看到,代谢图书馆惊人的多样性在进化的创造性中具有的重要性。
随着时间的推移,某种生物基因组中积累的改变越来越多,它也渐行渐远,进而到达图书馆内距离更远的书架。为了估算距离,我们需要寻找一种度量的手段。没有度量的能力,我们就无从得知进化如何周旋于不同的书架之间,图书馆就像一个迷宫,我们将迷失在毫无意义的书堆之间。幸运的是,我在研究中所用的基因型差距值D可以胜任度量的工作。D值能够代表图书馆中两个代谢文本之间的距离大小,事实上,它已经告诉我们某些生物的代谢型相距甚远。除此之外,它为我们提供的另一个洞见才是重点:代谢进化能够在代谢图书馆中穿越惊人的距离,而许多进化的文本不管披着何种外衣,它们诉说的故事寓意都是相似的。
终有一天我们将能够破译数以百万计的代谢文本,但是对于超宇宙数量级的代谢图书馆来说,这也不过是沧海一粟,甚至仅仅是宇宙中的几粒尘埃而已,代谢图书馆里的馆藏远远超过地球上所有曾经存在过的生命的总和。尽管已经经历了38亿年的进化,生命依旧只是徘徊在图书馆的某个角落。
在生物进化的数十亿年间,大自然完全不需要顾虑会在宇宙图书馆的下一个拐角遇到什么样的新馆藏。但是如果人类希望理解图书馆,而不是在其中漫无目的地游荡,我们就要学会在图书馆里寻找那些有意义的生命文本。不仅如此,我们还要学会对已知的文本进行分类。代谢的表现型,也就是代谢基因文本的具体含义,是代谢图书馆天然具有的分类方式。代谢图书馆里的馆藏比现实图书馆中的书要多得多,不过这仅仅是因为代谢图书馆本身的规模过于庞大。
分类法就如同一张探索代谢图书馆的地图,我们如果想要某种表现型,那么一张基因型-表现型地图可以指引我们去哪里寻找它的基因型。如果没有这张地图,我们就无从得知题材类似的馆藏是摆放在一起还是散落于图书馆内各处,虽然在人类的图书馆里它们总是被安排在一起;我们也不知道同一个书架上是否会陈列主题不同的作品,凡此种种。由于没有图书管理员,所以我们需要像古埃及时期游历世界绘制大陆形状的航海家们一样,通过自己在图书馆里游荡和探索亲手绘制这幅地图。代谢图书馆巨大的规模使得我们几乎不可能摸清它的每一本馆藏,不过我们依旧可以描绘大陆、山川、河流、湖泊以及沙漠的轮廓,以期能够从模糊的形状里窥得壮美山河的蛛丝马迹。
不要说图书馆,哪怕是仅仅包含葡萄糖代谢的文本就已经是一个超宇宙常数了。代谢图书馆里堆到天花板的那些书,其实不过是在用不同的方式诉说着同一个故事。
万万没想到的是,我们在探索过程中还发现了这座图书馆的一个更诡秘的特征。那数千个随机游走的算法并没有终结在文本内容相同的书堆中,也就是一小群类似的代谢反应模式里。随机游走沿途经过的所有代谢模式,不论是与原本的大肠杆菌还是其他模式相比,都一样天差地别。每种代谢基因型所编码的代谢模式,包含的生化反应都各不相同。不像现实中的图书馆会设置历史书籍区或科学书籍区,代谢图书馆并没有严格地按代谢的类别划分区域。
最让我们惊讶的是,当我们以任意一种代谢模式作为新起点,以保证生物的存活为前提,以保证某种特定的性状不变为前提进行随机游走时,我们最终总是能找到一些类似的文本,而不论它们离起点有多远。这似乎意味着,图书馆中主题相同的馆藏相互联系,形成了一张网络,我把这张网络称为基因型网络(genotype network)。
含义相同的无数文本在图书馆内就像散布在宇宙中的星辰,中间隔着广袤的未知空间。但实际上它们并非处于孤立状态。它们之间以城际高速相连,高速路上灯火通明。
建立在同一种物质代谢基础上的基因型的代谢相似度可以仅为20%,正是它们在代谢图书馆中连成了一张宽广而稀疏的网。
我们偶然发现了代谢图书馆内组织构建的最基本原则。首先,许多代谢型都能够以相同的物质作为能源,这与具体的能源物质种类关系不大。生物通过对不同化学反应进行千奇百怪的组合,合成了必需物质。其次,相同的能源并不意味着相同的代谢,这些代谢型往往只有一小部分生化反应存在交集。最后,我们演算得到的代谢型都在一张巨大的网络中相互联系,这张网络就是基因型网络。每一类代谢都有各自的基因型网络,所有的网络在代谢图书馆里互相纵横交织,仿佛一块致密的绸缎。
同一表现型的不同代谢文本提高了我们找到该性状的概率,而且是成倍提高。此外,进化可不仅仅是一名在图书馆里闲逛的读者。相反,它会招募大量生物进入这座图书馆里寻找新的文本,每发生一次基因转移,生物在代谢图书馆中就深入一步。有着数十亿读者在朝着图书馆内不同的方向展开探索。
与我们在现实生活中逛图书馆相比,进化探索自然图书馆的方式还有一个不同之处。为了便于理解,我们可以假设有一个生物个体遭遇了一场变故,很可能是一个基因的删除,因此从安全前行的道路上偏离,与原本维持它生存的代谢文本失之交臂。发生在它身上的基因删除可能会摧毁某个关键分子的合成能力,而这个个体毫无生还的可能,自然选择将慷慨地赐予它死亡。这就是代谢图书馆,在那里,有些读者会在延绵数代的探索中消亡,而有的则得以生还。
从局外人的角度来看,图书馆中的探索者们,无论是细菌还是蓝鲸,并没有比尘埃泥土特别到哪里去。在自然图书馆面前,生命卑微得像无根的野草,在世间到处漂泊流浪。无数生命用自己的身躯试验着不同的化学反应组合,不断地试验,不断地重复。有些一命呜呼,有些则侥幸生还,继而把自己的经验传递给下一代。生命犹如风中翻腾的黄沙,生命进化的过程并不比无处安身的风尘高贵多少。
基因型网络就是那股风,没有它,生命的黄沙就失去了前行的动力。如果代谢某种物质的解决方案是唯一的,那么所有探索图书馆的读者就不得不挤在某本书周围。任何企图到附近书架开小差的个体都会被淘汰。而如果内容类似的文本稍微多一些,读者们也只能围在图书馆的某一小块区域内。多亏基因型网络的存在,生命才能在保证原有性状的同时,深入探索图书馆的各个角落。
生物进化的关键因素有两个,基因型网络只是其中之一。我们现在来看看第二个因素:代谢图书馆中社区内性状的高度多样性。
在分析了数千对代谢文本以及它们的表现型之后,我们发现之前的预设是正确的。文本所在的社区内往往有着控制新性状的文本,而不同社区内文本的表现型也十分不同。许多代谢性状都是某个社区所特有的,不会出现在其他社区中。(这是因为每种表现型都有自己所在的基因型网络,同时也意味着不同的基因型网络相互交织的方式极其复杂。)
代谢图书馆里的新性状几乎取之不尽。基因型网络和社区多样性亦然,它们是进化发生的两个关键。基因型网络确保了生物探索自然图书馆的能力,没有基因型网络,生物一不小心就会踏入万劫不复的境地。而如果没有社区,沿着基因型网络进行的探索就失去了意义:网络中的性状都一样,对其中某个性状的探索不会带来任何新的性状。
人类图书管理员在管理现实的图书馆时可没有这样的本事。且不说去哪里找用数千种不同的方式讲述同一个故事的书,即便有,也没有图书管理员会模仿自然图书馆的组织形式,在一个主题区域里摆放内容不同的各种书籍,他们也无法把含义不同的书安排在主题相似的文本附近。
不过只要仔细思考就会发现,代谢图书馆并不是什么疯子脑袋里的奇怪想法。人类的图书馆之所以非常实用,仅仅是因为图书管理员按照我们的需求对书本进行了分类管理,有关太阳能电池的书在这个书架上,而与法国文学有关的书则在那个书架上等。而对于一个读者没有偏好,只能随机游走的图书馆来说,只要走错一步就会灰飞烟灭,那么谁都不敢在这样的图书馆里随便走动,读者只能停留在眼前的书架上。如此一来,它们就成了鼠目寸光的伪学者,除了精通自己所在的书架之外,对其他领域一无所知,也不会学到任何新的东西。这可不是在这个多变的世界上生存下去的好办法。对于这样的读者来说,代谢图书馆简直是专门为它们寻求新性状设计的。
更奇妙的是,其他与生命有关的自然图书馆也遵循相同的组织方式。

04 构型之美

蛋白质是细胞成分分子中的庞然大物,是生命的驱动者。
每种蛋白质对于生物表现型的塑造都有它独特的功能,而对于蛋白质来说,构型是它们最重要的特征。这里所说的构型不仅指蛋白质中20种氨基酸本身的分子形状,以及氨基酸之间相互的连接方式——这些统称为蛋白质的一级结构,还代表线性的氨基酸链经过空间折叠形成的立体结构。
我们体内有上万亿个细胞,只要细胞内形成一条新的蛋白链,它都要发生空间折叠。所以在一天中,蛋白质的折叠在每个细胞内都要上演几百万次。
构型对于保证蛋白质的功能至关重要:热能导致折叠的蛋白质分子不断振动和振荡,而α-螺旋和β-折叠则起到引导并限制分子热运动的作用。振动受限让蔗糖酶这样的酶能够催化糖的裂解反应,原理有点像剪刀:如果没有连接刀片的转轴限制它们的运动,剪刀也就无法裁纸。鉴于热运动对酶分子的重要性,所以对每种酶分子的催化作用而言,都存在一个最适的理想温度:热量太低,分子振动微弱,不足以组织分子运动;热量太高,剧烈振动则会使空间折叠分崩离析,导致蛋白质变回线型氨基酸链。更糟的是,未折叠的蛋白质经常聚合成大团大团的惰性物质,就像熟鸡蛋里的蛋白。未折叠的成团蛋白质不仅无用,而且有害。就像如果你的大脑里积累了太多蛋白质块,就会引起严重疾病,例如阿尔茨海默氏症。
蔗糖酶和其他蛋白质在振荡中形成的构型复杂多样,且各自都有着特定的功能。每种蛋白质的构型都高度复杂,与它们所执行的功能相适应。用达尔文描述生命世界的话来说,这是一个“无尽之形最美”(endless forms most beautiful)的世界。蛋白质的构型维持着生命世界的运转。
蛋白质不仅需要处理眼下的工作和任务。如同人类的经济社会一样,生物也需要面对瞬息万变的挑战。作为应对,进化为生命带来了新的蛋白质构型,而具有新构型的蛋白质则可以承担新的工作。每当生命需要解决新问题时,比如在极度低温的环境中,体内生长的冰晶变成致命的刀片,威胁到自身的生存时,新的招募工作就开始了。
无论是早先的高炉,还是如今的智能手机,人类社会中的发明往往需要经历漫长的独立研发过程,并非一蹴而就。与之类似,自然界塑造生物新性状的过程也往往不是瞬间实现的。
蛋白质进化所需的变化通常比我们想象的要少得多。
单就差异巨大的结果而言,这些小小的变化就足以被称为新性状。上述的例子无不说明,只要稍微改变几个原子就可以影响比原子大几百万倍的生物,并永远改变这个生物后代的命运。
你无法只是通过道听途说就了解有一种蛋白质叫抗冻蛋白,还有一种叫视蛋白,以及理解这些蛋白质起源的真相,就像你没法只靠几个国家的卫星图像就画出一张完整的美国地图。要解释新蛋白质的起源需要我们拿它们与大量原始蛋白质进行比较,成百上千对地进行比较。
如果能解读基因的DNA或者基因编码的氨基酸链,也就是蛋白质的基因型,这个任务就会容易一些。
这么大一堆关于蛋白质的事实如果不经组织,简直就是一本疯子编纂的字典,里面的几百万个单词杂乱无章,毫无头绪可言。然而一旦经过组织,这些事实就成了图书馆的一部分,这个图书馆和第3章中巨大的代谢图书馆类似。这个宇宙图书馆里收录的正是蛋白质的基因型,每个文本都由20个字母构成的字母表写就,每个字母对应一个氨基酸。这座图书馆收集了生命已经创造和能够创造的所有蛋白质,有时也被称为蛋白质空间(protein space)或序列空间(sequence space)——因为每个文本都对应一个唯一的氨基酸序列。
蛋白质图书馆和代谢图书馆的相似之处不仅在于规模。和后者一样,蛋白质图书馆也是一个超几何体,相似的文本彼此邻近。每个蛋白质文本位于这个超立方体的一个顶点,就像在代谢图书馆里一样,每个蛋白质都有许多直接相邻的邻居,这些邻居和它只差一个字母,位于超立方体上相邻的顶点。
在这座图书馆迷宫里漫游,要是手里没有一团展开的毛线丈量走过的路程,很容易就会迷路,这一点也和代谢图书馆类似。在这里我们也需要借助某种方式来衡量蛋白质图书馆里的“距离”,于是我们采用了两个蛋白质相异的氨基酸数目作为衡量距离的单位。这个标准可以告诉你,从一个蛋白质文本到任一其他文本要走多远,即需要改变多少个氨基酸。
图书馆中的文本很重要,但更重要的是每个文本承载的意义。我们的双眼无法解读这种意义,无法阅读蛋白质化学语言的单词、句子和段落,但生命自身精通这门语言,并能分辨出一个蛋白质文本到底是文风优美的佳作,还是词不达意的垃圾。
细胞判断蛋白质是否有意义的标准很实际:能让细胞存活的蛋白质就有意义。只有有用的蛋白质才有意义,有缺陷的变异蛋白不能正确完成折叠,自然也就一无是处。如果“意义”这个词听起来过于以人类为中心,我们不妨参考一下符号学——一门语言学的分支,主要研究意义的意义,其中对“意义”的定义是任何符号(随便什么东西,可以是路标,可以是一本书)所指涉的内容。根据这个定义,如果蛋白质的基因是符号,那么它所编码的蛋白质氨基酸序列以及蛋白质在细胞内所起的作用就是它的意义。
宇宙图书馆里到底确切地藏有多少本有意义的书,我们仍然无从得知。但经过几十年的研究,如今我们已经可以估算蛋白质图书馆里有意义的蛋白质的数量,因为大多数有用的蛋白质都有特定的折叠形状。从图书馆里随机选取一个书架,随机选取一个蛋白质,它能够折叠的概率至少是万分之一。这个概率听起来好像不是很大,但请记得,宇宙图书馆本身非常巨大,光是由100个氨基酸组成的蛋白质就超过10130个。即使其中只有万分之一的蛋白质能够折叠,也有10126个,即1后面跟着126个0,这比全宇宙中的氢原子数量还多。由此可知,有意义的蛋白质的数目大得超乎想象。
进化会利用大量的生物体对蛋白质图书馆进行探索。DNA一代接一代地复制,难免会出现复制错误,改变DNA链上的碱基,如腺嘌呤变成胞嘧啶,胸腺嘧啶变成鸟嘌呤,或者发生其他变化,每改变一个氨基酸,蛋白质就会发生改变。变化后的文本可能具有全新的用途,想要理解这一过程,我们就得绘制蛋白质图书馆的地图,就像在代谢图书馆中做过的那样。这个任务没有看上去那么难:多亏研究蛋白质的科学家们在过去数十年中的不懈努力,我们已经知道了成千上万种蛋白质的折叠方式、功能以及在图书馆中的位置。另外,借助20世纪的分子生物学技术,我们可以从书架上取下任意一卷书,合成相应的蛋白质,并在实验室里研究它的折叠方式和功能。
具有不同功能的蛋白质数目是一个天文数字,每一种都对应蛋白质图书馆中的一卷书。图书馆中馆藏数量之多,难以想象。就生物的创造力而言,只有我们想不到,没有自然界做不到。
在自然界中,每一天都有不计其数的生物体在加班加点合成新的蛋白质,每个生物体都是合成蛋白质的量产工厂,而每一个蛋白质都不过是在持续了亿万年的蛋白进化之路上,最后的那一个脚步而已。
蛋白科学家早就已经注意到了蛋白质的多样性。如果把蛋白质比作糖,拥有数量庞大的蛋白质的自然界就像一家巨大的糖果店,心怀热忱的科学家就像孩子一样一拥而上。比起实验室中得来的数据,科学家在成千上万的生物体中得到的有关蛋白质进化的知识要多得多。
经历无数代繁衍,复制错误,尤其是某些可容忍的复制错误在基因组中逐渐积累,就会慢慢改变蛋白质的氨基酸序列。
类似的基因型网络我们已经在代谢图书馆中探讨过了,无论生物进化在这张网络中往哪个方向走,走多远,代谢表现型的意义总是保持不变。进化在探索蛋白质图书馆的过程中采用了一种不同的策略,不是基因水平转移,而是改变单个氨基酸,但两者的本质是相同的。基因型网络将不同的球蛋白连接在一起,网络的根须触手一直延伸至蛋白质图书馆的深处。进化可以沿着这个网络探索图书馆,不致迷路而陷进由无用分子围成的致命流沙中。
自然实验室中的上千种蛋白质同样叙述了一个类似的故事:不管是酶、调节因子还是像血红蛋白那样的运输分子,当我们需要一个新的蛋白质解决眼前的问题时,解决方案往往多得数不过来。不仅如此,应对相同问题的蛋白质由一张众多蛋白质文本构成的巨网相连,遍布蛋白质图书馆。在某些蛋白质网络中我们已经能够认出数千种蛋白质了,可是这也只是沧海一粟,要知道,一张网络中具有相同表现型的蛋白质往往多达数万亿个。
有些未知的蛋白质属于早已灭绝的生物,但是绝大多数蛋白质甚至从未在自然界出现过。生命历经的40亿年太短,只够创造出1050种蛋白质,这只占蛋白质图书馆所有文本中的极小一部分。不论巨大的生命之树上挂着多少蛋白质,也不论这棵树有多么高大、多么美丽,它终究只是脏兮兮的镜子里污迹斑斑的影像,是柏拉图的理想世界中模糊不清的幻影,唯有背后那张更大的基因型网络才是这一切的本质。
我们在第3章里看到,在进化过程中,有几十亿读者通过基因型网络探索着代谢图书馆各个角落里的不同社区。尽管有些探索者掉下网络一命呜呼,但也有一些探索者通过网络发现了新表现型的进化文本。基因型网络或许同样可以服务于蛋白质,前提是蛋白质图书馆里的社区也具有多样性。否则,进化的蛋白质还不如待在原地不动。因为如果图书馆不同区域堆放的书籍相同,也就没有探索图书馆的必要了。
最终的答案很简单:即使两个蛋白质在图书馆里离得很近,它们的社区内包含的大部分蛋白质功能也不同。比如,某两个蛋白质中存在差异的氨基酸只有不到20%,即便如此,它们各自所在社区里的蛋白质的大部分功能也都不同。蛋白质图书馆和代谢图书馆一样,社区高度多样化。出于同样的原因,这种多样性使得庞大的基因型网络与探索蛋白质图书馆的过程相适应,蛋白分子在保存原有意义的同时,拥有进化成为功能不同的新蛋白质的巨大潜力。
代谢图书馆和蛋白质图书馆中充斥着基因型网络,这些网络由含义相同的文本构成,每个文本都被放置在高维空间的超几何体上,两个图书馆里的多样性社区数量也都多得难以想象。它们彼此间有诸多相似之处,但都与人类图书馆大相径庭。不过这也没什么好奇怪的,因为远在人类出现之前,它们就已经存在了。
确切一点说,代谢图书馆和蛋白质图书馆的出现至少比人类早了30亿年。从那时候起,蛋白质就从RNA手里接管了大部分生命的工作。这样做绝对有着充分的理由,因为蛋白质的构件要多得多,RNA只有4种核苷酸,相比之下蛋白质则有20个不同的氨基酸,大自然可以用蛋白质书写更多不同的文本。相比RNA,蛋白质文本的数量要多得多,而且文本越长,两者的差异越明显。更多的文本意味着更多的构型,参与更多的反应催化,执行更多的功能和完成更多的任务。
但RNA的出现确实先于蛋白质,就凭这一点,RNA就足以在生物进化的万神殿里享有一席之地。如果没有历史上的第一个自我复制分子以及它的进化,也就没有今天的我们。
幸好,RNA和蛋白质之间有许多相似之处,这有助于我们理解RNA的进化。我们可以把RNA文本组织成一座超立方体图书馆,虽然不如蛋白质图书馆大,但依然规模惊人。在图书馆中,相似的文本离得近,相异的文本离得远。这座图书馆也属于高纬建筑,这意味着其中的社区比三维空间里的大得多,即一个文本附近有许多其他文本。由于RNA长链分子和蛋白质一样高度灵活,所以许多RNA文本的意义也会借助构型语言来表达。和蛋白质一样,RNA链也会在空间中弯曲扭转,精心折叠。
不幸的是,RNA与蛋白质的相似之处仅到此为止。RNA分子似乎不愿意轻易显山露水,对它的构型研究一直不顺利。科学家们至今只确认了数百个RNA构型,而我们已经知道了上千种蛋白质的构型和功能,相比之下,已知的RNA构型数量简直微不足道。我们在蛋白质中取得的成果,即大量比较自然界中的蛋白分子并绘出图书馆模型,暂时还不可能在RNA分子上重复。
大多数人认为进化非常缓慢,所需的时间与我们每个人的正常寿命根本不在一个数量级上。就人类的进化而言,这的确是事实,1 000年的时间才相当于50代人,但许多其他生物的世代时间就要短得多,比如大肠杆菌,它每20分钟就能繁衍出下一代。繁殖50代大肠杆菌甚至用不了一天。一个RNA分子几秒钟就能完成自我复制,RNA使用的分子复制体系与复制DNA的那一套相仿。不消一天,你就能得到上千代RNA。
有了快速复制的生物体和分子,实验室就可以开展一个雄心勃勃的实验:重演进化。类似的模拟进化实验能够让科学家形象地看到进化如何在生物传宗接代的过程中,逐渐改变整个生物种群。由于RNA分子对早期生命至关重要,它们在这种实验中就显得特别有吸引力。RNA分子兼具自我复制和变异的遗传特性,本身的性状又能够作为自然选择的作用对象,集各种进化的要素于一身。
实验室里模拟进化的实验常常出现意外。不论我们对一个分子研究得多透彻,不论实验多简单,不论控制得多精确,自然总是出人意料。哪怕是最简单的酶,也比大多数人类制造的机器要复杂难懂得多。
虽然我们在预测最佳结论上毫无建树,但也没有空手而归,我们现在已经知道基因型网络可以加速生物种群进化的速度。这个结论正中要害,虽然我们无法预测某个个体的新性状,但这并不妨碍我们在种群层面上对于进化的研究。
科学袪魅自然,确定自然法则,剥夺人对世界的惊奇和敬畏之心,这让很多伪科学人士深感困扰。用诗人约翰·济慈(John Keats)的话来说,科学家是群扫兴的人,“使天使折翼”(clip an Angel's wings)、“拆开彩虹”(unweave a rainbow)。达尔文理论之所以不被接受,这种情感当然也是原因之一,不过上述实验表明,我们依然可以想到两全其美的办法。科学能够解释进化的普遍原则,但是不能预测单个进化。理解进化的能力丝毫不会影响进化的魔力。这本身就是我们对自然保持惊奇和敬畏的理由。

05 命令与操控

乳糖不耐的人曾经也能够消化母亲的乳汁。在幼年时,他们体内的乳糖酶基因是激活的。用专业的术语来说,这些基因是表达的(expressed),基因表达的意思是:编码乳糖酶的DNA指令被转录为RNA,RNA继而被翻译为相应的蛋白质,也就是酶。乳糖不耐就是源于成年人体内的乳糖酶基因被永久关闭,不再表达。这种可以激活或者关闭的基因,我们称之为“可诱导基因”(regulated genes)。
对于多数人来说,成年后体内的乳糖基因关闭才是常态。如果你有幸能够耐受乳糖,那么说明你在乳糖酶基因控制区存在一个突变,这个紧邻酶基因的突变使得你的乳糖酶基因在成年后仍然可以持续表达。乳糖耐受是近世代自然选择在人类基因组中留下的最深刻的烙印之一。
说来可能没人相信,但是乳糖诱导的消化不良与自然进化有着密切的关联。两者的联系在于调节,类似于乳糖酶基因开关的分子调节。除了引起肠胃不适,基因调节还与数不清的生物形态有关,如水母波动起伏的“伞”,鲨鱼犹如水雷般致命的身形,玫瑰窈窕纤细的茎秆,红杉树巨大粗壮的树干,毒蛇吓人的条形躯干,野兔疾步如飞的四肢,还有鸟儿用以翱翔的双翅。从细胞中第一个平衡细胞的生长开始,基因调节就从细胞依旧利用RNA作为基因组的远古时代出现了。30亿年之后,地球上每一种生物形体的发育和塑造中都有基因调节的参与。如果我们不能理解新的基因调节如何出现,也就无法完全理解新性状的进化如何完成。
虽然无论生物多复杂,它们的形态和功能都受到基因调节的控制,但是对其的研究最容易在简单的单细胞生物中开展,比如细菌。
调节因子与相应的DNA需要在形态上互补,就像能够互相拼接的乐高积木。这个比喻很形象,但是并不太贴切,因为性状并不是互补的关键。确切地说,相互靠近的两个分子必须发生相应的形变,否则就无法发生互补。另外,乐高积木只有10多种不同的形状,而分子的形状则丰富得多,蛋白质有数万种不同的结构,而DNA的结构数量则更在这个之上,几乎和人类语言中所有的词汇数量相当。
除此之外,与乐高积木不同,许多分子的形状改变是自发的,不仅像酶一样发生在平时的分子震动中,同时也发生在分子间相互结合的时候。这种形变就像你用正确的钥匙开锁:只有在正确的钥匙插入的时候锁芯才会转动,门才会打开,只不过在分子中,是热能而不是钥匙在转动“锁芯”。
仅仅几个百分点的工程拖欠似乎算不上什么大事,对于大肠杆菌20分钟左右产生一代的分裂速度而言,一分钟的差距好像不足为奇。但是这一分钟的延迟从长远来看却是致命的。如果一个菌群中有50%的细菌存在这一分钟的缺陷,80天之后,存在缺陷的细菌数量将不足1%,而300天之后,这个比例会降到百万分之一以下。它们很快就会不可避免地被繁殖相对较快的同类排斥殆尽。自然选择向来雷厉风行,不讲人情。
如果调节能够避免不必要的浪费,那么它应当无处不在。事实上也的确如此。想象一下,一个包含数百种生化反应的代谢,如同数百条互相连通的管道,而乳糖代谢只是其中之一。营养物质流入管道,而流出的则是生物质。每一条管道都有一个专属的水泵,作为水泵的酶分子会推动原料分子通过管道,细胞能够根据自己的需要调节每一个水泵的工作。如果细菌在土壤里发现了新的食物,比如一个掉落的苹果或一具腐烂的尸体,它们就会打开对应水管里的水泵。一旦营养物质消耗殆尽,水泵就会被关闭。此外,如果环境中某些营养物质的供应增加或减少,细菌还能够将水泵的速度调节到恰当的大小。
β-半乳糖甘酶的基因表达能够被调节因子抑制,而其他基因的调节方式则正好相反:这些基因平时也处于关闭状态,只有在需要的时候才会被激活,即它们的调节因子帮助基因在需要的时候进行转录,而在不需要的时候抑制多聚酶结合。虽然转录水平的调节是所有调节中最重要的,但它并不是唯一的调节方式。细胞还能够调节RNA翻译成蛋白质的速度、蛋白质的活性、蛋白质的寿命等。调节方式的多样性大概最能够用来说明调节本身的重要性:生命会在10多种不同的水平上进行调节。
任何一种细胞内的蛋白质成分都远比最精致的料理复杂,数千种蛋白质分子的数量和合成时机在细胞内受到精确调控,哪怕技艺最精湛的五星厨师都对这种火候的控制望尘莫及。不仅如此,进化还在孜孜不倦地研究着新的“菜色”,细胞、组织、器官乃至整体的新性状,都是不断变化的、庞杂的调控系统的产物。
生物调控是发育生物学研究的议题,发育生物学是生物学中研究一个细胞如何发育为一个生物整体的分支学科。发育的过程十分神奇。发育生物学试图解释生物体内的细胞为何不仅仅是一坨松散无形的囊泡,而是能在动物体内发育出如心、肝、肺、脑等器官,在植物体内发育出根、茎、叶、花等构成。
每种器官都有高度精专的分工,并含有许多特异的细胞种类。那么这些特异的细胞是如何从同一个受精卵分化而来,又如何在恰当的时间和位置发生分化的呢?一个细胞要如何知道自己应当分化成起搏细胞,而不是一个神经元或者干细胞呢?答案就是调控,调控指导着所有生物的发育。多细胞生物体内的细胞通过合成特异的蛋白质完成相应的分化。我们体内的每个细胞都包含有人类全部的基因,细胞的区别源于它们选择性表达的基因。
已分化细胞和特异蛋白之间的关联并不简单,虽然不同的分化细胞的确各自表达着独特的蛋白质,但蛋白质并不能代表细胞的种类。实际上,任何蛋白质都会在多种细胞中表达。决定一个细胞“身份”的不是某一种独特的分子,而是分子指纹(inolecular fingerprint),即一个细胞内所含有的数百种蛋白质的组合方式。所以新的细胞种类就意味着新的分子指纹,也就是调控下的基因表达的新形式。
对细胞分化起关键作用的基因往往在许多不同类型的细胞中都能表达,所以对这些基因的调控往往需要多个开关。
那么是什么在调控调节因子?很简单:其他调节因子。那么如何调控这些调节因子呢?当然是再依靠其他调节因子。那么调节因子的调节因子呢?当然是依靠新的调节因子。所有这些调节因子形成了一条花环链。
调节因子之间的相互调控不仅是线性的,甚至可以是环形的。这些基因之间能够相互促进或者抑制。
在活细胞内,基因之间的相互激活和抑制构成了一部交响乐,每一个基因都相当于一种乐器,它们跟随着相互之间的旋律与节奏演奏,直到整个环路达到平衡——就像复调闭和弦,环路中所有基因的表达都不再变化。
所有基因的开闭状态(例如,“开”“关”“开”“关”“关”)被称为“基因表达谱”(gene expression pattern),由于环路里的基因调控着许多其他基因的表达,所以基因表达谱除了是环路本身的表现型,同时也决定了细胞的分子指纹。基因表达谱是又一种无法被直接感知,只能通过精密设备进行测量的指标。但它又与最明显的表现型有关,即生物躯体的形态。于是,想要新的生物形态首先要有新的基因表达谱。
基因调节环路塑造了千奇百怪的生物形态。调节环路对身体形态的调节速度非常快,令人难以置信。
从果蝇到人类,胚胎发育的每时每刻,所有组织内都在发生类似的信号交联,涉及的信号分子数以百计。正是在这种超乎常人想象的信号交流过程中,细胞得以确定自己的位置和命运,就像表达bicoid的细胞们“知道”自己位于胚胎的“头等舱”一样。基于同样的原理,细胞在信号指令的操控下分裂、移动、膨胀、收缩并变得扁平,最终完成细胞分化和生物塑形。不管何时,当细胞需要发生分化,生物形态需要进行重塑时,都逃不过细胞对信号分子表达的调整。
如果我们能够弄清从果蝇到人类胚胎发育的调节方式,我们就能预测器官、组织和细胞的形成,以及为何不同的生物在外形上千差万别。如此,真可谓大功一件。然而不幸的是,环路体系的表达谱着实庞杂。不过也不是毫无办法,我们还有能够利用数学运算模拟环路内分子关系的计算机,与我们的碳基大脑不同,科学家可以依靠硅基大脑的算法,预测环路内所有基因最终的基因表达谱。
通常来说,改变生物正常的基因表达往往会引起严重的后果。
有一条原则亘古未变:新形态的起源必然伴随调节方式的改变。不仅是形态,这个原则在所有新性状的起源里都应该适用。
过去半个世纪的研究已经让我们窥见了基因调控在塑造生物形态中的重要性,它有助于我们理解许多新性状进化的过程,以及性状背后的基因表达代码。
我们需要研究尽可能多的调控环路,最好是整个图书馆里的调控基因型和它们的表现型。调节因子图书馆里收录的是编码调节因子的DNA,以及它们识别的DNA关键词。但如果我们直接以这种方式记录所有的馆藏,整个过程将无比烦琐和冗长,就像你要用每一个分子的空间定位来描述一栋房子一样。其实你大可以用一张房子的图纸省下很多力气。
如果我们有办法进一步区分基因激活或抑制的强弱程度,那么可能的调控环路数量还会继续增加。幸运的是,我所在实验室的研究表明,对于激活或者抑制程度的细分除了数量之外,并不会改变整个图书馆里的组织原则。这是个好消息,说明数量根本没有那么重要,因为光是以3作为幂底数,调控环路的数量就已经是超宇宙级别了,再多一些似乎也无妨。
基因调控环路图书馆和它收录的基因型馆藏与我们之前探讨过的代谢图书馆和蛋白质图书馆有诸多相似之处。当基因发生变异之后,我们以添加或是去掉基因之间的线条来表示两者调节关系上的改变。但是请记住,这些线条不是真实存在的,仅仅代表基因之间存在调节关系,而这种关系受到变异的影响。每当你改变其中一对基因的调节关系,你就得到了一个原环路的相邻环路。
微小的基因改变,哪怕只是一个DNA分子的变异,就有可能建立或是摧毁一对基因之间已有的作用,进化只要抬脚走上没几步,就能从一个书架走到下一个书架并浏览上面的文本。循着相邻基因一直往前,你就会逐渐深入到图书馆内——这样的旅程你已经不陌生了。而在这里,距离的概念变成了两个环路之间连线的差别。越是临近的环路之间差距越小,而相距甚远的环路之间则几乎没有相同的连线,分别位于图书馆中截然相反的两个方向。
同样的道理,图书馆里的多数环路基因型是随机的,没有任何意义。但也有一些编码了有意义的单词或句子,只是整体而言依旧词不达意、不知所云,甚至会宣扬恶俗言论,比如变异的Hox基因最终将导致没有手掌的残疾手臂。我们这里所说的文字和语言,同样是指基因调节和表达的化学语言,只有细胞和组织真正理解它们,并最终将它们翻译成脊椎骨、叶子或手掌等血肉的语言。而新性状的诞生过程我们在单叶进化为深裂叶中已经多少介绍过了。
我们在前面已经探讨了调控环路通过操纵基因表达控制性状的原理。从一套预先存在的调节因子开始,比如果蝇在受精卵内留下的分子信号,后续的调节因子逐渐形成调控环路,并改变最初的基因表达模式。基因在发育过程中开开闭闭,直到抵达某个平衡点,然后就犹如马戏团里的杂技演员们,保持巍然不动。对于马戏团里表演叠罗汉的杂技演员们来说,他们的平衡建立在相互牵制的基础上,这一处的推力在那边相当于拉力,而打破这种平衡状态唯一的办法则是瓦解其中的某个个体。
通过多年的研究,我们对于这种平衡的理解已经足够我们演算平衡点了,就像约翰·瑞尼茨的果蝇模拟器。我们已经能够同时考量的环路数目不是一个或几个,而是数百万个,这相当于同时演算整个超宇宙级别的图书馆。
我们从一开始就知道环路图书馆里的馆藏数量超出任何人的想象,哪怕是环路的表达谱数量也不是闹着玩的。如果在一个含有40个基因的环路中,每一个基因只有激活或关闭两种可能,那么40个基因就有240种可能表现型,总值超过一万亿。而现实中一个基因的状态并不是非白即黑的,它可以微弱、中等、强烈或是非常强烈地进行表达。不仅如此,生物形态的造就往往需要多个不同的调控环路协同合作,这也大大增加了表达谱的可能数量。与所有这些表达谱的数量相比,我们体内区区数百种不同的细胞和组织几乎不值一提。如果我们把体内所有的细胞都铺陈出来,让每一个细胞对应基因表达谱中的一种,那么最终将无法容下所有的表达模式。
进化用我们熟悉的随机游走方式探索着调控环路的图书馆,生物种群的形态重塑来自偶然的DNA复制错误,这些错误的复制一般发生在亲本将遗传物质传递给后代的时候。微小的突变通常会导致两种可能的结果,即改变调节因子的形态并阻止它们与DNA结合,或者直接改变DNA上调节因子可识别的“关键词”——这种改变会阻碍正常的调节因子识别对应的基因,抑制基因表达,同时也有可能令DNA被新的调节因子识别。
上述的第一种结果往往会造成灾难性的后果,因为一种调节因子通常可以作用于许多种不同的基因。如果调节因子失去识别DNA的能力,相当于把一份食谱里的原料混淆一气,最后做出的料理可想而知,这会导致生物体的严重畸形,甚至胚胎在出生前就会夭折。而第二种结果则更像是食谱里的某个印刷错误,往往只涉及某个基因的表达以及相应的蛋白质数量——它只不过是数千种蛋白质中的一种而已,这使它导致严重后果的可能性变得很小。有人可能会想,生物体对第二种变化的容忍度要更高,因此也更容易在进化的时间跨度上稳定地积累下来。如果当真如此,这些积累的微小变化就能够逐步改变环路里的调控模式。
如果把在过去数百万年中独立进行进化的调控通路拿来比较的话,比如数千种不同的果蝇体内的某几个调控环路,我们就会发现,生物体耐受性最好的变化发生在环路内的基因之间的相互作用中,而不是基因本身。进化的改变总是从某一对基因之间的作用着手,因为直接对基因下手容易造成严重的后果。此外,基因对之间作用的微小影响的确会积累并逐渐改变调控环路,而这个过程十分漫长。改变缓慢的原因在于调节因子的DNA关键词通常只有5个碱基对的长度,且与下游基因有着数千个碱基对的距离。如果仅凭概率,那么随机突变产生新关键词并由此将两个基因联系在一起的可能性要更大一些。
一门分支学科:系统生物学(systems biology)。这个新近出现的研究领域把实验数据和数学、计算机技术结合起来,试图解释分子水平的活动如何作用于生物整体,换句话说,就是微观分子如何构成了宏观生物体。
每个调控环路所处的社区里往往包含数十个到数百个表现型相同的相邻环路。也就是说,即使发生基因突变,单个基因对作用关系的改变也不一定会引起调控环路表现型的改变。基因调控环路不像马戏团里杂技演员表演的叠罗汉,不是其中一个个体“差之毫厘”,整体就会“失之千里”。调控环路的基因型之所以能够耐受这样的突变,是由于并非每一对基因间的关系都对环路的功能有重要贡献。
没有哪种性状,不管是果蝇的体节、植物的深裂叶还是脊椎动物的脊柱,都是由独一无二的调控环路塑造的。基因对关系不同的调控环路同样能够产生相同的性状。
基因对差异超过90%的两个调控环路依旧能够产生相同的表现型。如果用示意图标记两个环路里的基因联系,你可能永远想不到两者是如何经过一步一步微小的变化而成为对方的。但它们的确指向了某个问题的答案:如何产生某种特定的蛋白质指导细胞特定的分化。
某些环路虽然差异巨大,但是表现型却相同,最小的差异只有“区区”75%而已。但是“如此小”的差异依旧很难让人联想到它们之间居然还存在着联系。
进化还告诉我们,所有图书馆中表现型相同的调控环路是相互联系的。我们可以以它们中的任意一个作为起点,通过一次改变一个基因对并保证性状相同的方式,检索到表现型相同的任何其他环路。和在代谢图书馆以及蛋白质图书馆里一样,我们在环路图书馆里又找到了一种从一点走到几乎任意一点的方式,而不至于迷失和身陷在无意义的环路泥潭里。
于是,调控环路图书馆里所有表现型相同的调控环路也形成了一张巨大的网络,类似的基因型网络我们已经在代谢图书馆和蛋白质图书馆里接触过了。调控环路图书馆里充斥着这样的网络,每一个网络里都包含了数不清的环路,零散分布在图书馆各个角落。同一张网络里的每个调控环路都有相同的作用:指导特定的基因表达谱,帮助特定的细胞、组织或器官分化。一张网络中只有包含足够数量的调控环路,不起眼的深裂叶新性状才有可能在进化史上不断重复上演。
核糖体能够将RNA翻译为蛋白质,编码这种分子机器的基因向我们诉说了同样的故事。细胞在高速合成蛋白质的过程中,必须精确控制不同蛋白质间的数量平衡,不然就可能会像过量合成无用β-半乳糖甘酶的大肠杆菌那样破裂死亡。维持这种精妙的平衡似乎很难,很容易让人误以为只有某种最佳的解决方式才能实现。但是实际上,有两种不同的真菌分别以两种完全不同的调控方式实现了这种平衡。
类似的例子向我们展示了生物对调控环路图书馆的深入探索。但是物以稀为贵,在寻找新颖和高效的表达谱的过程中,生命面临着它们在探索代谢图书馆和蛋白质图书馆时就曾遇到过的同样的难题:环路图书馆里有数万亿种不同的调节环路,但与某个环路直接相邻的社区中却最多只有几千种环路,以这种方式寻找新的基因型效率着实低下。
为了获得尽可能多的新性状,调控环路的进化必须设法跨出所在的社区。这种探索图书馆的方式只有在不同的社区间存在巨大差异的情况下才能收益最大化。不同社区中的环路往往表现型也不同。
于是我们的故事又回到了熟悉的套路上。环路图书馆的布局与代谢图书馆和蛋白质图书馆类似。我们把指导相同基因表达谱的调控环路安置到一张巨大的基因型网络里,对于在这张网络里漫无目的游荡的读者而言,他们只能象征性地在“换汤不换药”的馆藏里寻找新书。真正推动生物进化的动力恰恰是无头苍蝇一般的随机突变,调控环路在稳定积累的微小变异中逐渐改变:虽然某些突变葬送了整个调控环路,但依然有一些突变在保留环路功能的基础上把生物推向了不同的基因型社区,获得了新的基因表达谱,而总有一个表达谱会为下一步生物形态的重塑埋下伏笔。我们再次看到,基因型网络中多样的基因社区成为新性状出现的关键。

06 神秘的建筑师

《生命是什么》一书虽然篇幅不长,但是充满了真知灼见。这些洞见中有一个一直受到主流科学界的广泛认可:进化增加了有序性,减少了无序性,或者用薛定谔自己的话说,叫“负熵”(negative entropy)。
自从薛定谔出版了《生命是什么》,我们对熵的理解就开始变得更加复杂而严谨。有序性和信息传递一直都是生物进化的中心议题,但是近几年来,基于对基因型网络的认识,我们发现,完美的有序性和彻底的无序性一样,对生物进化而言都有害无益。无序性对自然来说并不一定意味着负担,它同样可以帮助自然界的生物发现新的代谢方式、新的调控环路和新的生物大分子。简而言之,无序性也可以帮助生物进化。
我们再拿乐高积木来打个比方。乐高积木可以根据孩子的想象力随意拼接,当然,这些我们熟悉的塑料块也可以根据预先设计好的“图纸”拼出特定的形象。例如乐高公司可能会给孩子们提供一张图纸,只要他们按照图纸上的步骤就能拼出一艘海盗船。无序的拼接比照搬图纸更有可能创造出新的形象,这种潜力一方面要归功于孩子们丰富的想象力,而另一方面则是因为乐高积木有许多可能的海盗船拼法,远远不止说明书上列出的那些。
同样的原理在生物学上表现为自然界的基因型网络,即相同表现型的不同基因型集合,比如鳕鱼体内的抗冻蛋白。在更隐晦的层面上,基因型网络的存在牵涉到一个广泛存在的生物学概念,但是这个概念曾长期被人忽视,直到20世纪末才引起科学家的注意,这个概念就是发育稳态(robustness)。发育稳态指面对外界环境时生物体保持自身特征稳定的能力。
对于一本书而言,这么一小段文字乱码几乎不会影响对整本书的理解和阅读体验。然而在计算机程序里就不一样了,对于动辙几千行的代码来说,不要说字符,哪怕是一个逗号的丢失都有可能让价值数百万美元的程序崩溃。在现实生活中,类似的程序错误每年都要造成数十亿美元的经济损失。相较而言,我们可以说,人类的语言具有很强的发育稳态,而计算机的程序语言则没有。
对于某些基因来说,发育稳态的原理简单明了。在基因组里,一些基因往往存在多个拷贝,就像有人在影印书籍的时候不小心把某一页重复印了两次。基因重复通常发生在DNA复制和修复的过程中,而且并不少见:人类基因组中大约有一半的基因都存在重复。由于重复的基因有相同的作用,所以当其中一个基因被敲除时,其他的拷贝就能够补上空缺。就像医院里防备停电的备用电源、用于备份数据的计算机硬盘或者商业航班中防止坠机的备用电路一样,如果不需要这些基因补上空缺,那么它们就一直都是“无用”的。
但鉴于多数“无用基因”没有复制——它们是单拷贝基因。因此,对这些基因而言,发育稳态现象并没有上述那么容易解释。
对于多数单拷贝基因,我们知道有一种情况可以解释它们的无用性,而这种情况普遍存在于催化代谢的酶中。生物体内的生化反应网络有点儿类似于城市中心的密集交通网络,比如曼哈顿市中心纵横交错的公路和街道。一名位于第二大道42号街的司机如果想去第七大道的48号街,可以选择北边东西走向的6条街道以及西边南北走向的7条街道中的任意组合。城市里的每条主路通常都有数条车道,车道越多,备选的前进路线就越多,就算有一条车道堵死,司机也可以选择走其他车道。不过即便整条路都堵住了也不是什么大事,因为司机总能够在四通八达的网络里找到其他路径,而经验丰富的老司机甚至能够通过出入两条相同走向的大街中间的停车场抄近路。这样的绕行虽然拖延了时间,但是不至于让人止步不前。敲除某个与代谢有关的基因就像堵死了某一条主路,阻碍了代谢的原料进入生化反应的错综网络。而一条备用的代谢通路就是一条可以迂回的支路,位于断点位置后方的生化反应很快就会消耗完先前积累的分子,所以生物体需要绕过原先的通路,找到一个合成原料的支路继续反应,确保生命在代谢的城市里畅行无阻。这可不仅仅是一个抽象的比喻而已。生物工程学家能够用敲除代谢相关基因的方式阻断特定的通路,而当他们这么做时,生物体往往能够重新分配原料物质的走向,保证必需物质的合成从而存活下去。对于代谢而言,支路反应的存在甚至比单纯的后备基因更重要。
当然,发育稳态不仅仅局限在代谢或是基因组的水平。在单个蛋白质中这种现象同样普遍存在。
发育稳态最明显的优势在于保证生物的生存。这种作用可以追溯到第一个能够自我复制的RNA出现,微小的复制错误会在RNA传代中不断积累直到复制无法进行,而发育稳态则能够帮助RNA对抗致命的复制错误。这是现实版的“第二十二条军规”:RNA分子必须在复制中尽量减少错误来保持自己在复制中不出错的能力。不过现代的RNA只需要些许的发育稳态就能显著降低复制错误的发生率:因为些许错误很难改变这种稳定的分子的自我复制能力,发育稳态为RNA分子发生复制错误后提供了稳定复制的喘息时间,而在这段时间内可能会有更好的自我复制分子横空出世。
发育稳态的重要性远远不止于此,它还可以用于解释基因型网络和进化的动力。
让我们重新回到我们拜访过的自然图书馆,在那里,每个代谢(每种蛋白质或者每个调控环路)都与某一馆内的馆藏相对应,而与每一本馆藏相邻的馆藏都只与它相差一个字母,这个不同的字母可以是一个生化反应,也可以是一个酶或编码这个酶的基因。我们从敲除基因的实验里得知,例如通过基因敲除阻断某个代谢反应,许多这样的基因修改都不会对生物造成可见的不良后果。也就是说,至少对于生物体直观可见的特征而言,即便基因型发生变化,生物的表现型也不一定随之改变,我们称这样的现象为发育稳态。而发育稳态的强度则由馆藏所在的社区大小来衡量,即每次只促成一个微小的改变而表现型保持不变的可能性大小。
社区里相同表现型的馆藏越多,生物的发育稳态就越强。如果我们假设生物不具有这种发育稳态,你就能看到它带给生物的优势:如果一种代谢、一个蛋白质或者一个调控环路没有任何邻里,它和它控制的表现型将极度孤立无援,弱不禁风。而在另一个极端上,如果所有微小的改变都能够保持表现型的一致,那么发育稳态的强度将达到峰值:任何单独的微小变异都不能改变这种性状。
无论是极端脆弱还是极端稳定,在现实世界中都不存在。没有哪个生物的哪个性状是绝对脆弱的,也没有哪个性状是绝对稳定的。所有的生物,它们所具有的结构和行为,都在一定程度上具有发育稳态。正是这种稳态赋予了不同生物种群探索巨大的自然图书馆的能力。图书馆中相同主题和内容的馆藏数量惊人,但每个主题的馆藏都仅仅是图书馆内无数书籍中的一小部分而已,自然图书馆就像海洋,相同主题的馆藏仅仅是海洋里的一滴水,而每个文本不过是组成这滴水的水分子而已。
如果没有发育稳态,图书馆中依旧可能会有许多主题相同的书,但是它们相互之间都会相距甚远,毫无瓜葛。没有读者能够在一本书附近的馆藏里,找到探讨类似主题的书,它们之间往往只相差一页、一个单词甚至一个字母。相同表现型的不同基因型就像在夜空中眨着眼睛的星星,相互之间隔着以光年计的寂寥空间。
值得庆幸的是,生命的世界并不像宇宙。以任何一个文本作为起点,我们都可以选择这个文本的众多表意相同的相邻文本,再以同样的方式行进到下一个同样稳定的文本上,如此反复,而不改变我们需要的那个主题。用这种方式,生物体能够探索自然图书馆里未知的领域,并有机会发现新的性状。发育稳态使得表现型相同而基因型不同成为可能。由此,大自然可以在发育稳态所创建的基因型网络里琢磨新的乐高积木拼法。
我们在第2章中提到过自组织系统,自组织的原则在生物界和非生物界都普遍存在,从星系的形成到生物膜的组装都涉及自组织,而基因型网络恰好就是这种系统的又一个例子,但它又是比较特殊的那一个。基因型网络和星系不同,星系的形成依赖宇宙空间中物质之间的引力作用,而生物膜的自动组装则有赖于脂质分子与水分子之间的亲疏关系,但是基因型网络并不会随着时间的流逝而改变,它们是格局无限大的自然图书馆中的常住居民。
即便如此,基因型网络具有某种组织性的事实仍毋庸置疑。由于它的组织形式复杂,我们到今天也不过是略知皮毛而已。但是我们可以肯定,基因型网络具有自组织性。与星系形成和生物膜组装相比,基因型网络自组织性背后的原因要简单得多:因为生命具有发育稳态。对于基因型网络而言,发育稳态一方面不可或缺,否则表现型相同的不同基因型将被孤立;另一方面,发育稳态也别无他求。只要代谢、蛋白质和调控环路具有一定的发育稳态,基因型网络就可以在宇宙中生根发芽。
发育稳态足以维持基因型网络的存在,但是仅有基因型网络对进化而言还远远不够。原因在于,进化的发生必须要同时满足两个看起来相互矛盾的条件。进化需要生物同时具有保守性和可变性。就像当初那些企图横渡大西洋的先锋飞行员一样,他们也需要参考莱特兄弟的飞机原型:他们要的是能够完成这项壮举的新飞行器,但是他们同样需要学习如何让不够完美的旧飞行器在天上翱翔,直到新一代飞行器取而代之。同样的道理在自然界也适用,大自然需要保证生物的存活,同时寻求新的性状。基因型网络为探索新性状提供了便利,但是网络本身对保留已有的性状并没有什么助益。
我们需要再次强调这一点,因为基因型网络的发现让我们在惊喜兴奋之余,也容易冲昏我们的头脑,忘记自然选择所扮演的重要角色。自然选择的作用体现在它的保守性,它是进化的记忆,保留了所有值得保留的改进,无论改进多么微不足道,假以时日,这些微小的改变终会积流成河,聚木成林。
每一个小小的改变和进步都值得被保留,而自然选择的确也做到了。
在气势宏伟的中世纪大教堂中,教堂里高耸的尖顶和巨石雕琢的厚重圆柱都会配以无比精致的装饰,高高的拱形屋顶往往超出了我们的视线范围,掩映在半明半暗之中。而由所有这些细节构成的最终成品,如果没有人告诉你它们是一块砖一块砖修筑起来的,你也许很难相信世间竟能有此等杰作。而我们的眼睛也是这样的杰作。
分子进化的过程亦是如此。北极鳕鱼体内的抗冻蛋白可不是像雅典娜那样在一夜之间就形成的。北极鳕鱼祖先体内的某种蛋白质以一次一个氨基酸的速度缓慢积累着有益的变异,每次变异只要把体内液体的凝固点降低仅仅0.1摄氏度,其后代的生活范围就可以向外扩展数公里。更大的生存空间也意味着数量更多和种类更丰富的食物供给。只要是能带来生存优势的突变就具有保留价值,而一系列类似变异的积累则把鳕鱼的生存极限延伸到了极度低温的疆域里。基因型网络对于寻找新性状至关重要,而自然选择则是新性状的保留者。
通过数量积累逐步改良生物性状的突变对生物进化来说至关重要,不过这并不是DNA改变的唯一方式。许多突变在首次出现时对生物往往既没有好处也没有坏处。这种中性的突变需要归功于发育稳态,发育稳态使得生物体对错误有了一定的耐受性。
中性突变对进化或许也很重要,至于为什么,我们至今仍不甚明了。事实上,有关自然选择与中性突变的争论由来已久,在20世纪的最后30多年里,中性突变一直是达尔文主义者的眼中钉、肉中刺。分子生物学领域的技术革命在自然界的生物体中发现了数量惊人的基因多样性,从哺乳动物到果蝇,甚至微观的细菌:同一个物种体内的数千个基因往往在不同个体之间存在DNA序列上的差异。多数科学家相信,这些多样的基因都是自然选择的结果,而持有这些看法的科学家往往是忠诚的达尔文主义者。他们认为,既然多样的基因得以保留,说明同一个基因的多样化有助于生物的生存和繁殖。
但是这些自然选择论者却遭到了一个来自少数派的微弱的反对声音,他们就是中性主义者。中性主义者认为,大多数的突变对生物体没有任何改变,因此也不会受到自然选择的影响。至少在这些突变首次出现时,它们是绝对中性的。在某些科学家眼中,比如古生物学家史蒂芬·杰伊·古尔德(Stephen Jay Gould),中性突变的存在极大削弱了自然选择在生物进化和新性状形成中的作用。
科学和技术的发展史为中性突变提供了一个不甚恰当的类比对象,即新理论和技术发明之初往往找不到自己的定位,但是它们的价值有可能在未来某个时刻变得不可估量。
中性学说最著名的支持者莫过于日本科学家木村资生(Motoo Kimura),木村资生建立了一套复杂而成功的数学理论,以评估中性突变在进化上的命运。木村资生主张自然界大部分的遗传突变都是中性的。不过在基因组学时代到来的今天,我们已经知道,木村在这一点上的认识是错误的,中性突变并没有比那些带来优势的突变更多。撇开这点不谈,木村认为中性突变十分重要的观点则是完全正确的,尽管我们又花了数十年时间才理解中性突变之所以重要的原因。
第一个原因是,中性突变在探索基因型网络时非常重要。中性突变为读者在自然图书馆中寻找新性状时铺就了一条安全的道路,避开了一路上诸多无意义的伪作。如果没有基因型网络和中性突变,安全探索自然图书馆几乎是不可能的。
第二个原因是,以中性突变出现的变异不一定永远是中性的。中性突变同样可以在某一天成为有意义的突变,就像曾经毫无应用的数论那样。一旦中性突变表现出有利于生物生存的性状,它们就会被自然选择保留下来。换句话说,自然选择学说和中性学说都没有错,自然选择和中性突变都是生物进化中的必要组成部分。中性突变先为新性状的出现铺路,而自然选择从众多的中性突变里选出具有进化潜力的那些突变。
一个很好的例子是受到广泛研究的RNA酶,它很好地展示了中性突变和基因型网络能够在多大程度上加快新性状进化的速度。
现有的计算机还没有能力对所有相邻RNA的分子形状进行推演。不过我们几乎可以肯定,在这些RNA中有数十亿种新的分子形状,而且这些形状不同的分子都具有相同的功能,因为在进化过程中,保证生物的生存本身就是基因型网络存在的意义。
这就是基因型网络加速进化的方式。基因型网络就像科幻小说《星际迷航》中用来进行超光速星际旅行的曲速引擎。如果没有基因型网络的存在,那么锤头状核酶的进化速度将放缓至现有速度的1/40。与已经进化了将近40亿年的现代生命相比,如果没有基因型网络的帮助,地球生命相当于才刚刚走完第一个一亿年的路。在生命出现最初的一亿年里,地球上可能已经有了为数不多的几种细菌,但是多细胞生物肯定还没有登上历史的舞台,更不用说鱼类、陆生植物、恐龙或者人类了。基因型网络对生物进化的加速远远超过40倍,确切的数字我们甚至都无从计算。如果没有这张基因型网络,地球上的生物可能到今天都还没有爬出那盆原始浓汤。
在《星际迷航》中除了曲速引擎,还有一种实现超光速飞行的方式:直接改变宇宙空间。创意无限的科幻作家们创造了许多新奇的技术,比如虫洞(wormhole)。虫洞让数千光年的旅程在一瞬间就能完成,而我们发现基因型网络的作用也与之相似。基因型网络缩短了图书馆内两部馆藏之间的距离,无论这座图书馆是代谢、蛋白质还是调控环路图书馆,基因型网络都发挥了这个作用。
我们来想象有一群参观图书馆的读者,它们是某个物种的一个种群,它们聚集在某个文本周围。这个文本叙述了一个特定的调控环路,而该环路控制的基因表达谱会参与身体某些部位的发育,比如鸟类的翅膀。我们再假设在这座图书馆的某个角落里另有一本书,它叙述的调控环路和基因表达谱,能够让翅膀的空气动力学和重量都得到些微优化。这本书藏得越深,读者想要找到它所花的时间就会越多。
在规模如此惊人的图书馆里寻找某本特定的书犹如大海捞针。你当然可以找到那本书,不过前提可能是你要走遍海里的大部分地方,可能你要走遍每一个角落才能成功。只不过相比某个特定的表达谱而言,图书馆的规模更像是宇宙而不是大海。常识告诉我们,要捞起这根针,我们将不得不走遍宇宙的每个角落。
但是自然图书馆从来不落俗套。这一点在我们发现不同的调控环路能够控制相同的基因表达谱时就已经略有涉及了。我们知道,大海里的针往往不止一根。而当我们在图书馆里寻找特定表达谱的调控环路时,却发现自然图书馆比我们原先认为的更加怪异。在这项研究中,我们首先以随机的方式设计出数千种基因表达谱,而后用计算机针对每一个表达谱生成一对调控环路。两个环路中的其中一个与目标表达谱对应,而另一个则不然。除了所控制的表达谱,每对环路内基因之间的作用关系也不尽相同。接下来,我们逐渐改变第一个调控环路里的基因的作用关系,一次改变一个并保证环路所控制的基因表达谱不变。
当然,现实生活中的图书馆不是二维的,它们都存在于三维空间。出于简化考虑,我们把图书馆抽象为一个立方体,那么在这种情况下,一个表达谱所在的社区就相当于一个球。
而调控环路图书馆甚至连三维、四维图书馆都不是。它们位于更高维度的空间,在那里,图书馆是超立方体,社区则是超球体。
在调控环路所处的高维空间中,这个比例超出你的心理预期。超球体与超立方体的体积比不是0.1%,也不是0.01%。而是仅有10^-100%。对于图书馆里的读者而言,要从一个文本出发寻找新的基因型网络,只需要探索一块微不足道的区域。高维空间体积比例不断缩小源于一个简单的几何规律:越高维的空间内,半径为边长恒定比例的超球体在超立方体中所占的比例总是越小。体积比例的下降不是因为我们所举的例子中的半径边长比为15%,不管这个比例为多少,哪怕是高达75%,三维空间中球体与立方体的比例也会降为49%,在四维空间中降为28%,在五维空间中进一步降为14.7%。随着维度升高,比例越来越小。
其他图书馆里同样存在这种反直觉的现象:图书馆所处的维度越高,也就是说,馆内的代谢和分子种类越多,找到新性状的难度也就越小。生物一旦在自然界站稳脚跟,想要再寻找新的性状并不需要花费太多力气,它们只要改变少数几个生化反应,探索代谢图书馆的一小块区域,就可以撞见它们所期盼的新性状。对于RNA而言也是同样的道理。以一个已有的RNA作为起点,你只要稍稍改变它的核苷酸就能够获得形状不同的新分子。在图书馆里寻找新性状的代价不过是回身走两步而已。
适者降临的代价仅仅是探索自然图书馆的10^-100%,如此看来,自然界依靠略显盲目的探索方式却依然能够造就生物丰富的多样性也就不奇怪了。进化不用遍寻海底的每个角落,因为遗落在海底的针远远不止一根。事实上,海底散落的针都在一张紧密编织的网里,而这一切都要归功于发育稳态和它对基因变异的耐受性。不知道你是不是已经有了这样的印象:图书馆中每个文本所在的社区规模都极其庞大。那么你大概也很容易理解,图书馆在构建组织上的另一个特征:每个基因型网络不但分布广泛,而且不同的基因型网络之间还有频繁的交织互动。它们紧密交联,互相围绕,繁复多变。整个网络由数百万乃至数十亿根丝线织成,每根都对应一种特定的表现型。如果给每根丝线涂上一种独特的颜色,那么这张复杂无比的网络中的每一条丝线上都有数十亿根其他颜色的丝线交织而过。如此精致的绸缎只可能存在于高维空间中,它的华美与我们生活中的任何织物都不同,完全超出我们的想象。这张网隐藏在我们生活中的每个生命体背后,生命由它而生。
复杂交联的基因型网络都是发育稳态的产物,发育稳态对于进化而言至关重要。不过,天下没有免费的午餐,发育稳态也一样。发育稳态的代价就是它的复杂性。
奥卡姆剃刀不仅是出于美学或者哲学层面的追求,在工程学里,它还有着经济方面的考虑。量产一台机器的每个零件都需要成本,更少的零件意味着更低的成本,而降低成本是每个工厂老板都希望看到的。另外,装配过程复杂的机器也更容易出现安装错误。对于制造一台机器而言,精简主义大有裨益。
所有试图理解生命,却对它们的复杂性望而却步的生物学家,大概都会对精简主义心向往之。生命在很多方面似乎都复杂得没有必要。调节昆虫体节分化为14段的调控环路中有数十种分子,不过科学家从很多年前就了解到,只需要这数十种分子中的两种就可以实现同样的功能。昆虫体节分化的原理研究耗费了人类数十年的时间,自视甚高的人类工程师也只能对这些小虫子甘拜下风。不知道你是否还记得由生化代谢构成的交通网络,里面布满了备用车道、迂回路线以及平时不太常用的小巷子,以上这些现象都有一个相同的问题:为什么它们会存在?为什么优胜劣汰、效率为先的大自然会保留这些多余的复杂性呢?
答案是“环境”,确切地说,是“各色环境”。看似浪费的复杂性,实际上却是基因为了应对各种不同的环境留下的后手。
代谢反应类型的多样化有利于生物在多样的环境中生存。对于生物而言,高度的复杂性也就意味着对不同环境的高度适应性。
基因组中保留的重复基因同样是为了应对多变的环境。重复基因在诞生之初是完全相同的,不过它们不久之后就会踏上不同的命运之旅。突变会在各个基因内不断积累,改变它们的DNA序列和基因表现型,以便能够应对特定的环境。在人体内,某些催化分解反应的酶在肝脏中活性最强,而与之同源的另一些酶的最适宜化学环境则是在大脑中。而真菌中的一种在葡萄糖充裕时负责把糖分子转运入细胞的蛋白质,它的另一种同源蛋白则在葡萄糖稀缺时负责清除糖分子。许多重复基因的实际作用依旧是个谜,也许它们是在为某些还未遇到的特殊状况而蛰伏。
我们在工程技术领域也能够找到类似的例子。虽然工程师们对于精简主义相当推崇,但他们同时也要为多变的环境做足准备。为了应对变幻莫测的暗流、大浪和风向,略显复杂的工程设备必不可少。
反过来道理也一样。至少在生物学领域,如果随着时间的推移环境一成不变,那么发育稳态相对而言就不那么重要了,遗传的复杂性也就会随之降低。
与精简性相伴的则是发育稳态的降低:不仅仅是对突变,还有对于多变环境的稳定性,两者并非相互独立。
越是适应多变环境的生物在构造上越是复杂,在遗传上越稳定,可能并不是适用于所有生物的普遍法则。我们没有办法在实验室检验所有物种的代谢,不过依旧可以通过计算机演算相当数量的物种,这个研究的原理类似于民调:通过一个较小的随机样本反映一个较大整体的性质。我们选取一个随机样本,将不同的物种代谢置于不稳定的环境中并观察结果,就能够知道大肠杆菌和蚜虫内共生菌到底是自然界的代表还是奇葩。
这项研究的一个直接结论是,通常情况下,在不同环境中生存需要生物具有一定的复杂性。能够应付的环境类型越多,代谢体系内包含的生化反应就越多,代谢就越复杂。
这种情况下,代谢的发育稳态也会变得越强:我们能够从代谢体系中移除而不影响生物生存的反应相应也增多。代谢体系中的反应数量越多,在某个特定环境中不会用到的反应也就越多。“无用”的生化反应在某种环境中是中性的,但是在另一个环境中说不定就是不可或缺的。大肠杆菌和蚜虫内共生菌并不是特例,它们只不过是一个普遍规律的两个典型:生物的复杂性和遗传稳定性随着它所面对的环境多变程度的上升而上升。
至此,我们的认识越来越丰富。多变的环境催生了生物的复杂性,而复杂性促成了发育稳态,发育稳态继而造就了基因型网络,而基因型网络的存在让进化成为可能,使得生物能够通过演变适应环境的变化、提高自身的复杂性,循环往复,生物进化通过这种方式螺旋上升。这种进化方式的核心在于处在多维空间的基因型网络的自组织性。自组织性是生命绚烂光彩背后的支持者,它是隐藏的生命建筑师。

07 从大自然到工程技术

我们将会看到,促进自然进化的基因型网络在人类技术进步中同样存在,并不是什么天马行空的想法。自然进化和技术创新拥有诸多共同点。
大自然和人类技术发展都依赖于不断试错。
诚然,就失败所蒙受的代价而言,生物进化比一个研究灯泡材料的发明家或者研究理论的科学家要惨重得多。
理论科学和工程技术中的失败通常不会有致命的危险,但是错误的观点也往往没有那么容易被澄清。
科学和技术的修罗场上从来不缺充斥着错误信念的聪明脑瓜,而且那些人往往至死不悟。量子物理的创始人之一马克斯·普朗克(Max Planck)曾经颇有洞见地表示:“科学理论的胜利往往建立在异见者的坟墓之上,而不是他们的皈依,下一代人成长过程中耳熟能详的理论即他们认为的真理。”科学就像大自然,总是随着丧钟的节拍翩翩起舞。
巧合的是,大自然抵抗致命错误的秘诀之一恰好被技术发明领域所借鉴:人海战术。探索自然图书馆的生物不止一个,同样的道理,每一项重要的发明也不是某个天才孤军奋战的成果。尽管从在浴缸里泡澡的阿基米德到在专利局上班的爱因斯坦,每个伟大的科学家脑海中的世界对大多数人而言都难以想象,但是如同有成群的生物涌入生物进化的各色化学图书馆一样,科学和技术创新的另一个真相是它们的进步需要密集的资源投入。
时至今日,任何新技术的发明,从新款手机到新式药物,抑或新型能源,都需要大量的科学家和工程师经过激烈的竞争和无数次的失败才有可能成功。从这些例子来看,如果没有试错的过程,我们很难想象有更合理的成功方式:参与的人越多,尝试的可能性也就越多,相应成功的概率也就越高。
与自然界类似,技术和科研人员们总是同时行军在各自领域的最前线。提出过“行为榜样”(role model)和“自我应验预言”(self-fulfilling prophecy)概念的美国社会学家罗伯特·默顿(Robert Merton),因他对于科学理论多起源的归纳而被科学界铭记。默顿把同一个理论的不同起源直接称作“多起源”(multiples)。
科研以及技术多起源的现象之所以存在,是因为科学问题与自然界的生命一样,同一个问题通常有多种解决途径。
默顿的多起源理论在许多其他例子中也适用。汽车的发动机可以是往复活塞式,也可以是偏心转子式。汽车的燃料燃烧可以靠汽油发动机的火花塞来触发,也可以用柴油发动机的压缩热来触发。生物可以用灵活的单眼感知光线,也可以借助复杂精致的眼球感知光线。生活在极圈的鱼类体内的抗冻蛋白前身是不同酶的晶体蛋白及高度多样化的携氧球蛋白,都是生物对于同一个问题的多种解决方式。
科学技术和生物创新的另一个共同点是擅长废物再利用,这在技术发明的历史上体现得淋漓尽致。
轻质合成材料凯夫拉(Kevlar),发明的初衷是用以替代赛车轮胎上的钢质材料,而现在则大量应用于防弹背心和钢盔的制造。还有一些甚至都称不上“创造”的普通装置也是“旧瓶装新酒”的产物,比如两个锯木架上摆上一块门板就是一张粗糙的桌子;一只靴子也可以当简易的制门器使用;牛奶箱同时也是上好的档案柜,等等。
1982年,古生物学家史蒂芬·杰伊·古尔德和伊丽莎白·弗尔巴(Elizabeth Vrba)把生物学中的这种现象正式命名为“扩展适应”(exaptation)。事实上,达尔文才是这方面的引领者,他在《物种起源》中就提醒读者,“某个针对特定目的构建的器官可能出于适应更多功能的目的而发生改变”。扩展适应最经典的例子是鸟类的羽毛,构成鸟类羽毛的主要成分与构成爬行动物的鳞片的成分相同,是一种被称为角蛋白(keratins)的致密纤维蛋白。羽毛最初的功能很可能是保温和防水,后来才演变(或者说“扩展”)为用于飞行。
扩展适应的现象在分子水平也很常见,例如那些调节羽毛合成的调控分子。其中一种蛋白质叫“音速刺猬”(sonic hedgehog)。没错,正是那款著名的电子游戏的名字。这种蛋白质在人类体内负责控制手指和脊髓的生长,而在鸟类体内则与羽毛的生长有关。一种控制后肢形成的调节蛋白在蝴蝶体内负责控制眼状斑点的发育,某些代谢酶更是直接参与晶状体的形成。
扩展适应的例子是我们要探讨的自然和技术之间的最后一个共同点:创造在一定程度上就是对原有事物的组合优化。
几十年前,以经济学家约瑟夫·熊彼特(Joseph Schumpeter)和社会学家科拉姆·吉尔菲兰(S.Colum Gilfillan)为代表的社会科学家都认为对已有事物的组合优化是发明创造的关键。经济学家布莱恩·阿瑟(W. Brian Arthur)在他的《技术的本质》中甚至直言,“无论什么新技术都必须建立在已有的技术基础之上”。从前面的章节我们大概能够体会,同样的道理在生物学中也适用:任何生物进化中的新性状,无论它在无尽的宇宙图书馆中的哪个角落,都是组合优化的结果,就像每一本新书都不过是对已有文字的重新组合而已。
试错、人海战术、多起源及组合优化都是科学技术和自然界之间相似的地方,难怪技术学家一直想要模仿自然的创造能力。这里我指的不仅仅是生物技术专家,尽管人类在生物技术领域已然硕果累累:从可以把沾满泥渍的裤子洗得干干净净的含酶洗衣粉到糖尿病患者使用的人工合成胰岛素、通过基因工程培育的抗虫作物。生物技术的材料取自生物本身,因此它从一开始就已经利用了自然图书馆带来的便利。我在这里想搞明白的是,与人造材料打交道的技术学家是否也能享受同样的便利,比如利用玻璃、塑料、硅质材料或YaMoR的专家。
技术创造与生物进化并没有我们想的那么神秘,反而特别因循守旧。技术学家们早就发现,创造的过程犹如一个按部就班的算法,连机器都能重复。变异通过改变DNA创造具有新表现型的生物,其中一些经过自然选择幸存下来并繁衍生息,这个过程就是在变异、选择中不断循环往复。意识到这一点的技术学家,确切地说是计算机科学家们,据此创立了一个全新的领域,以研究生物进化的算法,他们想要完全依靠计算机解决现实世界中的复杂问题。
一个著名的例子是广为人知的旅行推销员问题(traveling salesman problem),这个数学谜题由爱尔兰数学家威廉·罗恩·哈密尔顿(William Rowan Hamilton)在19世纪中期提出。
如果考量的“城市”数量在数千座上下,那么以复杂的数学手段为推销员设计最佳路线依然是可行的。虽然这些数学理论复杂高深,但是从名字上却一点看不出来,比如“切割平面法”和“分支定界法”。当城市数量上升到百万级别时,这些方法依旧能够制订出接近完美的路线。不过严谨的数学算法并不是必需的,生物学家们愚钝而盲目的算法同样能够解决问题:首先让计算机随机生成一个路线方案——任何路线都可以,无论它多么低效。然后,由计算机程序对生成的路线进行修改,每次只改变其中几座城市(在不同的情景中也可以是停留的商铺、学校或花)之间的线路,继而查看新的路线是否比原来的更短。如果路线的确变短了,就选择继续改变后面的新路线。下一步再重复上述过程,再比较。而如果线路没有缩短就放弃新路线,回到原有的方案上。经过足够多的尝试,这种简单的算法同样能够让路线变得越来越短,最终找到的路线就算不是最优解,也是相对最理想的路线之一。
这种进化的算法还被应用在了一些你想不到的地方。比如军事作战计划制订员用这种方式设计无人机在敌方领空的最佳巡航路线,密码编译人员用这种方式为敏感信息加密,基金经理用这种算法预测金融市场的动向。汽车工程师也可以通过优化发动机内燃料注入的时间和压力,调整它的运作,而这种算法不负众望,的确能够提升发动机的燃料效率。需要注意的是,仅仅提高燃料效率并不足以推动发动机设计上的改革。模拟生物进化的进化算法确实是一种强大的工具,但是似乎还缺点儿什么。它们欠缺生物进化的核心部分:组合优化。大自然是组合优化的一把好手,而原因非常简单:标准化。
如果说技术工业领域没有标准,那就有点言过其实了。技术发明依赖的通用标准不仅包括科学研究的自然规律,更重要的是测量方式的标准化,比如温度、质量以及电荷。不过大多数技术领域不像大自然,技术领域缺乏特定的标准化规范。自然界需要严格的标准化,因为它不像人类发明家,可以用额外的心力弥补工业标准上的不足。
功能不同的蛋白质,有的能催化反应,有的能推动分子转运,还有的能维持细胞存活。这些功能的结构基础都相同,都是由氨基酸以同样的连接方式组合而成的。氨基酸之间的标准化连接方式是“肽键”,由一个氨基酸分子的氮原子和相邻氨基酸的碳原子构成。尽管每种氨基酸自身的结构不同,但由于“接口”的标准化,它们依旧能以相同的方式连接到一起。正是不同生物体内的氨基酸连接的标准化造就了我们熟悉的自然界。没有标准化,就没有超宇宙级数量的基因型。自然图书馆如果不能畅通无阻,生物进化也就寸步难行。
让组合优化成为现实的标准化不仅仅是蛋白质的专利,RNA也以标准的化学键连接单位分子。生命储存遗传信息的标准规范DNA使得细菌间的基因转移和性状组合成为可能。调控环路也以标准化方式调节着基因的表达,调节因子蛋白都能够识别和结合特定的DNA片段,通过改变不同基因前的调节片段,同样的调节因子能发挥不同的作用。我们手头只有一些为数不多的小部件,只要我们能够制订一种标准化的连接方式,然后以所有可能的方式对它们进行组合,无论这种组合多么盲目,我们创造新事物的潜力都已经和大自然不相上下了。
这种标准化的过程对于人类的工程技术领域来说显然是力所能及的:流行的乐高积木就是很好的例子,此外,另一项古老得多的技术也是很好的例证。
自然界刻板的组合方式当然和计算机模拟帕拉迪诺风格的过程不完全相同。蛋白质是由更小的氨基酸组合而成的产物,而帕拉迪诺式建筑则是分割矩形建筑的结果。不过两者的共同点更值得关注:不管是蛋白质还是建筑学,都是用有限的基本元素和更有限的组织原则创造出种类庞杂的新产物。如果这个规律在工业革命前就已经存在于建筑学中,那么我们有理由推测,它也极有可能存在于工业革命之后的工程技术领域。
与、或、非以及很多其他独特的布尔函数,比如XOR、XNOR、NAND以及NOR,帮助我们把自然语言中复杂的问题翻译成一串计算机能够理解的二进制数字。不仅如此,二进制数字与十进制一样,能够进行加减乘除运算。无论一台计算机有多么高端复杂,它的集成电路都在执行最基本的算数运算和简单的布尔函数,比如与函数。只需要两个最简单的数字,0和1,加上布尔函数,数字计算机就能够识别图片、对数据进行加密、发送语音邮件或是预测下周二的天气。如此看来,算数存在的意义远远不止是小学的数学考试而已。
布尔函数另一个非凡的特征是简单函数能够通过叠加组成复杂函数,在叠加的过程中,一个函数的输出可以作为下一个函数的输入。这就像一个乘法运算(4×3)可以用一个加法运算来代替:(4+4+4)。不仅如此,虽然理论上可以有无数种布尔函数,但每一种布尔函数都不过是与、或和非三个简单函数组合叠加的结果。这对于计算机来说非常重要,因为在集成电路中,晶体管往往通过串联形成计算单元以执行不同的布尔逻辑函数,这些晶体管单元因此被称为逻辑门。
大多数集成电路在出厂前就会完成硬件连接,而像YaMoR这样的机器人则配备了可编程硬件,它们的芯片中某些逻辑门电路能够被修改,例如把某个与门电路改成或门电路。此外,不同逻辑门之间的组合方式也可以发生改变。有些可编程芯片甚至能在进行运算的同时修改逻辑门。逻辑门数量达到百万级别的电脑芯片已经不是小孩子手里的玩具了,而是灵活强大的计算引擎,它能帮助计算机学习许多人类才知道的东西。通过对自身硬件的修改,自主机器人不仅能移动,还能学会避开低洼的坑洞和其他陷阱。
如果你觉得上面这些听起来很熟悉,那是因为这与生物进化中一次改变一个分子的过程十分类似。可编程的逻辑门电路相当于可变的基因型,而不同的算法则相当于不同的表现型。和进化类似,计算机学习的过程需要不断试错。在这个过程中,良好的表现会受到激励和加强,而不好的行为则会受到惩罚和削弱。当然机器人受到的惩罚往往不会像进化那么严厉。如果未来某一天你拥有的某个机器人高尔夫打得不太好,它大可以多多练习它的站姿、握杆或者甩杆技巧,而不是直接被淘汰。
另外,这种学习方式也不需要遗弃原有的知识。比如在学习高尔夫的前后,即便你脑中与坐、走、跑、跳等动作有关的神经环路逐渐发生改变,你依旧能够执行这些动作。逻辑门与生物进化的共同点还不止于此:逻辑门电路之间的连接属于通用连接,因为逻辑门的输出可以被任何其他逻辑门的输入所识别,就像蛋白质中标准化的肽键。只是对于蛋白质而言,肽键的合成、断裂和修饰要简单得多,而生产一块能够随意修改的标准化电路则要经过精心设计且耗费大量的人力。
标准化连接和少数几个基本逻辑门这两个条件已经足以打造出一款能够击败人类国际象棋冠军、从数百万页书中找出特定的一页或者“打印”3D物体的电脑芯片了。现实生活中的可编程芯片会让人联想到大自然的进化能力,如果有一座数字电路图书馆,里面收录了逻辑门电路所有可能的组合方式,那么它的组织形式会不会和自然图书馆一样?这个问题的答案将告诉我们,生物进化的曲速引擎是否有适用于工程技术发展的改装版本。
虽然如今市面上的可编程芯片中,逻辑门的数量往往在百万级。但是经过严谨的估算后,我们认为研究规模相对更小的集成电路是一个更好的选择。巨大的基数倒是让是否要制作芯片进行实物测试的疑问显得清晰明了:面对数百万个需要测试的电路,我们也只能用计算机对它们进行模拟了。
即便是简单的集成电路,同样能够计算数量庞大的布尔函数。
集成电路网络中随机游走能够到达的距离,甚至比我们在之前章节中探讨过的基因型网络都远:大多数集成电路可以在保证函数功能不变的情况下,从图书馆的一端走到截然相对的另一端。两个集成电路除了执行的函数功能相同之外,可以说毫无相似之处,从单个逻辑门到多个逻辑门之间的连接方式皆不同,但是它们的确都位于同一张集成电路网络中,只要不断改变基本逻辑门之间的连接就可以把其中一个变成另一个。不仅如此,在研究中我们还发现,无一例外,所有的函数都具备这个性质。也许这是所有二进制逻辑门电路的一个基本特性。数字图书馆和生物图书馆相比,也许有过之而无不及。
在先前的章节中我还打过多维空间网络的比方,基因型网络就像一块复杂得难以想象的编织物,而且这块织物只存在于高维空间。数字电路也像一块高维空间的纺织物,这张网络让我们寻找所需功能函数的效率得到了大大提升。
通过与基因型网络的对比可以得知,集成电路网络具备推动电脑芯片优化的所有特征,它就是硬件进化的曲速引擎。未来的某一天,YaMoR的继承者将不仅能够经过学习避开路上的坑洞,还可以学会更复杂的技能,比如洗碗、照顾孩子打球等。它们的数字大脑可以通过按部就班的修改和优化,在不影响原有行为的基础上习得新的技能,温故而知新。如果有人说我们的大脑也在用相同的方式进行学习,我一点都不会感到惊奇。如今我们都知道,在人的一生中,大脑中神经元之间的突触连接始终在发生着变化,而这种变化与生物探索基因型网络的方式相似。倘若如此,工程学借鉴生物进化的日子将指日可待。
最简电路中的每一个逻辑门、逻辑门之间的每一处连接都至关重要,稍作改变,电路的函数功能就无法维持。因此,最简电路的结构和算法无法被改进,经得起修改和优化的电路需要一定的复杂度。越复杂的逻辑电路对修改的耐受性越高。
复杂电路中看似多余的逻辑门和逻辑门连接就像备用零件,用以帮助芯片学习新的函数功能,它们就是爱迪生所说的“无用的垃圾”。和生物学中一样,看似多余的复杂性,其实对进化而言至关重要。这就是人类的工程技术能够从自然界借鉴的东西之一:如果我们想撬开创造力的黑匣子,奥卡姆剃刀的刀刃多少显得有些单薄。如果说精简主义是水,那么创造力就是油,两者互不相融。
但是这并不意味着技术创新的领域里容不下精简主义和高雅主义。恰恰相反,只是它们藏在更深的层次里。高雅主义的实质就是精简主义本身:利用有限的原料和有限的规则,创造出世界万物。利用这个规则,大自然创造了蛋白质,创造了调控环路,创造了新陈代谢,创造了生命。从简单的病毒到复杂的人类,继而催生了我们的文化和技术:无论是《伊利亚特》还是iPad。技术发明的精简主义和高雅主义就像自然图书馆,隐藏在现实世界的背后,看不见,摸不着。我们只能从生命之树上觅得一些亦真亦幻的风影,就像柏拉图洞穴里的变幻之影。

后记 柏拉图的洞穴