[2018-11-23读完]《数学与21世纪生物学》读书摘录

图片发自简书App

《数学与21世纪生物学》美国能源部计算生物学项目数学科学研究委员会+美国国家学术院国家研究委员会.清华大学出版社.2015

在未来几十年中,生物学发展的主要推动力将是对生物功能越来越多的定量理解;取得进展的速度将取决于对各种定量方法更深入、有效的执行和一种生物科学中的定量性视角。(p1)
生物科学已经变得越来越定量化和数据密集化;事实上,爆炸式的数据生产和充满估计精度的定量分析是21世纪生物科学最显著的特点。(p2)
数学和生物学之间的交叉应该是由生物学驱动的,通过从特定的生物环境抽象出生物学问题开始着手并探讨所得到的抽象物的属性。(p3)
委员会的职责是探索数学和生物学交叉的研究领域,这些研究领域可能在未来几年呈现出特别的前景。委员会提出了5个建议:①支持生命科学相关数学研究的资助机制应该乐于接受那些涉及任一级别生物组织(分子、细胞、生物体、种群和生态系统)的研究提案。虽然当前大量的研究在某一特定的生物级别上可获得富有成效的成果,但是在分析各级别生物组之间相互作用方面还有大量的挑战。②支持生命科学相关数学研究的资助机构应该优先考虑下面这样的提案,即表明对研究的具体生物学对象有一个清晰的认识,并包括一个数学家和生物学家将如何合作以实现目标的切实可行的计划的提案。③支持生命科学相关数学研究的资助机构应该优先考虑解决生物学系统内在特点的研究,这些在许多级别的生物组织中重复出现的内在特点包括高维性、异质性、稳健性和多时空尺度的存在性。④支持生命科学相关数学研究的资助机构应该支持通过工具的改良,这些工具的广泛生物学用途是已经确定的。这样的研究可能需要专门的审查标准,特别是当集中于工具的增强而不是突破性研究的时候。⑤支持生命科学相关数学研究的资助机构应该更加重视组织跨学科研究的资助机制和创新方法。其目标应该是通过努力消除由于沟通不足、实现研究目标的不同时间尺度、跨学科项目参与者的不平衡的认识以及高校、科研院所和国家实验室的文化隔阂所带来的障碍,以便促进数学家和生物学家之间的有效合作。(p2-4)
在过去的10年中,发展的“完美风暴”已经触发了生物学领域的广泛变化。不像以往生物科学中大多数的非持续性发展,这次发展风暴不是由重大科学发现触发的,反而是由已经广泛地席卷了整个科学界和社会的新技术融合以及生物学的内部发展触发的。这场“完美风暴”的关键贡献者包括如下内容:①自动化仪器的开发和广泛应用,产生与各个级别生物组织相关的高通量数字化数据。②所有生物学家的桌面上都实现了联网的、高性能的计算系统。③人类基因组计划成功建立了作为生物学核心资源的、准确的、全基因组序列。④分子和细胞生物学的一个阶段性成熟过程,在此期间生物学家获得了稳健的、大部分是定性的、基本分子路径的描述;这些基本分子路径允许生物体自我复制和发育,并控制其能量的利用和与其环境的相互作用。(p5-7)
基因组学中的分析挑战正以O(n2)复杂度扩大着,其中n是DNA序列中已知的核苷酸的数量——一个其本身呈指数级增长的数字。(p6)
生物模型类型的多样性:①简单的、语言描述的或可视的、完全定性的模型。②可以用数学公式表示,尽管它们主要倾向于启发式应用而不是用于数据分析。③许多模型都是随机模型,它们引导从生物学研究对象间在组合上激增的可能关系集合中进行采样。(p18)
模型的开发和模型的参数化必须要考虑到这些不确定性因素的来源——复杂的相互作用因素和各种随机的因素。(p20)
使用这些数据集合的一大障碍就是缺乏普遍能够接受的收集、归档和注释数据的标准,以及缺乏对什么样的数据应该被收集的一致性协议。(p21)
生态元数据语言(ecological metadata language,EML)(p21)
由于模型的参数多样化、数据的离散化和模型的结构化,对某个计算模型所包含的不确定量的范围目前还没有足够的能力去进行评估,当模型被应用于大型系统时,几乎还没有工具可以用来处理这些问题。(p23)
一直以来,实验生物学家都是在最低限度上基于实验结果数据的计算分析的前提下做出实验设计决策的,如选择扰动的性质、响应测量、是否或如何做基因破坏、响应测量的时间和范围,等等。(p23)
委员会心目中的初级模式是数学家贡献于生物学研究团队,而不是在大多数情况下生物学家学习所有必要的数学和统计学知识。(p32)
对与任何合理的序列数量,可能的进化树数量都是难以控制的。此外,所有这些方法都依赖于计算的、包含不确定性的序列比对,这些不确定性并没有完全计算在进化树构建的方法中。最后,关于位置独立性和取代率均匀性的简化假设限制了人们可以获得的分辨率。(p60)
了解非常小的力与细胞内发生的大分子相互作用的关联,目前依然是一个重大的计算挑战。(p65)
对于细胞的数学分析,主要挑战不是计算方面的,而是如何对感兴趣的特征进行建模的基本挑战。未来10年这一领域的主要挑战是如何系统阐述细胞结构和动力学的降阶表达,这一阐述需从日益复杂的数据中提取并能在模型驱动的实验中得到验证。(p71-72)
在自然科学的许多领域,一个粗糙的模型可以是很简单却相当准确的,而且只有当处理二阶或更高阶的效应时,才需要开发异质的、多变量的、空间解析的模型。相比之下,即使是最简单的细胞模型,也必须从异质的、多变量的、空间解析的实验数据中提取。(p72-73)
最近,鲁棒性(robustness)已经成为模型筛选和验证的一个重要原则。简而言之,同一个过程的两个模型的相对合理性可以通过比较这些模型所能容忍的参数扰动的大小来进行评估,而对模型所施加的这些扰动不会定性的改变所预测的行为。(p81)
在分析了基因和蛋白质网络之后,定量了解细胞的下一个目标是集成反应和功能的建模(现象学建模),如细胞分化、迁移和DNA损伤反应等。(p83)
为生物学对象和过程开发共同的本体,对于支持不同类型数据库间的相互通信以及实现从已发表文献中自动标注和提取信息是必不可少的。(p94-95)
细胞周期中的振荡如何导致正常的细胞分裂;细胞间钙波如何协调大面积的细胞响应;肿瘤如何生长和响应化学疗法;以及人类免疫缺陷病毒(HIV)是如何在细胞内产生和清除的;所有这些都是数学模型在其中发挥了重要作用的领域。(p118)
两个重要的组织原则:①对系统的综合认识需要数学和理论的发展,以模拟为补充;②如果理论不是由实验数据驱动和启发的,那么理论就不是相关的。(p119)
经典统计学主要产生于其中的典型问题涉及从大量的数据点(n)估计一小组参数(P)的背景中,即“小P,大n”问题。然而,在许多生物学研究背景中,所涉及的统计学挑战是截然不同的。个体实验往往是信息丰富的,而力图从中得出结论的独立测量的数量可能会相当小(“小n,大P”)。(p195-196)
分析基因表达数据及其他大型的生物学数据集所需要的模式识别技术通常被称为监督式和非监督式学习。基于这些技术的机器学习工具是在生物学家和数学家的合作之下设计出来的,现在已经开始广泛使用。通过监督式和非监督式学习进行的模式识别,是基于对生物学数据的定量、随机描述,有时被称为关联性模型。这些模型通常包含很少或根本没有有关它们力图去发现的那些模式的机制性基础假设。(p198)
监督式技术优于非监督式技术,因为它们很少受与所感兴趣的辨别不直接相关的结构支配,比如收集数据的实验室。不幸的是,在许多生物学情况下,训练集是无法获取的。(p198)
用于分析有序过程的数学技术已经被成功地从其他研究领域导入到生物学领域中,一个特别重要的例子就是隐马尔可夫模型(hidden Markov model,HMM)。HMM需要对一个数据集内的结构进行更具体的建模。当合适的模型存在时,这种要求是一种优势:事实上,有时可以从一个生物实体如基因的单个实例做出有效的推断,也就是说,当n=1时,要分析一个“小n,大P”的问题是可能的。(p205)
这些隐马尔可夫模型仍然是关联性的而不是机制性的模型,并且通常把它们简单地看作是对现实的非常粗略的近似。(p206)
对生物序列,隐马尔可夫模型有两个具体的应用,用于蛋白质家族的序列谱隐马尔可夫模型和用于预测DNA中基因结构的隐马尔可夫模型。(p206)
蒙特卡洛方法在计算生物学中的应用:①模体发现中的吉布斯采样,②调控网络的推断,③蛋白质构象采样。(p212-214)

推荐阅读更多精彩内容