蛋白质组学学习整理-研究方法概述-2

转发自http://crickcollege.com/news/169.html

一、蛋白定性检测（续）

上一篇我们聊了基于质谱的蛋白质组学研究背景，以及定性检测的一部分，今天我们继续分享课程里定性检测的数据库搜库、结果评估，以及定量检测和靶向蛋白质组学的内容。

搜库工具

说到搜库，对用我们使用者来说，其实并不复杂，只需要搞清楚以下五个要素，搜库就妥妥的了！

1） 蛋白序列数据库：通常是FASTA格式，从公共数据库下载，如果是未知的蛋白，可以从DNA测序的序列翻译成蛋白；最常用的数据库Uniprot。

2） 特异性酶解：在搜库时要明确使用的蛋白酶是哪一种，比如最常用的胰蛋白酶（软件会自动识别它在K或R后面切断肽段）。如果我们不对酶切位点进行限制，计算机只好把所有的可能都穷尽一遍，产生非常多可能的肽段，不仅运行时间会非常长，而且错误匹配的可能性也会高很多。

3） 转录后修饰：分两类，一种叫固定修饰，即在某种氨基酸残基上一定出现的特定基团修饰，比如加入乙酰化试剂进行乙酰化修饰；另一种叫可变修饰（动态修饰），就是说某一种氨基酸残基可能会被某种基因修饰（被修饰的可能性比较大），例如甲硫氨酸的氧化等。

4） 碎片类型：上一篇专门讲过，比如CID或HCD碎裂产生by离子，搜索引擎就只按by离子的规则切割；没特别的原因，不建议大家再加入其它离子类型，不然会大大延长搜库时间，还会引入错误；如果是ETD碎裂则会产生cz离子，而QTOF会产生ax离子。搜库软件通常会根据我们指定的仪器类型来自动判断碎片离子的类型。

5） 选择合适的搜库软件：接下来详聊。

首先出场的是世界上第一款搜库软件SEQUEST！虽然几经升级更新，它仍然保留了最初设计时的基本架构，并且仍然被广泛使用。SEQUEST的思路主要分两步走：先对匹配结果给出一个预打分，然后再通过全局的评估打出最后得分。目前整合了SEQUEST搜库方法的软件还有Proteome Discovery、X!Tandem、Comet等。

第二款软件是被认为是目前世界上使用最为广泛的搜库工具Mascot，由英国Matrix Science公司研发(www.matrixscience.com，国内的代理商为康昱盛公司)。它与SEQUEST的搜库算法完全不同，是基于概率的打分。它之所以广爱欢迎，主要有以下几个特点：

1）能给出清楚明了的搜库结果报告；

2）对蛋白的鉴定率很高；

3）可以整合和分析几乎所有主流的质谱仪器原始数据；

4）搜索速度很快。

还有一款开源软件也值得介绍给大家：X!Tandem。它的打分算法其实与SEQUEST是一样一样的，但搜库速度相当快，近年来用户数增长很显著，感兴趣的小伙伴们可以访问以下网站获取更多的信息：www.thegpm.org

除了以上三种搜库软件，目前我们能看到的类似的工具还有很多很多，比如Comet, OMSSA, InsPecT, MyriMatch, Phenyx, SpectrumMill, ProteinPilot等等。其实这些软件的处理步骤都是搜库和打分，但它们所使用的算法思路又各不相同。推荐给大伙儿的做法是，选择两个基于不同算法的搜库软件，分别进行打分，然后将结果合并，可以得到比单用一种搜库算法高一些的鉴定结果。

搜库流程

说到底，搜库软件在报告最终的匹配结果之前，到底都做了些什么操作呢？

首先，把质谱仪得到的谱图输入搜库软件。对于搜库软件来说，碎片离子的信息越丰富越好。如果最后给出的搜库结果不好，建议大伙儿点开二级谱图检查一下，是否因为碎片信息太少而造成的，或者是因为二级碎片的intensity太低。

大伙儿要记得，二级碎片的信息主要是用来做蛋白序列信息推导的，如果二级谱图给我们的信息太少，就很难做出一个好的鉴定结果。二级谱图质量不高有各种可能的原因，比如样品本身的原因，或者质谱仪的原因，这个要根据实际情况来逐一排查。

（对于我们这些小白来说，如果你拿到搜库软件只会点点鼠标，那就是入门一级的水平，如果你还会打开二级谱图查看一番，那就升到二级了_这也是为啥虽然并不需要自己写搜库软件，咱们还是要学习一下搜库原理。）

除了谱图，还将读入母离子及电荷状态等信息，这些都存储于RAW文件中，所以我们只需要输入RAW文件，并指定之前谈到的五个变量，就可以开始搜库了。

搜库软件通过以下五步来实现谱图的正确匹配：

1）从数据库中选择分子量与输入值相等的肽段；

2）生成理论碎片，并生成理论谱图；

3）将实验谱图与理论谱图进行匹配；

4）对匹配进行打分；

5）将打分进行排序，通过统计学分析，确定最佳的匹配结果并导出。

来，我们看一张形象点的图，再来理解一下这五步到底是怎么实现的。

假设我们的谱图检测到的是一条1000分子量的肽段，则搜库软件首先会在蛋白序列数据库里对所有可能的蛋白序列进行特定位点的酶切（酶切位点由我们指定的特异性酶参数来决定），然后选出分子量1000左右的肽段，根据指定的仪器类型，模拟打碎成理论上的碎片离子，然后生成理论谱图，再与输入的实际谱图进行比对，得到一个相似性打分，按得分高低进行排序，最后挑选出匹配结果。

鉴定结果评估

听上去整个过程并不复杂，对不对？事实上，由于各种因素对搜库匹配的影响，这里面最重要的问题是，怎么判断哪些鉴定结果是对的！也就是说，我们需要对匹配结果进行评估。

在过去，评估的大部分工作需要手工完成。下面这个饼图大伙儿感受一下：整个样品制备+质谱实验+数据库搜索只占了25%的时间，而对结果的手工验证要花掉75%的时间！是不是很可怕！

还好，我们已经不用再受这种折磨了，如今的各种搜库软件都自带统计学算法来帮我们进行评估，幸福感顿时提升了好几个数量级！

目前主流的统计学评估算法有两种思路：

1） target-decoy 也就是通常所说的正库反库策略

2） peptideprophet 基于概率的打分

感兴趣的童鞋可以翻看我们之前的推文，专门对蛋白鉴定的统计学指标进行详细的介绍：

二、蛋白定量检测

为什么要做定量，这个大概不用小编多啰嗦了吧？总之，定量检测可以研究不同生理状态及不同时间点上各种蛋白表达量的变化，研究意义是大大的有啊！

在质谱史前时代，是2D胶的天下。前面也提过，2D胶的通量、准确性以及可重复性都没法跟质谱比。

说到利用质谱对蛋白进行定量检测，可以分为基于MS1（一级谱图）的定量，以及基于MS2的定量。啥意思呢？基于MS1的定量是指根据一级谱图的信息得到定量结果，同理，基于MS2的定量是指根据二级谱图的信息得到定量结果。

基于MS1的定量

基于MS1的定量方法最早是ICAT（ICAT是标记试剂的名字，这种定量方法现在用得很少了），现在常用的SILAC，以及label free非标记定量。我们来说说SILAC定量策略。

SILAC（Stable Isotope Labeling Strategies）翻译过来就是稳定同位素标记技术，说得简单一点，就是想办法把非天然同位素掺到肽段里代替天然同位素，然后计算谱图里各个同位素的峰面积，其差值就对应着蛋白相对量的变化。

通常呢，我们是利用C13或者N15这类稳定的同位素（叫做重标），用培养基或者饲料对细胞或者实验动物进行培养或喂食。大伙儿应该知道吧，有一类氨基酸叫必需氨基酸，比如Lys和Arg，是生物体自身无法合成的，需要从外界摄入。于是，从外界摄入的过程中，Lys和Arg里包含的C12或N14，就被C13或N15取代了。

妙的是，Lys和Arg又正好是胰蛋白酶的酶切位点，所以它又能保证每条切出来的肽段至少有一个Lys或Arg，也就是说，每条肽段上至少有一个残基是有同位素标记的，完美！

SILAC的标记效率很高，比如细胞培养，通常5、6代以后，同位素标记就有95%左右的比例了。重标标记好后，将没有同位素标记的样品（通常叫轻标）与重标的样品1：1混合，经过分离、酶切等步骤，进入质谱检测。得到的谱图会有对应的两个峰，峰面积的差值就是不同样品中相应蛋白的相对量的变化了。

所以，SILAC定量是一种相对定量方法，我们只能得到两组样品之间每种蛋白含量的差异值，而无法知道它们的绝对量。

如果你有三组样本想要进行SILAC定量，我们可以把C13和N15标记组合一下，比如轻标（不标记）、中标（C13标记）和重标（C13和N15共同标记），然后三组样品1：1：1混合。

怎么把同位素标记上去这件事情，方法有很多，可以分为代谢同位素标记，化学方法标记，酶反应标记。比如我们刚才举例的细胞培养，就属于代谢同位素标记，这也是其中最常用的方法；通过化学反应在特别的肽段上加一个基团这种方法叫做化学方法标记；酶切的时候在断裂位点标记这种方法在酶反应标记（通常使用O18同位素）

刚才小编在讲到SILAC定量时，云淡风轻地提到峰面积。有没有童鞋对“峰面积”到底是什么心存疑惑呢？小编用一张图告诉你：

上图是在时间轴上从一级质谱得到的多张谱图，在荷质比轴上的每一根小柱子代表的是肽段在不同时间点上被检测到的值，我们用黄色小柱子表示其中一种肽段，将这四个黄色小柱子的顶点连起来，就可以画出一个峰型，这个峰的面积就是肽段的量（通过若干肽段的量我们可以推出蛋白质的量）。

对这个图，小编的理解是，假设质谱扫描的速度是无限地快，相当于可以把一个时间段分为无数个时间点，每个点上都能扫描得到一个值（小柱子），然后在时间轴上把这些值全部加起来（做积分）于是就得到了这个肽段的量。

基于MS2的定量

扯完了基于MS1的定量，我们继续扯基于MS2的定量，也就是基于报告离子的定量。在Shotgun领域主流的方法是iTRAQ和TMT，不要被这些名字吓到，其实就是两种试剂的名字，而且原理和操作方法都差不多。以iTRAQ为例，先来一张清新的示意图洗洗眼：

图的左侧就是iTRAQ试剂的分子式，如果你觉得太小了看得不爽，那小编再来贡献一张更大更简明的：

大伙儿看懂了吗？iTRAQ试剂分三个部分：报告离子（就是最终要进入二级质谱进行检测的）、平衡离子（连接报告离子与反应离子），以及与肽段反应的反应基团。

说起来，这个iTRAQ试剂也是很妙的，它这三个基团里含有一堆同位素，每种同位素的总量是一个固定的值，但具体位置可以变化，主要体现在报告离子上的变化，于是我们可以得到几种不同的报告离子。

说得详细点儿，假设（只是假设哈），我们同时用了四个C13，四个N15来标记整个iTRAQ分子，无论这四个C13和四个N15的位置有多么不同，大家总的分子量都是一样的。但对于报告离子来说，可以有变化，比如第一个报告离子被标记了一个C13，第二个报告离子被标记了一个N15，第三个标记了C13+N15，第四个标注记C13+C13+N15.

由于可以做这样的位置组合，我们常听到的iTRAQ“四”标或者“八”标，就是指标记位置的不同组合的数量。以四标为例，在MS1时就通过iTRAQ试剂中的反应基团将整个iTRAQ试剂标记在肽段上，这里面包含了四种同位素标记的组合，但由于它们总的分子量都相同，对样品不会产生什么影响。

好，接下来我们将标记好的样品送入二级质谱，经过与惰性气体的碰撞碎裂，iTRAQ试剂会按它固定的方式将报告离子碎裂出来，于是，四种标记位置不同的iTRAQ试剂碎裂后，得到四种分子量不同的报告离子！将这四种报告离子混合以后得到谱图，根据谱峰面积可以推导它们各自标记的肽段的量。是不是很机智的一种方法？

我们还是以四标为例，报告离子的荷质比分别是114，115，116，117，于是，在二级谱图的110-120的范围里，我们会看到一个与by离子完全不同的非常高的峰，就像这样：

这就是iTRAQ方法标志性的峰！把这个峰放大，我们就能清楚地看到四个峰，就是对应的四个通道。像下面这样：

Tips：用iTRAQ方法定量的时候，质谱仪的参数需要根据试剂碎裂时的碰撞能量进行优化，就是说，要将报告离子充分地碎裂出来，才能保证它可以被稳定可靠地检测。

大伙儿如果能基本理解iTRAQ四标的原理，对于iTRAQ八标，TMT六标或者十标，都可以类推了。只需要注意的是，iTRAQ与TMT试剂来不同的质谱仪公司，因此对质谱仪也有选择性的，大家在选择到底用哪种标记试剂的时候，除了要考虑标记的样本数，也要考虑对应的质谱仪品牌和类型了。

三、靶向蛋白质组学

前面我们聊过了蛋白质组学的定性检测与定量检测，接下来我们整点儿更前沿的，代表着未来一个重要发展方向的东西：靶向蛋白质组学！

话说，在精准医学如火如荼的今天，最能代表有机体当下生命状态的蛋白质组学，如何大规模地应用于生物医学领域呢？与基因组学相比，蛋白质组学目前的瓶颈到底在什么地方呢？

简单说来，蛋白质组学的着力点一直是研发更高通量的技术平台，发现更多未知的蛋白。当我们转身关注生物医学领域时才发现，人家并不需要一次检测上万个蛋白这么高的通量，但是却需要在大量的样本中，高度稳定地重复地检测几十个几百个蛋白。

比如说，当我们试图把蛋白质组学研究手段用于临床生物标志物的研发时，走到第二步就卡住了！要在上百个样本中重复检测一些候选标志物蛋白质，真的很困难啊！

这种困难是什么造成的呢？最重要的原因是，也就是 Shotgun方法的局限性，它只适合检测高丰度蛋白，含量不够高的蛋白很容易漏检，而这些却往往是真正可能的生物标志物。此处请大家脑补一下小编介绍DDA（数据依赖性采集）时提到的，低丰度蛋白进入二级质谱的机会都很少！对于低丰度蛋白，可能出现的结果就是，一会儿检测到了，一会儿又检测不到…这叫人怎么忍？

以血液中包含的蛋白为例，大家感受一下，红色的都是非候选标志物，但含量都非常高。余下的低丰度蛋白我们又搞不定。这么看来，对于临床应用，蛋白质组学还有希望吗？

2012年，一种新的方法被nature method选为年度新方法，认为是未来发展的大趋势，它的名字就叫靶向蛋白质组学！于是，希望来了~

靶向蛋白质组学技术到底是怎样的不同？它大体上可以分为几类：MRM/SRM、PRM、SWATH/DIA。大伙儿就跟着小编来了解一下其中两种比较有代表性的吧~

MRM/SRM

先来名词解释一下：

SRM：Selective Reaction Monitor（选择反应监测），就是先只选择一个肽段离子，碰撞后，从形成的碎片离子中也只选一个离子，进行检测。因为两步都只选单离子，针对性很强，可以排除噪音和干扰的影响。

MRM：Multi Reaction Monitor（多反应监测）就是多个化合物同时测定时，多个SRM一起做。不需要特意区分SRM和MRM，只要一次实验是同时做几个SRM，就是MRM方式了。

概括来说，由于MRM/SRM预先选定了需要分析的肽段及碎片离子，而不像之前的方法，眉毛胡子一把抓，这样可以绕过一级质谱中只能选择高峰度Tops的标准，从而保证低峰度蛋白可以不受影响。

第一篇MRM/SRM应用的文献于2009年发表在CELL上的，对酵母全蛋白组做了精确定量，覆盖了从1E6 copies/cell 到100 copies/cell的蛋白，无一遗漏，是不是很赞！（Cell 138, 795-806, Auguest21, 2009）

另一个激动人心的应用发表于2013年，利用MRM/SRM技术成功研发出肺癌筛选的试剂盒，从371个候选蛋白中选出13个蛋白的panel作为检测目标。该试剂盒已得到美国FDA批准，在美国上市使用，进入医保支付范围。感兴趣的小伙伴们可以找文献来研读一下（Sci Transl Med 5, 207ra142, 2013）.

还有一种与MRM/SRM很类似的方法，叫PRM。它唯一的不同是，MRM/SRM的母离子和子离子都需要预先选定，而PRM只需要选定母离子，而不需要预选子离子。这是因为PRM是在高精度的Orbitrap质谱仪上做（MRM/SRM是在三重四级杆质谱仪上做），由于精度够高，可以对多种子离子同时进行准确的测定。由于不需要选定子离子，PRM方法实施起来更容易，而MRM/SRM则需要针对子离子不断优化仪器参数。

DIA

MRM之类的技术，需要预先选定多肽及肽段离子，那么问题就来了，如果我们想发现点新的东西呢？我没法预先选定啊！

这种情况下，你需要关注的就是第二种代表性的靶向蛋白质组学技术DIA（data-independent acquisition）了，也就是“数据非依赖性采集”策略。

DIA的一个代表性方法叫SWATH技术（由蛋白质组学泰山北斗Ruedi教授所在的苏黎世联邦理工学院与AB SCIENX公司合作将这个方法商业化）。它的基本思路是：选择母离子的质荷比m/z在500-900或400-1000左右的范围内，每25Dal作为一个窗口，比如，先分离500-525这个范围的肽段，然后碎片化，接下来采集525-550分子量范围的肽段，依次类推。

DIA的一级质谱可以很均匀地采集每个范围窗口的肽段，不会有遗漏，不涉及到对母离子的限制性筛选，所以无论是准确性还是可重复性，与DDA相比都得到了很好的提升，前途一片大好！

不过呢，细心一点的童鞋就会发现，DIA一次采集的范围有25DAL，显然是很宽的了！这就意味着，每一次放进来的肽段会很多，产生的碎片离子也非常复杂，于是我们会拿到非常复杂的谱图。

如果用以往的搜库方法，拿理论谱图去匹配这么复杂的真实谱图，很容易漏掉很多信息，准确率没法保证。怎么办呢？DIA的策略是，先收集真实的谱图库，然后拿实验谱图与真实谱图库进行比对，来鉴定肽段。

当然啦，即便如此，DIA复杂的谱图仍然给后续的数据分析和统计学检验带来很多挑战，也激起了各种大神的兴趣！在这一两年的各种蛋白质组学会议上，如果大伙儿留意的话，会发现对DIA数据分析的技术讨论是相当的火热！我们也期待着DIA领域的突破和发展！