非靶向 | 靶向代谢组学数据分析总结-纲要

@(Dayueban)[靶向|非靶向|代谢组学数据分析]

导读

如今组学数据的产出量日益庞大。代谢组学数据也是如此，随着科技的创新和技术的变革，允许科研工作者们通过大样本数据去挖掘和解决人们关心的疾病和健康问题。然而大样本，大数据势必会对我们的分析手段提出挑战，因此，通过建立一套标准化，适合自己数据类型的分析方法显得尤为重要。那么在这里，我会花一段时间去重新回顾并总结我在代谢组学（血清样本）数据分析过程所用到的方法以及碰到的问题。

主要内容

那么在学习数据分析之前，我还是想和大家一起回顾一下什么叫代谢组学(Metabolomics)和代谢组(Metabolome)。

代谢组学，首先给出维基百科给出的解释：metabolomics is the "systematic study of the unique chemical fingerprints that specific cellular processes leave behind", the study of their small-molecule metabolite profiles.也就是说，代谢组学是一种研究手段。
代谢组：The metabolome represents the complete set of metabolites in a biological cell, tissue, organ or organism, which are the end products of cellular processes.而代谢组指的是通过一系列方法能检测到的所有的代谢物合集。

非靶向代谢组学

为什么非靶向代谢组学在生物学领域的位置越来越重要

在中心法则的指导下，基因组、转录组、蛋白组通常以信息流的方式呈现，而代谢组被认为是新陈代谢的结果。但是，很多研究表明代谢物可以参与到生命有机体的生理学功能和稳态，比如：

氧化脂类（oxylipins），是一种被氧化的脂肪族代谢物，其生物活性包括与炎症反应和防卫系统相关；
oncometabolites，因为新陈代谢改变而参与到肿瘤生成的一种代谢物；
有害代谢物，一类由酶错误或自发反应产生的化学反应性化合物，通常由损害控制系统调节；
微生物代谢物，由肠道菌群分泌并且可以影响宿主生理的一代代谢物；
最后，植物素，由植物产生并且对宿主代谢发挥多种生物学活性。

Fig 1 代谢组研究概况，可见，目前我们所发现的代谢物只是冰山一角

非靶向代谢组学技术基础

既然代谢组学是解密人体生理学基础的重要一环，那么它所用到的技术有哪些呢？

基于质谱（MS）的非靶向代谢组学使得代谢物的发现和分析化学的更新变得可能，信息学是阐明新的生理功能和生物学机制必不可少的工具。这里我们从非靶向代谢组学下机数据开始讲起，如下图所示：

Fig 2 非靶向代谢组学实验及数据分析的一般流程

质谱技术运用到的主要是液相色谱质谱联用和气相色谱质谱联用技术，根据分析的性质不同而定。那么非靶向代谢组学的测定平台主要是 ultra performance liquid chromatogram quadrupole-time of flight mass spectrometry（UPLC/q-TOFMS，超高效液相色谱四级杆飞行时间质谱）或者 two-dimensional gas chromatogram combined with time-of-flight mass spectrometry （GC * GC-TOFMS，全二维气相色谱飞行时间质谱）以及linear ion trap quadrupole-Orbitrap-mass spectrometry（LTQ Orbitrap MS，线性离子肼四级杆轨道肼质谱）
通过上述仪器采集的原始质谱信号需要经过一系列的数据转换得到分析物的相对含量值表：具体为行名为样品名，列名为化合物保留时间/质荷比对，每个样品对应每个化合物的单元格则为该化合物在该样品的相对含量值。得到这个表的一系列步骤包括：

Fig 3 非靶向代谢组下机数据处理步骤，以Waters Progenesis QI软件为例

当然还有很多其它的软件也可以做这样的事情，比如MS-DIAL，MZmine，XCMS，OpenMS等软件，最终得到的表格如下图

Fig 4 保留时间、m/z值对和样品名及相对含量值组成的分析物表，是经过前面质谱采集，软件将质谱采集的化学信号转为数字的结果

数据前处理

这个小节的内容主要介绍得到化合物表后，正式统计分析前的数据前处理工作。包括校正测定批次（特别是成百上千的样品，测定周期少则几个星期，多则几个月的样品类型）；数据转换——中心化或者标准化等处理（根据数据分析的目的决定）

1. 校正批次

针对大样本，多批次进行的实验，在质谱采集的过程中，势必会产生离子信号的偏移。不管是批次内还是批次之间，如下图：
[图片上传失败...(image-1d2c73-1544511793679)]
如果这些效应不去除的话，会严重影响数据的质量。那么代谢组学数据的校正方法主要有哪些呢？
1.1 内标校正：在样品中加入内标，然后对所有的峰都使用该内标进行校正。但是这种方法使用一个或者几个内标对所有的峰进行标准哈，并不可靠，因此用的不多。
1.2 基于样品本身：比如使用样品中所有峰的平均值、中位值或者总和对所有峰进行校正。另外还有比如PQN等等方法。
1.3 第三种在代谢组学数据中最为常见的标准化方法是基于QC（质量控制）样本的数据标准化。简单来说，就是将所要采集的所有样本取等量混合起来，组成QC样本，然后在采集数据的时候，每隔一定数量的样品，插入一针QC样本。因为QC样本都是一样的，因此可以用QC样本来模拟数据采集过程中信号的变化。得到数据之后，对每一个峰（peak），都将QC作为训练集，然后建立预测模型，预测信号变化，从而对样品中的信号进行校正。
那么现在一般都是基于QC样品作为数据标准化的首选方法，这里主要运用到的是上海朱正江课题组的博士生沈小涛博士开发的一个R包来做的，MetNormalizer，具体的用法请参考博文：http://shenxt.me/2018/05/16/metabolomics-data-normalization/
主要的流程为下图所示：

MetNormalizer包校正方法

统计学分析

1. 数据标准化

数据经过测定批次的校正之后，便可以用于后续的统计学分析，那么在进行统计学分析之前还需要进行数据的转化，主要有如下几种

Centering scaling：中心化，即减去每个变量的均值；
Auto scaling：自动标度化，也叫UV scaling（univariate scaling，单变量标准化），也就是上一步中心化后除以该变量的标准差，也叫Z-score标准化；
Pareto scaling：柏拉图标准化，一般写成Par标准化，与UV scaling的不同之处就是对标准差开根号。
一般用的较多的是Z-score标准化

2. 数据分析

2.1 多元统计分析

PCA分析

PCA分析主要是为了看数据的一个质量，也就是稳定性如何，QC样品如果比较集中，那么则反映数据的质量较好。另外可以直观的观察被分析样本有无天然的分组（适用于疾病-正常或者case-control研究中）

那么PCA分析可以由很多方法实现，包括桌面版的软件SIMCA-P，在线分析软件Metaboanalyst，以及R语言软件包（stats包里的prcomp()和princomp()函数，FactoMineR包的PCA()函数，ade4包的dudi.pca()函数，以及ExPosition包的epPCA()函数）

PCA图，QC样品聚集在一起，说明实验稳定性较好

(O)PLS-DA分析

主要是用来筛选对样本分类贡献较大的生物标记物，通常选择VIP>1的代谢物（需要注意的是，有监督模型建立之后需要进行模型的验证，如置换检验（permutation test，PLS-DA），交叉验证（cross-validation，OPLS-DA）等）（这里也可以参考一个用于分析代谢组学数据的R包 ropls 1.15.0）

另外补充一下，瑞典查尔默斯理工大学的施琳老师最近发表在bioinformatics上的一篇文章，介绍了一个用于多元统计分析（分类或者回归）的方法，并开发了一个R包MUVR

相关性分析

通过非靶向或者后期靶向鉴定到的代谢物，和表型做相关性分析，可以运用Spearman 相关性分析，如果需要校正其它的confounders或者modifiers，可以用Partial Spearman 相关性分析（R语言的ppcor包）

2.2 单变量统计分析

对上一步筛选出的潜在的生物标记物进行差异统计学分析，找出组间差异的代谢物（两组之间用Wilcoxon t-test，三组以上用kruskal-waillis检验或者方差检验）；另外还可以结合fold-change(差异倍数)分析。

2.3 构建回归方程进行预测

表型是分类变量（如疾病-健康组）

case-control，则使用前面步骤分析得到的差异化合物作为分析变量来预测表型，这一步一般用到的是逻辑回归!

表型是连续变量（如BMI）

针对表型是连续变量，如BMI，可以用前面分析到的与表型相关的n个代谢物构建一个岭回归（ridge model，之所以运用岭回归是因为代谢物之间可能会存在较强的共线性，而一般普通的线性回归对于变量之间存在共线性会有不稳定的解。另外套索回归-lasso model也可以）

2.4 网络分析

挖掘到差异或者和表型强相关的代谢物后，还需挖掘和这些代谢物相关的代谢通路。这里一般用的多的是Metaboanalyst里的两个模块

富集分析（Enrichment analysis）
通路分析（Pathway analysis）:通路分析中添加了通路的拓扑分析（topology analysis，会计算代谢物在网络中的一个中心位置），会输出通路在整体网络中的重要性（impact），重要性越大，可能意味着在整个通路中的地位越核心，那么从impact值也可以反映出来。

参考

[1] Advances in computational metabolomics and databases deepen the understanding of metabolisms

最后编辑于：2018.12.11 19:58:53

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 158,560评论 4赞 361
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 67,104评论 1赞 291
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 108,297评论 0赞 243
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 43,869评论 0赞 204
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 52,275评论 3赞 287
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 40,563评论 1赞 216
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 31,833评论 2赞 312
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 30,543评论 0赞 197
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 34,245评论 1赞 241
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 30,512评论 2赞 244
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 32,011评论 1赞 258
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 28,359评论 2赞 253
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 33,006评论 3赞 235
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 26,062评论 0赞 8
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 26,825评论 0赞 194
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 35,590评论 2赞 273
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 35,501评论 2赞 268