微生物组数据挖掘新方法tmap

关键词:
微生物组大数据,population-scale,网络分析,基于拓扑学的数据挖掘新方法

本文提纲:

  • 微生物组大数据分析目前存在的问题
  • tmap可以解决的问题
  • tmap应用实例
  • 总结

发表文章: Genome Biology, 2019; https://doi.org/10.1186/s13059-019-1871-4
软件代码: https://github.com/GPZ-Bioinfo/tmap
tmap软件教程: https://tmap.readthedocs.io/en/latest/

微生物组大数据分析目前存在的问题

随着多组学技术的发展,现有的分析方法往往难以满足当前微生物组日益复杂,规模庞大,且附带着大量表型及环境相关元数据的分析需求。目前主要存在以下几个亟需解决的问题

  • 海量高维大数据来源复杂,难以用传统统计学方法得到可靠的结论

  • 非线性关联难以用常用的线性方法(如envfit, adonis, ADONISM)检测出来

  • 在数据集庞大,样本之间存在各种复杂差异,特征之间存在关联的情况下,细微但可能是研究目的所在的差异容易被掩盖掉。

以上数据分析的挑战对创新可靠分析方法提出新的需求。本课题组开发了基于拓扑学数据分析的tmap软件,提供了一个整合大规模人群样本微生物组数据的分析框架,可以将以下两个微生物组研究的重要方向结合起来:1. 总结微生物组数据规律(pattern discovery);2. 为发现新的科学问题(hypothesis generation)提供线索。

tmap可以解决的问题

通过Mapper算法及网络富集分析,tmap利用样本的微生物组数据构建TDA网络结构,并通过SAFE score量化了样本表型或者物种在一簇样本中的富集程度。基于SAFE score可以实现以下3个分析目的:

  • Ranking: 对每个表型或物种的SAFE score之和排序,其含义与linear regression中的effective size类似,但是对线性及非线性的关联都可以较好的识别。

  • Ordination: 对SAFE score做PCA,目的为展示一个整体富集规律(overall enrichment pattern)不仅可以识别对微生物组变化贡献最大的物种或表型,也可以了解哪些表型或物种的联系比较紧密。

  • Co-enrichment network: 这里的网络基于物种及表型关联的显著性构建,用于探索其生物学意义上的关联或者混杂因素(confounding factor),需要以研究目的和意义为导向。

tmap应用实例

本研究通过对4个数据集(包括1个合成数据和3个真实世界数据)对tmap方法加以验证,结果表明与传统的线性方法(如envfit, adonis, ADONISM)相比,tmap都表现更好,对非线性关联及潜在规律都有较好的识别。以比利时队列FGFP为例

比利时FGFP队列的简要介绍:

  • 2016年发表在Science,研究内容为健康正常人群的肠道微生物组。
  • 研究纳入了1106个粪便16S rtRNA样本,及样本的69个宿主表型特征,包括了7个metadata类别:社会人口学特征,生活方式,血液指标,健康状况,饮食习惯,肠道健康状况及病史用药情况。文章表明,仅有7.63%的微生物组改变与宿主表型的变化有关。tmap提高了识别并解读population-scale的微生物组-宿主表型关联的能力。

如上图所示,tmap不仅可以较好的复现envfit这种基于线性回归的方法,也在对非线性变化的捕捉上,比envfit更加灵敏。通过对FGFP数据转化的SAFE score分析,可以得到许多原始文章中没有挖掘到的规律和线索。如下图所示,比如两种药物虽然与同一种疾病相关联,但其对微生物组的影响是不同的,具体表现为在网络图上的富集部位不一样。这都是传统线性分析难以得到的。

总结

  • tmap有助于将不同国家地区,不同疾病类型,不同宿主表型的人群微生物组大数据加以整合,对人群做精细分层,为特异性的干预性治疗,数据来源多样化的meta分析等研究提供了有效线索。有效融合不同来源的微生物组极其宿主的医疗健康大数据,是实现微生物组数据共享和整合的创新性方向

  • tmap不仅可以胜任传统线性研究对线性关系的刻画,也对非线性关联灵敏,优于传统分析方法。且基于微生物组网络地图,可以挖掘基于微生物组变化背景的宿主表型关联,使表型之间的关系不会与微生物组变化割裂开来。

  • 了解不同宿主表型在网络图上的分布,捕捉变量之间联系及变量自身的重要性排序,对大规模人群队列的数据分析,不仅归纳总结了现有数据规律,也对科学假设的提出,科学问题的提炼有很大帮助

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 159,117评论 4 362
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 67,328评论 1 293
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 108,839评论 0 243
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 44,007评论 0 206
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 52,384评论 3 287
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 40,629评论 1 219
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 31,880评论 2 313
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 30,593评论 0 198
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 34,313评论 1 243
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 30,575评论 2 246
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 32,066评论 1 260
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 28,392评论 2 253
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 33,052评论 3 236
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 26,082评论 0 8
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 26,844评论 0 195
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 35,662评论 2 274
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 35,575评论 2 270