图形解读系列 | 给你5个示例,你能看懂常用热图使用吗?

图形解读的一般原则:从图的基本构造入手,拆解图的横轴代表什么、纵轴代表什么、几何对象如点、线、柱代表什么和对象的属性如颜色大小代表什么,理解了各个部分,再整体解读图中的差异

热图是一种很常见的图,其基本原则是用颜色代表数字,让数据呈现更直观、对比更明显。常用来表示不同样品组代表性基因的表达差异、不同样品组代表性化合物的含量差异、不同样品之间的两两相似性。实际上,任何一个表格数据都可以转换为热图展示。

热图基本解读

热图通过将数据矩阵中的各个值按一定规律映射为颜色展示,利用颜色变化来可视化比较数据。当应用于数值矩阵时,热图中每个单元格的颜色展示的是行变量和列变量交叉处的数据值的大小;若行为基因,列为样品,则是对应基因在对应样品的表达值;若行和列都为样品,展示的可能是对应的两个样品之间的相关性。

数字映射到颜色可以分为线性映射和区间映射。线性映射是每个值都对应一个颜色,区间映射是把数值划分为不同的区间块,每个区间块的所有数字采用同一个颜色显示。两者没有优劣好坏之分,具体使用取决于展示意图。

来源:https://datavizcatalogue.com/methods/heatmap.html  

在使用颜色可视化数值表格的基础上,热图可以增加行和列的色块展示相关的行或列注释信息,如展示样品的取样部位、取样人、样品性别等属性,样品聚类热图配合样品来源的批次信息是初步判断样品受批次效应影响程度的一个方式,如下面宏基因组菌群图谱热图所示。

OTU丰度随生长期变化热图

下图是刘永鑫老师发表的一篇封面文章 水稻微生物组时间序列分析中的一副热图,展示了不同菌在不同生长时期的丰度变化模式。

从横轴的注释和标记可以看出,每一列对应于采样时水稻在田地里的生长天数;

从纵轴的文字可以看出,每一行是一种关注的菌。

每个框的颜色代表对应菌群在对应采样时间的丰度信息。

从图例可以看出,丰度值采用按行归一化 (scale)之后的相对表达变化(Z-score)进行展示。

Z-score是常用的数据归一化方式,用来展示数据相比于均值上调或下调了多少倍的标准差 (X-mean)/SD。此处反应的是OTU的相对丰度变化。通常采用Z-scaore而不是绝对表达量进行热图展示是为了更好的反应变化趋势,也是为了规避数据表中数值区间变化较大时导致的热图中颜色分配不均匀和颜色区分度变弱的影响。在R语言 - 热图美化中讲述过其如何获得和用途是什么。

  • 原文描述:

    Heatmap showing the relative abundances of the top 23 age-predictive biomarker bacterial classes against rice residence time in the field.

  • 来源文章链接:

    http://engine.scichina.com/publisher/scp/journal/SCLS/61/6/10.1007/s11427-018-9284-4?slug=fulltext

Metaphlan2获得的宏基因组物种丰度图谱

图中每一行代表一种菌或菌群,每一列是一个样品。从整体来看,图中大致有4个比较亮的区域代表在对应样品中表达丰度高的4个菌群集合。结合列层级聚类图来看,4个高丰度菌群集合分别来自于4组样品(对应于分支图的蓝、绿、红、黄)。最左侧蓝色分支所在大支构成复杂一些,可能是样品异质性导致。

列注释还展示了样品的属性信息包括Visit number, Body site, Gender, Dataset。从图中可以看出,不同数据集来源的数据在聚类后分布均匀,没体现出数据来源偏好性即可以认为批次效应影响不大。性别的影响也不大。Body site的分布与聚类相似度比较高,对于这个的解释需要看原文-MetaPhlAn2 for enhanced metagenomic taxonomic profiling中图形标题和正文的描述了。

  • 原文描述:

    MetaPhlAn2 characterization of all skin shotgun metagenomes available to date from the HMP and newly sequenced samples.

  • 来源文章链接:

    https://www.nature.com/articles/nmeth.3589?proof=true

样本相关性热图

样本相关性热图为对称热图,每个单元格代表一个相关性值,具体是哪种类型的相关性可从图例 (Legend)获取。一般结合层级聚类展示,样品相似度高的聚在一起。同时标记样品自身的分组、处理信息,查看样品聚类结果是否与生物分组吻合、差别在哪、各个生物重复的一致性怎么样、各个生物重复是与自己组的样品一致性高还是与其它组样品一致性高,这些可以反映处理的批次的影响和样品质量的好坏。

下图来源于一篇Cell文章 ——Clustered Spearman correlation matrix for different RNA-seq replicates for no treatment and KLA 1h,其主旨是比较不同品系小鼠对基因表达和转录因子结合研究的影响差异有多大。图中展示了不同品系小鼠的野生型和KLA处理组基因表达谱Spearman相似性热图。从对角线处的16-宫格可以看出,小鼠品系比处理方式对表达量的影响更大。

  • 原文描述:

    Clustered Spearman correlation matrix for different RNA-seq replicates for no treatment and KLA 1h.

  • 来源文章链接:

    https://www.ncbi.nlm.nih.gov/pmc/articles/PMC6003872/

OTU与表型相关性热图

下图展示的是糖尿病人的菌群(OTU)和检测指标之间的Spearman相关性。

每一列代表一种菌,每一行是一个临床检测指标。

蓝色是负相关,红色是正相关。

写文章时就可以看图说话,解释为什么一些菌跟一些指标正相关,跟其他指标负相关,其潜在生物影响和意义是什么。

方格中标记的数值代表P-value

  • 原文描述:

    Association between differentially abundant OTUs and clinical biomarkers relevant for diabetes in the total group of 268 individuals. The taxa names indicate the lowest taxonomic affiliation available for the OTUs in the Greengenes database.The colour key indicates Spearman’s ρ and the numbers in the cells represent p values <0.05. Spearman’s ρ and associated p values.

  • 来源文章链接:

    https://link.springer.com/article/10.1007/s00125-018-4550-1#Fig3

GSEA富集结果的热图展示

GSEA富集分析有其经典展示方式,具体见一文掌握GSEA,超详细教程。但如果要展示的富集条目很多,样品也很多时,热图不失为一个很好的方式。

热图中每一行代表一个富集的GO条目,每一列为一种癌症样品;

颜色表示标准化富集分数(normalized enrichment score)(也可以展示表示富集显著性的FDR值)。

GSEA富集是针对每个癌症样品中的基因与Myc/MycN表达的相关性进行的分析。

考虑到多重假设检验的问题,在GSEA分析前,先对GO条目根据其包含的基因集的重合度进行了去重。

(保留的条目基因集重合小于75%) 。

  • 原文描述:

    Heatmap shows clustering of tumor types based on top 100 most positively correlated gene sets from gene ontology molecular function category for MYC. the heatmap is colored by the normalized enrichment score of a gene set for a tumor type. Gray cells indicate lack of enrichment. Dots below tumor type denote high MYC amplification, while plus signs denote high mRNA expression. Blue lines on the heatmaps mark gene sets corresponding to the canonical MYC signature, orange lines correspond to the non-canonical MYC signature, and yellow lines correspond to neuronal function, found in MYCN only. Tables contain main gene sets found in each cluster category. One asterisk marks a WNT signaling gene set, and two asterisks mark a metabolic gene set.

  • 来源文章链接:

    https://www.sciencedirect.com/science/article/pii/S2405471218300978#fig6

热图绘制

统计图就是把数据映射到几何形状如点、线、柱的美学属性如颜色、大小、形状上。这是理解图的关键,也是画图的关键。热图绘制需要的数据与最后呈现的热图一般是一致的,数据中每一行对应于热图中每一行,数据中每一列对应于热图每一列。如果做了聚类分析,顺序可能会变。


最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 157,198评论 4 359
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 66,663评论 1 290
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 106,985评论 0 237
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 43,673评论 0 202
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 51,994评论 3 285
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 40,399评论 1 211
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 31,717评论 2 310
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 30,407评论 0 194
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 34,112评论 1 239
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 30,371评论 2 241
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 31,891评论 1 256
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 28,255评论 2 250
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 32,881评论 3 233
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 26,010评论 0 8
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 26,764评论 0 192
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 35,412评论 2 269
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 35,299评论 2 260