跟十分文章学做图

一千个读者有一千个哈姆雷特。对于文献的阅读同样也是的,我们在阅读文献之前都是带着各种目的去阅读的。比如需要写一篇综述,那阅读文献的时候,主要是来想要知道这篇文献目前的结论是什么;又比如想要学习文章的整体思路进而来丰富自己的课题方向。当然文章里面有图片,如果一个文章图片做的好的话,也是值得我们学习的。上周我们解读了一篇代谢反应轴的高通量分析文献。笔者发现,这个文章当中的图片很好的。所以这里就从做图的角度来学习一下这个文献。

image

关于绘图的理解,好多都是在<数据可视化基础>当中提到了。有兴趣的可以了解一下。

1.散点图点的处理问题

对于一个散点图而言。整个图形是通过很多的点来对数据进行可视化的。但是如果点太多的话,就容易出现点与点之间的重叠的问题。这个时候,处理这种可视化的最好的方法就是,把数据点进行一定的透明化处理,同时对数据点加上一定的抖动

具体可以参考: <处理重叠的点>

在文章的figure 1B当中。作者就进行了这样的处理。可以明显的看到在重叠的点的地方是有一定的透明度的(至于数据有点有没有加抖动这个就看不出来了)。同时图片为了把更好的说明四个亚型的分型标准,分别在表达量都为0的地方加了辅助线。

image

2.相同变量的颜色编码全篇保持一致

一篇文章会有很多个图片。这些图片之间可能包括一些相同的元素。在对相同元素进行颜色标注的时候,保持图片之间的一致性会让读者更好的了解颜色的含义,同时由于由于颜色的一致性,也会省去一些图片对于颜色的说明。

具体可以参考: <多面板图形需要注意的问题>

文章当中的整个figure 1。作者在figure 1B当中对所有样本区分了四个分型。同时在散点图当中不同的分型标注了不同的颜色。因此在整个文章当中,作者就自始至终使用了相同的颜色搭配来代表这四个分型。例如 整个figure 1B, 1C, 1D都是这样的颜色搭配。

image

不止是同一个图片当中,在后续的图片当中也使用的是这样的颜色搭配。例如figure 4A。

image

这样使用相同配色的好处就是,对于颜色的解释。其实只需要一遍说明就行。同样的在figure1当中在B当中已经标注了各个颜色代表什么意思了。所以在D图当中就没有标注出了各个颜色的生存曲线是什么。

image

3. 使用颜色来表达数据值

我们在绘制热图的时候,明白可以使用颜色来表达数据值。颜色越深代表数据值越大。例如figure 1B的热图就是通过颜色来表达数据值的。

image

这类的,属于常规都会用的。还有一种是虽然是分类变量,但是具有一定的等级关系。也可以使用渐变的颜色的。例如figure 1B。图中的三个变量,分别表示两个基因拷贝数扩增与否。在没有扩增、一个扩增和都扩增三个变量的散点图中。作者就赋予了逐渐加深的红色。

关于图片的配色,可以参照: <颜色标度>

image

4. 图片当中网格线的使用

如果是使用R语言当着的ggplot2做图的话。默认的图形是包括网络线的。网络线的是使用可以让读者很容易对照出数据所在的位置。但是对于横向和纵向的网格线而言,并不是所有的图片都需要使用的。一般而言,我们想要比较哪个方向的数据。就再哪个方向使用。

例如在散点图当中,往往需要比较X和Y的数据点,所以作者添加了横向和纵向的两个方向的网络线。而在柱状图和条形图当中,往往X轴都是固定的。所以就作者也就只是添加了横向的网络线了。

image

关于网络线的使用,可以参考<平衡数据和图片上文字>

好了,以上就是笔者能想到的一些一些点子。当然还有一些其他的比如说,使用淡色来表示无关的信息, 正确数据类型使用正确的图形等等。作者肯定也做的特别好。最后,如果对数据可视化感兴趣的。可以看一下我们翻译的<数据可视化基础>的系列贴哈。

推荐阅读更多精彩内容