可视化:scatterplot

  今天继续分享生信分析中常见的图形 -- scatterplot。散点图属于单纯靠谱的图形,这性格特点还是很容易理解的,这里就不多说了,下面展示如何用ggplot2绘制漂亮的散点图。

示例数据

  下面绘图使用的数据集 corruption 来自 R 包practicalgg ,如果安装了该包可以直接使用,没有安装的话可以直接从github上下载:https://github.com/wilkelab/practicalgg/tree/master/data/corruption.rda。由于本人没有安装该包,直接下载数据使用。

library(tidyverse)

load('corruption.rda')
corrupt <- corruption %>% filter(year == 2015) %>% na.omit() %>% mutate(region = case_when(
           region == "Middle East and North Africa" ~ "Middle East\nand North Africa",
           region == "Europe and Central Asia" ~ "Europe and\nCentral Asia",
           region == "Sub Saharan Africa" ~ "Sub-Saharan\nAfrica", TRUE ~ region))

country_label <- c("Germany", "Norway", "United States", "Greece", 
                   "Singapore", "Rwanda", "Russia", "Venezuela", "Sudan", 
                   "Iraq", "Ghana", "Niger", "Chad", "Kuwait", "Qatar", 
                   "Myanmar", "Nepal", "Chile", "Argentina", "Japan", "China")

corrupt <- corrupt %>% mutate(label = ifelse(country %in% country_label , country, ""))

  绘图选择了一部分数据(2015年),并进行了一些预处理,如去除缺失值,将长的region字段添加换行符方便在图上显示。为了在图上标识想关注的数据点,给数据集添加了一列标签列。添加标签列时,有个小技巧,给需要关注的数据添加标签,不想关注的数据添加空字符串即可。

绘图

  废话不多说,先看绘图代码:

library(ggplot2)
library(ggrepel)

colors <- c("#E69F00", "#56B4E9", "#009E73", "#F0E442", "#0072B2", "#999999")

p <- ggplot(corrupt, aes(cpi, hdi, color = region, fill = region)) + 
            geom_point(size = 2.5, alpha = 0.5, shape = 21) + 
            geom_smooth(aes(color = "y ~ log(x)", fill = "y ~ log(x)"), method = "lm", formula = y~log(x), se = FALSE, fullrange = T)  +
            geom_text_repel(aes(label = label), color = "black", size = 9/.pt, 
            point.padding = 0.1, box.padding = 0.6, min.segment.length = 0, max.overlaps = 1000, seed = 7654) +
            scale_color_manual(name = NULL, values = colors) +
            scale_fill_manual(name = NULL, values = colors) +
            scale_x_continuous(name = "Corruption Perceptions Index, 2015 (100 = least corrupt)", limits = c(10, 95), breaks = c(20, 40, 60, 80, 100), expand = c(0, 0)) +
            scale_y_continuous(name = "Human Development Index, 2015\n(1.0 = most developed)", limits = c(0.3, 1.05), breaks = c(0.2, 0.4, 0.6, 0.8, 1.0), expand = c(0, 0)) +
            guides(color = guide_legend(nrow = 1, override.aes = list(linetype = c(rep(0, 5), 1), shape = c(rep(21, 5), NA)))) +
            theme_bw() + 
            theme(legend.position = "top", legend.justification = "right", legend.text = element_text(size = 9), legend.box.spacing = unit(0, "pt"), legend.key = element_blank())
p

结果如下:

  整个绘图过程都是基于ggplot2语法,其中添加标签使用的是ggrepel包里面的geom_text_repel函数。绘图过程虽然不难,但有一点还是想说明一下,这里的图例经过了单独修改。通常我们绘制散点图时,正常的图例应该只有圆点,不会显示拟合线。这里在图例中特别添加了一下拟合线。
  绘制散点图还有一个很好的补充性R包 -- scattermore,该包支持ggplot2语法绘图,我们可以结合ggplot2来使用。什么情况下用这个包呢?当然,我也只是用了这个包的一个功能,将图中所有独立的点变成一个整体。通常绘图完成后,我们保存为pdf格式这样的矢量图,方便后续用photoshopAI等工具进行细致编辑。若图中的点特别多如火山图,这时用工具打开这样像素点特别多的图就有些吃设配的配置了,配置低的话编辑起来会卡顿。故想后续编辑方便,可以结合scattermore包来画图,使用起来也很简单,只需将代码geom_point替换为geom_scattermore即可。

往期绘图

可视化:barplot
可视化:泡泡图
可视化:嵌套饼图
可视化:环状条形图
可视化:分组环状条形图
可视化:小提琴图
可视化:蜜蜂图

推荐阅读更多精彩内容