《ggplot2:数据分析与图形艺术》笔记2:从qplot开始入门

1.什么是qplot

qplot的意思是quick plot(快速作图),利用qplot我们可以非常方便地绘制各种图形。有时在其他作图系统中需要好几行代码才能搞定的事情,在qplot()中只需要一行代码就可以搞定。

通过?qplot()命令查看qplot()的帮助文档:
使用方法:
qplot(x, y = NULL, ..., data, facets = NULL, margins = FALSE,
geom = "auto", xlim = c(NA, NA), ylim = c(NA, NA), log = "",
main = NULL, xlab = deparse(substitute(x)),
ylab = deparse(substitute(y)), asp = NA, stat = NULL, position = NULL)

参数:
x, y :定义x轴和y轴
data:制定作图的数据集
facets:分面
margins:
xlim,ylim:设置x轴和y轴的显示区间,如xlim=c(0,20),ylim=c(-0.9,-0.5)
geom:定义几何对象
log:指定哪一个坐标轴应该取对数,log="x"表明x轴取对数,log="xy"说明xy同时取对数
main:图形的主标题,放置在图形顶端中部,以大号字体显示。如main="plot tittle"
xlab,ylab:设置x轴和y轴的标签文字

2.数据集准备

使用ggplot2中自带的一个叫做diamonds的数据集,里面包含了月5400颗钻石的价格和质量信息。示例如下:


01.jpg

为了方便示例,随机截取diamonds中的100个样本:

set.seed(1410) #使每次产生的随机数相同
dsmall <- diamonds[sample(nrow(diamonds), 100),]

3.一个简单的例子:绘制一张散点图

在Rstudio中输入下面的代码,画一张以carat为x轴price为y轴的散点图:

qplot(carat, price, data = diamonds)
02.jpg

qplot支持将变量的函数作为参数,下面画一张log(carat)对log(price)的图:

qplot(log(carat), log(price), data = diamonds)
03.jpg

画一张重量对体积(近似以xyz表示)的图:

qplot(carat, x*y*z, data = diamonds)
04.jpg

4.图形属性

在qplot中可以设置图形属性,以更形象地展示图形中的信息,常用的图形属性包括形状(shape)、颜色(colour)、大小(size)、透明度(alpha)等。

qplot(carat, price, data = dsmall) #不设置图形属性
qplot(carat, price, data = dsmall, colour = color) #设置color的颜色属性
qplot(carat, price, data = dsmall, shape = cut) #设置cut的形状属性
qplot(carat, price, data = dsmall, colour = color,shape = cut) #设置color的颜色属性,同时设置设置cut的形状属性

不设置图形属性:

05.jpg

设置color的颜色属性:

06.jpg

设置cut的形状属性:

07.jpg

设置color的颜色属性,同时设置设置cut的形状属性:

08.jpg

图形属性的手动设置

在上面的例子中,图形属性都是采用ggplot2的默认值,其实,我们可以通过I()自己设定图形属性。

qplot(carat, price, data = dsmall, colour = I("red"))#手动设置图形的颜色属性
09.jpg
#手动设置图形的透明度属性,分母越小,透明度越大,通过设置透明度可以查看数据密集的区域
qplot(carat, price, data = diamonds, alpha = I(1/10))
qplot(carat, price, data = diamonds, alpha = I(1/100))
qplot(carat, price, data = diamonds, alpha = I(1/200))

设置alpha为1/10:

10.jpg

设置alpha为1/100:
11.jpg

设置alpha为1/200:

12.jpg

5.几何对象

在ggplot2中,几何对象描述了应该用何种对象对数据进行展示,其中一些几何对象还关联了相应的统计变换。通过改变几何对象,我们几乎可以画出任何形式的图。

下面展示一些常用的几何对象:

展示二维的变量关系:

  • geom = "point":用于绘制散点图,当我们指定x轴和y轴后,ggplot2默认绘制散点图
  • geom = "smooth":你和一条平滑曲线,并将曲线和标准误展示在图中
  • geom = "boxplot":绘制箱线图,用于展示一系列点的分布情况
  • geom = "jitter":绘制扰动图,用于展示一系列点的分布情况
  • geom = "path"和geom = "line":在数据的点之间绘制连线,线条图(line)只能从创建从左到右的连线,而路径图(path)根据点在统计表格中的顺序进行连线。

展示一维的变量关系:
对于一维分布,几何对象的选择是根据变量的类型而指定的。

  • 对于连续变量:geom = "histogram"绘制直方图,geom = "freqpoly"绘制频率多边形,geom = "density"绘制密度曲线。如果不指定几何对象,ggplot默认绘制直方图。
  • 对于离散变量:geom = "bar"绘制条形图。

向点图中添加平滑曲线

用途:如果散点图中有非常多的数据点,在展示数据时,数据的变化趋势可能并不明显,这时我们可以在图中添加一条平滑曲线,用来更清楚地展示数据的变化趋势。

#添加平滑曲线
qplot(carat, price, data = diamonds, geom = c("point","smooth"))
qplot(carat, price, data = dsmall, geom = c("point","smooth"))
qplot(carat, price, data = dsmall, geom = c("point","smooth"),se = FALSE) #不使用标准误

作图效果依次如下:
绘制diamonds的平滑曲线:


13.jpg

绘制dsmall的平滑曲线:


14.jpg

绘制dsmall的平滑曲线,并去掉标准差:


15.jpg

不同平滑器的选择:
在拟合平滑曲线时,可以通过method来选择不同的平滑器。

  • 当数据量较小时(<1000),默认method = "loess",使用局部回归的方法绘制平滑曲线。可通过span参数控制平滑度,取值范围从0(很不平滑)到1(很平滑)。
  • 当数据量大于1000时,默认使用method = "gam"拟合平滑线。

箱线图和扰动图

用途:如果一个数据集中包含了一个分类变量和一个或多个连续变量,可以通过箱线图和扰动图显示连续变量是如何随着分类变量水平的变化而变化的。

#使用箱线图和扰动图显示钻石的价格如何随着颜色的变化而变化
qplot(color, price/carat, data = diamonds, geom = "boxplot") #箱线图
qplot(color, price/carat, data = diamonds, geom = "jitter") #扰动图

箱线图:


16.jpg

扰动图:


17.jpg

通过改变扰动图的透明度,展示数据点集中的部分:

qplot(color, price/carat, data = diamonds, geom = "jitter", alpha = I(1/5)) #扰动图,透明度为1/5
qplot(color, price/carat, data = diamonds, geom = "jitter", alpha = I(1/50)) #扰动图,透明度为1/50
qplot(color, price/carat, data = diamonds, geom = "jitter", alpha = I(1/200)) #扰动图,透明度为1/200

透明度为1/5:


18.jpg

透明度为1/50:


19.jpg

透明度为1/200:


20.jpg

箱线图和扰动图的比较

  • 扰动图可将所有的点绘制到图中,重叠比较严重,可通过调节透明度部分解决重叠问题。可调控size、colour、shape等图形属性。
  • 箱线图使用数据的五个统计量(最小值,第一四分位数、中位数、第三四分位数和最大值)对对数据进行概括,可参考的统计值更多。可用colour控制外框线的颜色,用fill设置填充颜色,用size调节线的粗细。

直方图和密度图

用途:直方图和密度曲线图可以展示单个变量的分布,相对于箱线图而言,它们提供了更多的关于单个分布的信息,但不容易在不同组之间进行比较。

qplot(carat, data = diamonds, geom = "histogram") #直方图
qplot(carat, data = diamonds, geom = "density")  #密度曲线图

直方图:


21.jpg

密度曲线图:


22.jpg

平滑度的调整:

  • 直方图:通过binwidth调节组距,来调节平滑度。
  • 密度曲线图:使用adjust参数控制曲线的平滑度,adjust取值越大,曲线越平滑。
#直方图,binwidth=1
qplot(carat, data = diamonds, geom = "histogram", binwidth = 1) 
#直方图,binwidth=0.1
qplot(carat, data = diamonds, geom = "histogram", binwidth = 0.1) 
#直方图,binwidth=0.01
qplot(carat, data = diamonds, geom = "histogram", binwidth = 0.01) 

直方图,binwidth=1


23.jpg

直方图,binwidth=0.1


24.jpg

直方图,binwidth=0.01


25.jpg
#密度曲线图, adjust = 1
qplot(carat, data = diamonds, geom = "density", adjust = 1)  
#密度曲线图, adjust = 0.1
qplot(carat, data = diamonds, geom = "density", adjust = 0.1)  
#密度曲线图, adjust = 0.01
qplot(carat, data = diamonds, geom = "density", adjust = 0.01) 

密度曲线图, adjust = 1:


26.jpg

密度曲线图, adjust = 0.1:


27.jpg

密度曲线图, adjust = 0.01:


28.jpg

要在不同组之间进行分布对比,只需要再添加一个图形映射即可:

#直方图,binwidth=1,通过填充颜色比较钻石颜色分组
qplot(carat, data = diamonds, geom = "histogram", binwidth = 1, fill = color) 
#密度曲线图, adjust = 1,通过线条颜色比较钻石颜色分组
qplot(carat, data = diamonds, geom = "density", adjust = 1, colour = color) 

直方图,binwidth=1,通过填充颜色比较钻石颜色分组:


29.jpg

密度曲线图, adjust = 1,通过线条颜色比较钻石颜色分组:


30.jpg

条形图

用途:使用条形图统计并展示每一个水平下的观测数量。在离散型变量的情况下,条形图和直方图呈现的结果相似。

#绘制钻石颜色的条形图
qplot(color, data = diamonds, geom = "bar")
31.jpg

时间序列中的线条图和路径图

用途:线条图和路径图通常用于可视化时间序列数据。线条图将点从左向右依次连接,而路径图按照点在数据集中出现的顺序进行连接。

下面使用ggplot2中自带的economics数据集进行演示,它包含了美国40年的经济数据。

#绘制失业率(unemploy/pop)和时间变化关系的线条图
qplot(date, unemploy/pop, data = economics, geom = "line")
32.jpg
#绘制失业率(unemploy/pop)和失业星期中位数(uempmed)变化关系的路径图
qplot(uempmed, unemploy/pop, data = economics, geom = "path")
#绘制失业率(unemploy/pop)和失业星期中位数(uempmed)变化关系的路径图,加上点
qplot(uempmed, unemploy/pop, data = economics, geom = c("point", "path"))
#绘制失业率(unemploy/pop)和失业星期中位数(uempmed)变化关系的路径图,加上点,年份映射上颜色
qplot(uempmed, unemploy/pop, data = economics, geom = c("point", "path"), colour = date)

绘制失业率(unemploy/pop)和失业星期中位数(uempmed)变化关系的路径图:


33.jpg

绘制失业率(unemploy/pop)和失业星期中位数(uempmed)变化关系的路径图,加上点:


34.jpg

绘制失业率(unemploy/pop)和失业星期中位数(uempmed)变化关系的路径图,加上点,年份映射上颜色:


35.jpg

分面

在前面的例子中,我们已经介绍过,可以使用图形属性(颜色和形状)来比较不同的分组,可以将所有的组绘制在一张图中。此外,分面也可以实现相同的功能,它将数据分隔成若干子集,然后创建一个图形的矩阵,将每一个子集绘制到图形矩阵的窗格中;所有子图采用相同的图形类型,并进行了一定的设计,使得他们之间可以进行方便的比较。

#以carat为x轴,并以color创建分面,将频数映射的y轴
qplot(carat, data = diamonds, facets = color ~.,
      geom = "histogram", binwidth = 0.1, xlim = c(0,3))
#以carat为x轴,并以color创建分面,将密度映射的y轴
qplot(carat, ..density.., data = diamonds, facets = color ~.,
      geom = "histogram", binwidth = 0.1, xlim = c(0,3))

以carat为x轴,并以color创建分面,将频数映射的y轴:


Rplot01.png

以carat为x轴,并以color创建分面,将密度映射的y轴:

Rplot3.png
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 158,847评论 4 362
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 67,208评论 1 292
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 108,587评论 0 243
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 43,942评论 0 205
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 52,332评论 3 287
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 40,587评论 1 218
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 31,853评论 2 312
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 30,568评论 0 198
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 34,273评论 1 242
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 30,542评论 2 246
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 32,033评论 1 260
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 28,373评论 2 253
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 33,031评论 3 236
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 26,073评论 0 8
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 26,830评论 0 195
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 35,628评论 2 274
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 35,537评论 2 269

推荐阅读更多精彩内容