0923 chapter 5

几个术语

变量、值、观测、表格数据

5.3 变动

条形图:分类变量geom_bar
直方图:连续变量(直方图对x轴进行等宽分箱)geom_histogram
典型值
异常值(确定异常值的原因)

p70练习题

1.

首先把x,y,z换个名字

mutate(id = row_number()) %>%
+     select(x, y, z, id) %>%
+     gather(variable, value, -id)  %>%
+     ggplot(aes(x = value)) +
+     geom_density() +
+     geom_rug() +
+     facet_grid(variable ~ .)

把geom_rug去掉图形好像也没差。

2.

ggplot(diamonds, aes(x = price)) +
      geom_histogram(binwidth = 10)

3.

0.99 克拉的有23个,1克拉的有1558个,1克拉的比0.99克拉的多得多
凑整吧

4.

coord_cartesian() 是在计算并绘制图表后,放大特定区间。所以图形不受影响。
但是,xlim() and ylim()函数是在计算柱状图分箱前发挥作用,所以在限制值之外的 观测值被丢弃后,再计算分箱。

ggplot(diamonds) +
  geom_histogram(mapping = aes(x = price)) +
  coord_cartesian(xlim = c(100, 5000), ylim = c(0, 3000))
ggplot(diamonds) +
  geom_histogram(mapping = aes(x = price)) +
  xlim(100, 5000) +
  ylim(0, 3000)

5.4 缺失值

代替异常数值

diamonds2 <- diamonds %>%
mutate (y = ifelse(y < 3 | y >20,NA, y))

ifelse(test,yes,false)三个参数

p72练习

  1. 直方图中,缺失值直接被丢弃。条形图中,缺失值是被当成另一个分类的。
  2. 缺失值在计算之前被丢弃

5.5 相关变动

coord_flip() 图形旋转90度
geom_tile()
geom_bin2d() (长方形分箱)和 geom_hex()(六边形分享),将坐标平面分为二维分箱
cut_width(x,width),将x分成width的分箱,varwidth = TRUE,箱线图宽度与观测数量成正比。

5.6 模式与模型

推荐阅读更多精彩内容