如何使用R的apply

由于R语言的apply家族函数是用C写的,所以使用apply进行遍历的执行效率远远高于自己编写的循环语句。

函数介绍

apply的用法很简单:

apply(X, MARGIN, FUN, ...)

X: 是一个数组(array),也就是说输入必须都是相同类型的数据,要么都是数值型,要么都是字符型。如果是一个混合数据类型的data.frame,那么就会尝试用as.matrix强制转换数据

MARGIN:表示对行(1)或者是对列(2)应用函数。

FUN: 可是R自带函数,如mean,sum等。也可以是自己编写的函数。

...: 是FUN中的额外参数

简单案例

首先创建一个2行4列的矩阵。

ma <- matrix(c(1:4, 1, 6:8), nrow = 2)
> ma
     [,1] [,2] [,3] [,4]
[1,]    1    3    1    7
[2,]    2    4    6    8

对每一行求平均

> apply(ma,1,mean)
[1] 3 5

相当于

mean(ma[1,]) # 3
mean(ma[2,]) # 5

对每一列求平均

> apply(ma,2,mean)
[1] 1.5 3.5 3.5 7.5

相当于:

mean(ma[,1]) # 1.5
mean(ma[,2]) # 3.5
...

PS:于是我发现MARGIN的1对应ma[x,y]的x,MARGIN的2对应[x,y]的y.

进阶:...的作用

用法说明中,...适用于为函数的提供额外参数。具体的说就是如果一个函数有多个参数,那么...就是负责传入除了一个个参数以外的其他参数。
比如说mean(x, trim = 0, na.rm = FALSE, ...),就有一个如何处理na值的参数。

# 手动增加NA值
> ma[1,1] <- NA
> ma
     [,1] [,2] [,3] [,4]
[1,]   NA    3    1    7
[2,]    2    4    6    8

默认情况:

> apply(ma,1,mean)
[1] NA  5

添加参数na.rm=TRUE

> apply(ma,1,mean,na.rm=TRUE)
[1] 3.666667 5.000000

进阶:自定义函数

由于Python用惯了,所以在遍历数组,然后套用多个函数的时候,基本上首先都会想到用for循环。由于在R里面写循环非常低效,所以尽可能使用apply。那么如果在一次循环中涉及到多个运算,就不可能直接用R自带函数。不过好在apply允许我们自己编一个函数。

下面计算一个稍微复杂点的例子,按行循环,让矩阵的第1列加1,并计算出第1和第2列的均值,还有对每一行进行求和。
吐槽:我也不知道为什么要做这些操作,但是是为了演示函数把

ma
     [,1] [,2] [,3] [,4]
[1,]    1    3    1    7
[2,]    2    4    6    8

myfunc <- function(x){
  plusone <- x[1]+1
  mysum <- sum(x)
  mymean <- mean(c(x[1],x[2]))
  return(c(plusone,mysum,mymean))
}

apply(ma,1,myfunc)
     [,1] [,2]
[1,]    2    3
[2,]   12   20
[3,]    2    3

推荐阅读更多精彩内容