整理一下刚接触R时碰过无数次壁后记录的一些笔记,行行笔记都是泪(T▽T)
1、Rstudio常用的快捷键
修改补充自 Rstudio 中常见的快捷键
Alt + Shift + K #查看 Rstudio 中所有的快捷键
Ctrl + Shift + H #手动选择工作目录
Ctrl + Enter #逐行执行script中的命令
Ctrl + Z #返回上一步操作(撤销)
Ctrl + Shift + Z #反撤销
Ctrl + Shift + C #注释或取消注释当前行代码
Ctrl + 2 #移动光标到控制台
Ctrl + L #清除控制台的屏幕内容
Esc #强制结束当前命令的执行(控制台工作区上方红色的"stop"按钮也可以)
Alt + - #直接输入赋值符号 <- 还前后给出空格
Tab 键 #自动补充,或者选择需要补充的东西
Ctrl + 向上箭头 #调出上一条运行的命令(还可以先输入开头,然后再使用快捷键可以找出之前一样开头的代码,进行重新赋值或者修改)
2、以下步骤清空设置好分析环境
rm(list = ls())
options(stringsAsFactors = F)
3、基本设置
- 更新R版本:推荐在RGui中操作
install.packages("installr") #若已安装则可以省略该步
library(installr)
updateR()
- 常用设置
rm(list = ls()) #一键清空环境
rm() #删除对象
getwd() #获得当前工作目录
setwd( ) # 设定当前工作目录
dir() #查看当前目录的子目录和文件
.libPaths() #R包安装路径
?函数 #查看函数帮助
??函数 #在本地搜索函数的帮助文档
example(函数) #函数的使用示例
Sys.Date() #当前日期
date #月份 星期 日期
R.home() ## 查看R的安装目录
R.Version() ## 查看R版本
Sys.getenv("R_HOME") ##查看lib位置
4、R包常规操作
install.packages("ggplot2") #安装
library( ggplot2 ) #载入
require(DESeq2) #载入,并且将会根据包的存在与否返回true或者false
update.packages("ggplot2") #更新
installed.packages() #查看所有安装的包
(.packages()) #查看当前运行的包
detach("package:包名") #卸除包,不加载包
remove.packages("ggplot2") #卸载
packageVersion("dplyr") #查看包dplyr的版本
vignette("clusterProfiler") #查看包clusterProfiler的说明书
#install.packages("devtools")
devtools::install_github("ycphs/openxlsx") #安装github来源包
#install.packages("BiocManager")
BiocManager::install(c("DESeq2","edgeR" ),ask = F,update = F) #安装Bioconductor来源包
## 更新"CRAN", "BioC", "github"所有包
#install.packages("rvcheck")
rvcheck::update_all(check_R = F,
which = c("CRAN", "BioC", "github"))
5、R目录与文件操作
- 创建目录和文件,当创建多级目录时,令recursive = TRUE即可。
save(exprset,file='exp.Rdata') #保存exprset为Rdata文件
dir.create('./tmpdir1')
dir.create('./tmpdir2/1',recursive = T)
file.create('temp','temp2','temp3','tem4') #创建空文件使用
file.rename('tmpdir1','tmpdir') #更改文件名
file.copy('temp2','temp') #用于复制文件
- 查看当前文件夹下文件或子文件夹
list.files( ) #查看当前文件夹下所有文件
list.files(recursive = TRUE) #列出当前工作目录下所有的文件,包含子目录文件
list.files(pattern = ".R") #列出当前工作目录下所有.R结尾的文件
list.dirs() #列出当前工作目录下所有子目录,默认recursive = TRUE
- 判断文件或文件夹是否存在,返回TRUE or FALSE
file.exists()
dir.exists(file.path(getwd(), 'testfolder', 'subfolder'))
- 删除文件、文件夹
unlink(c('temp3','temp2')) #删除多文件
unlink(c('tmpdir2','tmpdir3'),recursive = T) #删除文件夹,如果其中有文件一并删除
file.remove(c('temp3','temp2')) #删除多文件
6、数据的输入和输出
- 基本
source("filename.R") #执行一个脚本
sink("filename",append=T,split=T) #将屏幕文本输出重定向到filename中 , 再输入sink()则关闭输出
#append=T表示文本追加,否则会覆盖,split=T表示同时也显示在屏幕上
pdf("filename.pdf") png("filename.png") #将屏幕图形输出重定向
dev.off() #关闭图形输出,将输出返回到屏幕
- 保存与载入R对象
save(exprset,group_list,file = 'airway.Rdata') #保存测试数据集
save.image(file = "test.RData") #保存当前所有变量
load('airway.Rdata') #载入测试数据集
- 修改文本数据
edit() #修改不保存数据(在操作对象的副本进行编辑)
fix() #修改并保存数据
head( x,n=10 ) #列出前10 (默认是6)
tail( ) #列出后6
7、read.table、read.csv的使用 与 excel文件的读取
参考修改自R语言_read.table()函数用法 - 简书 (jianshu.com)
- 读取
read.table("clipboard") #取电脑里的剪贴板内容或者readClipboard()
read.table("DEG.csv",sep =",", header = T,row.names = 1) 读取csv文件用sep=',' ,常用的还有sep='\t' 分割制表符
read.table('DEG.csv',sep = ',',header = T,skip=750, nrows = 20) skip=750, nrows = 20 组合可以读取751-771行数据
read.csv('DEG.csv',header = T,row.names = 1) read.csv默认 sep=',' ,header = T
- 写入
注意write.table和write.csv默认是写入行与列名字的,注意有时需要row.names = F去除自动添加的行名
write.table(c1,"c1.csv",sep = ',') write.table默认sep = '',write.table建立保存csv文件需要指定sep = ',',
write.csv(c1,file = "c1.csv") write.csv默认sep = ','
- 其他常用参数
header = T 与 row.names = 1 #表示第一行第一列分别设为行列名
comment.char="!" #将!识别为注释内容
fill=T #在没有忽略空白行的情况下(即blank.lines.skip=FLASE),且fill设置为TRUE时,如果数据文件中某行的数据少于其他行,则自动添加空白域。
quote="" #用于指定包围字符型数据的字符。如果不使用引用,设参数为quote=""或quote = F;
#默认下字符串可以被 " 或 ' 括起,对于sep = "\n",默认值为 quote = ""。
- 使用read.xlsx读取xlsx文件 (不过建议还是直接在office里将xlsx转化为csv处理最为方便)
#需要先下载与R相符64位的Java
install.packages("rJava")
install.packages("xlsxjars")
install.packages("xlsx")
Sys.setenv(JAVA_HOME='C:/Program Files/Java/jre1.8.0_301/')
library(rJava)
library(xlsx)
read.xlsx("test.xlsx", 1, startRow = 2, endRow = 5) #工作表序号(1)是必须的
- 下载使用openxlsx包读取xlsx文件相比read.xlsx更加直接方便,不依赖java,不用安装其他依赖包
install.packages("openxlsx")
library(openxlsx)
read.xlsx(xlsxFile = "test.xlsx", sheet = 1, skipEmptyRows = FALSE)
8、因子的使用:
factor()函数能以整数向量的形式存储类别值,默认按字母排序
- 创建名义型向量
dd <- c('a2','b1','a2','b1')
dd <- factor(dd)
- 创建有序型向量,进行排序
status <- c('poor','improved','good','poor','good')
status <- factor(status,ordered = T,
levels = c('poor','improved','good'))
- 数值型变量转化为因子,标签m和f将代替数值在结果中输出
sex <- c(1,2,1,2,2,2,1)
sex <- factor(sex, levels = c(2,1), labels = c("m","f"))
- relevel的使用:
group=relevel(group, g1) #将对照组的因子设置为1
9、日期时间处理 (来自《R语言实战》)
10、get()与assign() ——字符串赋值与分配值
get() #获取与字符串同名的变量值
assign() #为字符串分配特定的变量值
以上命令在使用循环时,对变量进行批量化重命名或者批量化操作变量非常有用!!!
例如在RNA-seq中,要批量循环进行gsea分析时:
# 变量进行批量化重命名
for ( i in c("BP","MF","CC","ALL") ){
GO <- gseGO(geneList = geneList,
ont = i, # "BP"、"MF"和"CC"或"ALL"
OrgDb = org.Mm.eg.db, #人类org.Hs.eg.db 鼠org.Mm.eg.db
keyType = "ENTREZID",
pvalueCutoff = 0.25)
assign(paste0('GO_',i), GO) #自动重命变量,将变量分配给字符串
rm(GO)
}
# 批量化操作变量
for ( i in c('GO_CC','GO_MF','GO_ALL','GO_BP')) {
kk_gse <- get(i) #获取与字符串相同名字的变量值
n <- i #获取字符串名
#### 运行绘图函数
gsea_plot(kk_gse = kk_gse, n = n) #自定义绘图函数
load(file = paste0(n,'_GSEA_kk.Rdata'))
}
其他
- plot画图,如果没有出现所画的图形,要关掉之前开的窗口,再画图
plot(1:10)
png('tmp.png')
dev.off()
plot(1:20)
R中单双引号一般通用。但是双引号里面不能有双引号,单引号里面不能有单引号。
用双引号定义字符串时,里面如果包含双引号字符,那么就要用"来转义;单引号定义字符串时需要用到单引号本身那么就需要用'来转义。
例如:"yi is '1'"
'yi is "1"'
或者用\"
和\'
来转义"yi is\"1\""
'yi is \'1\''
创建矩阵
默认byrow=F, 即默认矩阵按列进行填充
x <- matrix(1:20,nrow = 5,ncol = 4,byrow = T,
dimnames = list(paste0('r',1:5),paste0('c',1:4))
)