R语言转录组分析-GEO数据库下载及Illumina数据处理

、简单认识一下GEO数据库

入口:在NCBI主页 http://www.ncbi.nlm.nih.gov/ 的搜索入口输入关键字,比如某个基因或某个疾病,选择数据类型为GEO DataSets。如果想直接看某个基因在一些不同的GEO数据集中表达量,可以直接选择数据类型为GEO Profiles。

详细的页面介绍,搜索方法,参数设置,数据介绍可以看这里https://www.omicsclass.com/article/1101

GEO Platform (GPL) 芯片平台 样品记录描述了处理单个样品的条件,它经历的操作以及从中得到的每个元素的丰度测量。每个样品记录都分配有唯一且稳定的GEO登录号(GSMxxx)。Sample实体必须仅引用一个Platform,可以包含在多个Series中。

GEO Sample (GSM) 样本ID号 样品记录描述了处理单个样品的条件,它经历的操作以及从中得到的每个元素的丰度测量。每个样品记录都分配有唯一且稳定的GEO登录号(GSMxxx)。Sample实体必须仅引用一个Platform,可以包含在多个Series中。

GEO Series (GSE) study的ID号 系列记录定义了一组被认为是组的一部分的相关样本,样本如何相关,以及它们是否以及如何排序。A系列提供了整个实验的焦点和描述。系列记录还可能包含描述提取数据,摘要结论或分析的表格。每个系列记录都分配有唯一且稳定的GEO登记号(GSExxx)。系列记录有几种格式,由GEOquery独立处理。较小的和新的GSEMatrix文件解析起来非常快; GEOquery使用一个简单的标志来选择使用GSEMatrix文件

GEO Dataset (GDS) 数据集的ID号 GEO DataSet(GDSxxx)是GEO样本数据的精选集合。GDS记录代表了一系列具有生物学和统计学意义的GEO样本,构成了GEO数据显示和分析工具套件的基础。GDS中的样本指的是同一个平台,也就是说,它们共享一组共同的探测元素。假设GDS中每个样本的值测量值以等效方式计算,即背景处理和标准化等考虑因素在整个数据集中是一致的。通过GDS子集提供反映实验设计的信息。

二、下载GEO数据

1. 用GEOquery包下载

#安装并加载GEOquery包**

**BiocManager::install('devtools')**

**library(GEOquery)**

**#在平台找好数据库,找到GSE编号,destdir设置当前目录,getGPL 和AnnotGPL都设置TRUE,可以下载和获得平台的注释文件**

**gse=getGEO("GSE29250",GSEMatrix = TRUE,destdir = ".",getGPL = T,AnnotGPL = T)**

下载完以后要查看数据集里的包含的实验信息、分组、数据处理等可以看这个翻译过的GEOquery包的说明书。https://www.jianshu.com/p/0d32fd410bcf

2. 网页直接下载

在NCBI上找到自己想要的数据集,可以在页面上看一下摘要、实验设计、数据分组。如果不是从文献中看到找的数据集,还可以看一下应用这个数据集的文献里做了哪些图,有哪些发现。

image

GSE提供的下载文件,包括SOFT文件,MINiML文件,Series Matrix File(s)以及原始数据文件,数据分析时,我们会用到Series Matrix File(s)文件或者原始数据。

image

具体的数据文件介绍先参考这个学习。

https://www.jianshu.com/p/74d570cb8c29

三、Illumina数据初步处理

这次先试了用R包直接下serise matrix中的数据集文件,打开看数据的时候发现数据里面有负数,还有很多1000多的极大值,应该是经过了各种数据预处理还有标准化之类的操作,但是看不明白作者处理数据用的方法。并且发现用的探针平台是Illumina的,Illumina出厂的表达芯片跟affymetrix系列芯片的分析方法不太一样。不懂! 看Jimmy大神对Illumina平台的介绍。www.biotrainee.com/thread-899-1-1.html

Illumina的原始数据有3个层级

GEO中给的原始数据一般来说是表中的第一个summary-level(c)数据,non bacground corrected, non normalized。然后给的是一个叫做sample probe profile 的数据,我们这找的是类似non-normalized.txt.gz名字的文件。

image

于是重新手动从网页下载好了non-normalized数据文件,按照Jimmy大神的Illumina数据处理教程,http://www.bio-info-trainee.com/1944.html 进行数据处理。

首先看一下我下载的数据,probeid ID, summarized expression level(AVG_Signal) 就是几个样本的表达量, a detection p-value(Dectection Pval) ,这些内容的含义在下图。

image

image

“对数据进行背景矫正以及标准化如分位数标准化的时候,一般还会有第二个文件control probe profile,一般这个文件GEO里边不会提供,因此文档中说也不是必须的。这个时候就需要用到这个dectection pval这一列来进行背景矫正以及标准化处理”

我的这个数据集有4个样本,但是下载得到的数据文件中每个样本的Dectection Pval的表头都是一样的,导致后面读取文件的一直报错,把这几个Dectection Pval表头分别加上其样品的后缀就能读取了。但是后面进行背景矫正以及标准化处理的时候也没给它指定哪个Dectection Pval对应哪个样本,不知道是不是直接按顺序来算的,反正是跑通了。

开始在R上加载文件分析数据

#安装并加载limma包,安装失败了好多次才装上,心累!

library(limma)

BiocManager::install('limma')

 #装不上包的时候多搜索一下,多试一下加一些参数,虽然不懂啥意思

BiocManager::install("scran", dependencies=TRUE, INSTALL_opts = c('--no-lock'))

#读取illumina的芯片结果文件,用R的lumi包来获取表达矩阵。

x <- read.ilmn("GSE40486-non-normalized.txt",expr="MUS",probeid="ID_REF",other.columns="Detection Pval")

y <- neqc(x,detection.p="Detection Pval") #背景矫正并且分位数标准化

y <- nec(x,detection.p="Detection Pval")#只有背景校正

expdata <- y$E

expdata

boxplot(data.frame(expdata),col="blue") ## 画箱式图,比较数据分布情况

exprSet=log2(expdata+1) #数据转化

exprSet

boxplot(data.frame(exprSet),col="blue") ## 画箱式图,比较数据分布情况

exprSet=normalizeBetweenArrays(exprSet)#数据标准化

boxplot(data.frame(exprSet),col="blue")## 画箱式图,比较数据分布情况
image

Jimmy大神说 芯片数据质量控制结合了,N,T,B,Q(normalization,transformation,backgroud correction,qulity control)四个步骤,其中Q这个步骤又包括8种统计学方法。

这里用到了normalization ,transformation, backgroud correction, 这三个,还没有qulity control,不知道这几个步骤的顺序有没有要求。这里我用的顺序是试着backgroud correction,transformation,normalization。试着跑了一下backgroud correction,normalization,transformation的顺序,发现这样得到的箱线图就不在一条水平线上了,需要在重新一次normalization才能在一条水平线上。需要学习数据质量控制的统计学知识。

最后看到箱式图看起来几个样品的数据总体在一条水平线上。不知道有没有其他的判断数据是否处理好的指标。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 159,015评论 4 362
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 67,262评论 1 292
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 108,727评论 0 243
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 43,986评论 0 205
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 52,363评论 3 287
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 40,610评论 1 219
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 31,871评论 2 312
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 30,582评论 0 198
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 34,297评论 1 242
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 30,551评论 2 246
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 32,053评论 1 260
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 28,385评论 2 253
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 33,035评论 3 236
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 26,079评论 0 8
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 26,841评论 0 195
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 35,648评论 2 274
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 35,550评论 2 270