2021-06-24 GEO数据库

GEO数据库全称GENE EXPRESSION OMNIBUS，是由美国国立生物技术信息中心NCBI创建并维护的基因表达数据库。它创建于2000年，收录了世界各国研究机构提交的高通量基因表达数据，也就是说只要是目前已经发表的论文，论文中涉及到的基因表达检测的数据都可以通过这个数据库中找到。关键是这个数据是免费的！

NCBI Gene Expression Omnibus（GEO）作为各种高通量实验数据的公共存储库。这些数据包括基于单通道和双通道微阵列的实验，检测mRNA，基因组DNA和蛋白质丰度，以及非阵列技术，如基因表达系列分析（SAGE），质谱蛋白质组学数据和高通量测序数据。

在GEO最基本的组织层面，有四种基本实体类型。前三个（样本，平台和系列）由用户提供; 第四，数据集由GEO工作人员根据用户提交的数据进行编译和策划。

检索

网址：https://www.ncbi.nlm.nih.gov/geo/

或者通过NCBI首页，All Databases下拉框中选择GEO DataSets，输入关键词即可搜索。

这里以检索胃癌（stomach cancer ）的数据为例。

1

1、Entry type有四种:Datasets，Series，Samples，Platforms。这也是GEO主要的四类数据。
1.1 GEO Dataset (GDS)：GDS是人工整理好的关于某个类别的GSM的集合
1.2 GEO Series (GSE)：GSE是一个实验项目中的所有样本的芯片实验数据集合
1.3 GEO Sample (GSM)：GSM是单个样本的实验数据
1.4 GEO Platform (GPL)：GPL是芯片的平台，如Affmetrix, Aglent等
一篇文章可以有一个或者多个GSE数据集，一个GSE里面可以有一个或者多个GSM样本。多个研究的GSM样本可以根据研究目的整合为一个GDS，不过GDS本身用的很少。而每个数据集都有着自己对应的芯片平台，就是GPL。一个GSM可以有多个GSE，每个GSM都会对应其测序平台GPL，GDS一般不接触，我们通常接触的都是GSE系列的数据。

平台:
平台记录描述阵列上的元件列表（例如，cDNA，寡核苷酸探针组，ORF，抗体）或可在该实验中检测和定量的元件列表（例如，SAGE标签，肽）。每个平台记录都分配有唯一且稳定的GEO登录号（GPLxxx）。平台可以引用多个提交者提交的许多样本。
样品:
样品记录描述了处理单个样品的条件，它经历的操作以及从中得到的每个元素的丰度测量。每个样品记录都分配有唯一且稳定的GEO登录号（GSMxxx）。Sample实体必须仅引用一个Platform，可以包含在多个Series中。
系列
系列记录定义了一组被认为是组的一部分的相关样本，样本如何相关，以及它们是否以及如何排序。A系列提供了整个实验的焦点和描述。系列记录还可能包含描述提取数据，摘要结论或分析的表格。每个系列记录都分配有唯一且稳定的GEO登记号（GSExxx）。
数据集
GEO DataSet（GDSxxx）是GEO样本数据的精选集合。GDS记录代表了一系列具有生物学和统计学意义的GEO样本，构成了GEO数据显示和分析工具套件的基础。GDS中的样本指的是同一个平台，也就是说，它们共享一组共同的探测元素。假设GDS中每个样本的值测量值以等效方式计算，即背景处理和标准化等考虑因素在整个数据集中是一致的。通过GDS子集提供反映实验设计的信息。
记住大小关系：一个GDS可以有多个GSM，一个GSM可以有多个GSE，至于GPL，一般不接触，我们通常接触的都是GSE系列（一个GSE里面有多个GSM）的数据。

2
点击Customize ...可以添加指定的物种，也可以直接点击9处进行筛选，一般不是人就是鼠，通常是选择人。

3
通过研究类型进行筛选，比如二代测序转录组数据、chipseq、芯片数据的甲基化，单核苷酸突变等进行筛选。

4
Author是根据作者进行筛选，一般用不到。

5
属性名称，表示数据来自于组织还是特定的细胞类型。

6
Publication dates是指初版日期。点击Custom range...可以进行筛选时间。

7
设置每页显示搜多结果的个数

8
选择排序方式

9
筛选组织来源

10
选择相应的数据库，展示搜索细节

搜索结果

GDS编号检索结果页面，以GDS402为例

GSE编号检索结果页面

一般我们想要下载的处理好的数据都在supplementary file存放。

GSM编号检索页面
因为我们在supplementary file下载的是处理好的数据，然后用于下游的分析。所以拿到数据后最关心的是这个数据是怎么处理的。点击Samples中的GSM3822269，便可查看单个样本的数据处理过程。

在红色框中，可以得知：使用Illumina HiSeq 2000测序仪进行测序，下级得到FASTQ文件，然后使用BWA-Bowtie-Cufflinks进行比对、定量，比对时候选择的是hg19参考基因组。最后我们在supplementary file中下载得到是FPKM值的表达矩阵。得到这些信息后，下游的很多分析才能科学的进行。

测序平台

世界上主流的芯片制造商有4家，分别是Affymetrix，Agilent，Nimblegen以及Illumina。每家都会针对不同物种、不同测序类型推出不同的芯片，甚至不同时期推出的不同版本芯片的探针也不一样这就会出现各种各样的探针信息。但是我们研究主要关注点是gene symbol。因此对于芯片数据，我们要重点关注的信息是测序平台，以GPL7202为例

点击download full table下载，该文件主要是用于探针id转化。

指定检索

可以通过库浏览器（repository browser ）从库中选择要下载的文件夹内容下载。点击红色框进入repository browser。

进入的页面后我们可以看见，数据类型，平台，样本和物种的选项，我们可以通过其进行检索。
比如我们寻找chipseq数据，就选择数据类型中Genome binding/occupancy profiling by high throughput sequencing

寻找EZH2相关的chipseq

筛选人源EZH2相关的chipseq（点红色框）

下载原始数据

在supplementary file中有时候作者并没有给出处理后的数据，或者给出的数据不全，我们只能下载原始的fastq数据进行比对、定量拿到表达矩阵。fastq文件一般会存放在SRA数据库中，我们可以通过GEO数据库去SRA中下载原始文件。

进入SRA数据库中

选择需要下载的样本

在data access中下载，建议用迅雷下载，比较稳定

在线分析工具

我们再看看GDS号检索的结果页面
网址：https://www.ncbi.nlm.nih.gov/sites/GDSbrowser?acc=GDS402

Find gene工具

该工具用于直接查找该数据集中该基因的表达谱数据。

我们以检索brca1基因为例

进入一个新的界面

往下拉我们会找到一个Brca1的一个表达谱数据集。

点击右侧的图进入详细页面，该页面具有该基因在各个样本中的表达信息，并且样本的分组信息也有。

Find genes that are up/down for this condition(s)可以根据选择的实验筛选条件来找到一序列随该筛选条件有较明显表达差异的基因表达谱。假设我们要检索和疾病分期有关的上调或下调的基因。

可以看到检索到了79个基因。

我们点击第一个基因，同样可以看到该基因的详细信息。

Compare 2 sets of samples工具

step1:选择比较方式和显著性水平
step2：选择A和B两样本组
step3：比较A样本和B样本

我们点击Step2： Select which Samples to put in Group A and Group B会弹出一个窗口，让我们自己进行分组。我们可以看见A组合B组的GSM号是一样的，需要将他分在哪一组就在哪一组点击一下就行。背景变为深灰色就表示被选中，这里将GSM9920-GSM9925定位A组，其余定位B组。点击OK.

点击OK后我们会看见Step2下面会出现分组的样本编号。

点击Query Group A vs. B我们就会获得5608个表达差异的基因。

Cluster heatmaps工具

Cluster heatmaps聚类分析图包含三种聚类算法
1.层级聚类方法：（Single-Link:最近距离、Complete-Link：最远距离、Average-Link:平均距离）
2.分散性聚类方法：
K- Medioids算法（特点：用类中的某个点来代表该聚类：优点：能处理任意类型的属性；对异常数据不敏感）
K-Means算法（特点：聚类中心用各类别中所有数据的平均值表示：优点：应用最为广泛；收敛速度快：能扩展以用于大规模的数据集；缺点：倾向于识别凸形分布、大小相近、密度相近的聚类：中心选择和噪声聚类对结果影响大）
3.按基因处于染色体上位置来聚类

点击Display，或获取一个聚类的热图，鼠标放在热图上谁有一个红色的虚线框，可以通过上下拖动边框调整选择的区域大小。可以点击DOWNLOAD 下载数据。

点击Stack up 可以将所选择的区域放大，能够看见基因名称。

点击Plot value可以看见探针在样本中的曲线图。

此外Cluster heatmaps工具中还有一个(K-means/K-medians)的聚类。

通过设置高低表达的颜色，设置聚类个数（cluster，2-15），这里选择4，点击Display

而对于By location on chromosome，是将基因定位于染色体上进行分析。

Experiment design and value distribution工具

这就是每个样本中所有基因表达值的一个汇总，这是归一化后的箱线图，看起来质量不错。

GEO2R

GEO2R是一个交互式web工具，它允许用户比较GEO系列中的两组或两组以上的样本，以便识别在不同实验条件下表达不同的基因。结果显示为按重要性排序的基因表。
GEO2R使用Bioconductor项目中的GEOquery和limma R包对原始提交者提供的处理过的数据表执行比较。
与GEO的其他数据集分析工具不同，GEO2R不依赖于精心设计的数据集，而是直接查询原始的系列矩阵数据文件。这使得及时分析更多的地理数据成为可能。然而，重要的是要认识到，无论数据类型和质量如何，这个工具几乎可以访问和分析任何GEO系列。

在GSE检索结果页面就可以看到这个工具，这里以GSE49382为例

点击Analyze with GEO2R进入页面可以看见所有样本的信息列表

通过Define groups将样本进行分组,输入相应的组名

点击组A，会弹出一个对话框，让你选择要归入A组的样本，点击相应的样本即可（按住Crtl多选）

点击analyze

结果在浏览器中显示为按p值排列的前250个基因的表。p值最小的基因最显著。单击一行显示该基因的基因表达谱图。图中的每个红条表示从原始提交者提供的样例记录的value列中提取的表达式度量。
使用Select columns特性修改表中包含哪些数据和注释列。有关数据列含义的信息在Summary statistics部分中提供。
在Options选项卡中编辑测试参数，然后回到GEO2R选项卡并单击Recalculate来应用编辑。
要查看超过前250个结果，或者如果想保存结果，可以使用save all results按钮下载完整的结果表。下载的文件以制表符分隔，适合在Excel等电子表格应用程序中打开。

Options

Apply adjustment to the P-values

Limma包提供了几个p值调整选项。这些调整，也称为多次测试纠正，试图纠正错误阳性结果的发生。默认选择Benjamini & Hochberg错误发现率方法，因为它是对微阵列数据最常用的调整，并在发现统计上重要的基因和限制假阳性之间提供了良好的平衡。

Apply log transformation to the data

GEO数据库接受各种数据值类型，包括logged和未logged的数据。Limma包需要使用logged数据为了解决这个问题，GEO2R有一个自动检测特性，它检查所选样本的值，并自动执行log2转换。可选择是否自动转换。

Category of Platform annotation to display on results

选择要在结果上显示的注释类别。基因注释来自于相应的平台记录。有两种注释类型:
NCBI生成的注释可用于许多记录。这些注释是通过从平台中提取稳定的序列识别信息，定期查询Entrez基因和UniGene数据库，生成一致的、最新的注释而得到的。默认情况下选择基因符号和基因标题注释。NCBI生成的注释的其他类别包括GO术语和染色体位置信息。
提交者提供的注释可用于所有记录。这些表示提交者提供的原始平台注释。请注意，提交者提供的注释在样式和内容上有很多多样性，而且自提交时起可能就没有更新过。

Profile graph

通过从平台记录的ID列输入相应的标识符来查看特定的基因表达谱图。此功能不执行任何计算;它只是在样本间显示基因的表达值。要使此功能正常工作，不需要定义示例组。

R script

此选项卡打印用于执行计算的R脚本。这些信息可以保存下来，作为计算结果的参考。

参考：https://zhuanlan.zhihu.com/p/72484266
公众号：Bioinformation

最后编辑于：2022.09.28 17:58:52

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 162,825评论 4赞 377
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 68,887评论 2赞 308
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 112,425评论 0赞 255
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 44,801评论 0赞 224
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 53,252评论 3赞 299
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 41,089评论 1赞 226
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 32,216评论 2赞 322
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 31,005评论 0赞 215
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 34,747评论 1赞 250
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 30,883评论 2赞 255
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 32,354评论 1赞 265
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 28,694评论 3赞 265
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 33,406评论 3赞 246
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 26,222评论 0赞 9
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 26,996评论 0赞 201
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 36,242评论 2赞 287
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 36,017评论 2赞 281