玩转ENCODE项目的数据资源(一)

本系列主要内容

介绍ENCODE的数据概况,在data portal上查询数据,使用REST API批量下载数据,参照ENCODE官方数据处理流程构建自己的pipeline。同时介绍ENCODE项目培训课程(主要是数据分析)的资料。

这是一个包含四篇文章的小专栏,内容分别为:

  1. 介绍ENCODE计划的数据体系(data model)
  2. 批量下载ENCODE portal的数据(附示例代码)
  3. 学习ENCODE的官方数据处理流程(pipeline)(附代码仓库列表)
  4. ENCODE项目数据分析培训课程的资源(附下载链接)

本篇主要内容

通过介绍ENCODE计划的数据概况,你可以了解这个项目产生了什么数据,以及这些数据对你有没有价值。

一句话介绍ENCODE计划

ENCODE的目标是定义人类基因组中所有发挥“功能”的DNA元件,并研究这些元件与蛋白和RNA之间的相互作用如何调控细胞的转录活动。第一阶段于2003年由NIH开启,最新一期的ENCODE Phase 4从2017年2月开始实施,资助总金额达到3200万美元,基本上确立了未来五年世界范围内基因组学的前沿研究方向。

为什么要启动Phase 4

引用自National Human Genome Research Institute (NHGRI):

Although much progress has been made over the past decade, these catalogs are incomplete. The purpose of this FOA is to solicit applications for research projects to apply state-of-the-art, high-throughput and cost-effective data generation pipelines to develop an expanded catalog of candidate functional elements in the human and mouse genomes.

Phase 4的重点研究方向请查看:https://www.encodeproject.org/data/annotations/

ENCODE的数据调度中心 Data Coordination Center (DCC)

ENCODE作为周期长,经费多,参与者众多的合作项目,当然要设立超大型数据中心 Data Coordination Center (DCC),把每个数据摆放在合适的位置,让用户方便的查询下载数据。其中Phase 1-3的DCC在UCSC,到了Phase 4,DCC搬到了Standford University。DCC的任务包括和Data Analysis Center (DAC) 合作定义数据模型 (data model),并将数据存储在数据库里(data portal),分享给全世界的研究人员。

ENCODE 生物样本(biosample)的多样性

  • ENCODE的bioample按照种类分为immortalised cell line (GM12878, K562等), tissue (liver, lung等), whole organisms, primary cell (bone marrow cell等)和stem cell (H1-ESC等), in vitro differentiated cells (neutron cell)等等。
  • 按照在ENCODE里的重要性分为tier1,tier2和其他。Tier1的细胞系(GM12878,H1-ESC和K562)拥有最高的优先性,配套的数据也最多。详细请查看https://www.encodeproject.org/search/?type=Biosample

ENCODE Assay的多样性

  • ENCODE phase 2起包括:ChIP-seq, DNase I Hypersensitivity, RNA-seq和DNA methylation等
  • ENCODE phase 3和4陆续增加了包括ATAC-Seq, ChIA-PET, Hi-C, eCLIP-Seq等

完整列表请参考:https://www.encodeproject.org/profiles/experiment.json

ENCODE的数据模型 (data model)

在一次实验(Experiment)中,会有生物学和技术性重复(Biological and Technical Replicate),制备的文库(Library)以及来源的生物学样本(Biosample)。它们都是不同类型的对象(object),对应着自己的metadata,比如Experiment对应的metadata包括:实验日期,文库制备流程(protocol),操作人和测序仪器等,完整版请查看:https://www.encodeproject.org/profiles/experiment.json。一些重要的object拥有自己独一无二的标示(accession number),以ENCXX开头。请看图:

图片来自https://www.encodeproject.org/help/getting-started/

图片来自https://www.encodeproject.org/help/getting-started/

这些objects以及metadata组成的关系网络称作 Data model。完整版data model和metadata请查看:https://github.com/ENCODE-DCC/encoded/blob/master/src/encoded/schemas/biosample.json

有了metadata,产生数据的实验室(Mapping Center)就有了一套规则描述自己产生的每一个数据,用户也可以轻易的搜索到自己所需的数据。

结语

ENCODE在产生,管理,可视化数据以及数据流程的标准化,研究的可重复性上积累了大量经验,翻阅一下相关论文,逛一下代码仓库都会有收获。

下一节主要介绍使用data portal,通过metadata搜索数据,以及批量下载数据(附示例代码)。

参考资料

ENCODE portal官网:https://www.encodeproject.org

ENCODE DCC Github仓库地址:https://github.com/ENCODE-DCC

ENCODE Phase 4 Funding申请页面: https://grants.nih.gov/grants/guide/rfa-files/RFA-HG-16-002.html#_Section_I._Funding

ENCODE Wikipedia页面:https://en.wikipedia.org/wiki/ENCODE

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 158,117评论 4 360
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 66,963评论 1 290
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 107,897评论 0 240
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 43,805评论 0 203
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 52,208评论 3 286
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 40,535评论 1 216
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 31,797评论 2 311
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 30,493评论 0 197
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 34,215评论 1 241
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 30,477评论 2 244
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 31,988评论 1 258
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 28,325评论 2 252
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 32,971评论 3 235
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 26,055评论 0 8
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 26,807评论 0 194
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 35,544评论 2 271
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 35,455评论 2 266

推荐阅读更多精彩内容

  • 奋斗在人类组学数据分析的一线,要随时跟上最新的研究进展。大型的研究项目会有全面的数据集和可视化工具,也有专门从各个...
    BryceBryce阅读 2,964评论 2 24
  • 已经陷入情绪的怪圈许久。停留在异国他乡找工作,因为签证的问题,一次一次被拒绝。不知道是否还应该坚持最初的梦想。矛盾...
    守望最亮星阅读 139评论 0 0
  • 天黑色渐渐袭来我慢慢依赖 又在对着电视机发呆 想来想去到底谁能把我拯救 有没有人想对我安慰 过街的甜品店人气依旧火...
    花少颜阅读 345评论 0 4
  • R·阅读原文片段 非暴力沟通强调,感受的根源在于我们自身。我们的需要和期待,以及对他人言行的看法,导致了我们的感受...
    莹雪_14d1阅读 147评论 0 0