聊UCSC xena的数据下载问题

作者:白介素2


UCSC xena数据存储中心总览

UCSC xena的数据 存储仓库主要包括的数据有以下这些:

GDC Hub与TCGA hub

我们经常会使用 UCSC xena下载 TCGA数据, 值得注意的是,其中包括了两个数据来源。 这里我们来探索,这两个来源的数据下载有何区别:

GDC Hub

数据下载内容

首先来看GDC Hub的数据详情,我们以 BRCA的count数据为例:

image.png

数据下载时间

从官网的介绍来看,如果是 GDC数据集来源下载,其方式等同于在 2017年9月15日使用 api方法从官网下载了数据 注意:数据已经为log2(count+1)转化值,数据已经进行了merge,可直接进行注释,进行后续分析。 搞清楚了时间之后,我们继续往下看 对应的TCGA数据的更新时间:

image.png

数据更新

我们发现它对应TCGA官方数据的更新时间为 2017年4月22日Data Release 8.0,那么从该时间到 2019年8月之间的时间 TCGA数据又经过了哪些更新呢?

image.png

我们发现到现在为止,更新从 Data release 8.0到了 Data release 18.0,当然,其中很多更新可能是新数据的发布,跟我们自己研究的肿瘤无关。 下一个问题是:是否有更新数据与我们相关?,答案当然是:有! 比如说随访数据,生存资料,我们做预后分析,肯定用生存资料吧。

image.png

生存资料更新

我们发现在 2019年6月5日的一次更新中(其它更新不详细,我们举例说明这个问题),就有生存资料的更新,比如 生存状态,随访信息等,注意了:这些信息更新了,当然可能并不一定会很大程度的影响分析结果,但毕竟在偏离真实值,所以,我们还要再浑水摸鱼吗?


TCGA Hub

下载选项

同样,我们以 BRCA 数据为例,它提供的 RNA-seq数据下载包括了三种类别:

官方的答疑文档 (估计是问的人太多了)

image.png
  • IlluminaHiSeq :log2(x+1) RSEM normalized count: 这个值究竟是如何得出来的比较复杂,有些文章直接使用这个值来做差异分析,作为基因表达的定量。 实际上做差异分析,还是推荐使用原始 count值去做。关于这个值能否用于差异分析,网上众说纷纭,连 UCSC xena本身也没有给出一个明确的说法(有人给 UCSC xena写信了)。如有高手明确这个问题,欢迎赐教。

  • IlluminaHiSeq pancan normalized : 这个值类似于Pancan TCGA, 以整个 TCGA数据集为背景,支持不同肿瘤间的比较。

  • IlluminaHiSeq percentile: we rank genes RSEM values between 0% to 100%. This dataset is gene expression estimation in percentile rank, which higher value representing higher expression. The dataset can be used to compare this RNAseq data with other cohorts when the other data is processed in the same way (i.e. percentile ranking).

这里再提供生信控的潘如飞老师对这个问题给出的一些见解 ,希望可以增加读者对这个问题的了解。

数据下载内容

image.png

同样可以看到,下载的数据仍然不最新的数据,与我们在 GDC数据集源下载的数据有同样的问题,数据未更新。并且,TCGA Hub数据是经过处理后的数据,能否直接用 limma等分析还需要打一个问号。

总结

经过以上探索,笔者建议下载 TCGA数据还是使用更新下,下载到最新的数据。推荐的方式有以下几种:

  • 官方下载GDC-client下载,存在的一个问题是比较繁琐,且要自己 merge单个的文件,这个非常麻烦,不利于新手操作。

  • TCGAbiolinks包下载:可以实时下载到最新的数据,提供merge功能。

  • GDCRNATools包: 代码简介,具备merge功能,推荐大家使用。

  • 生信人SangerBox: 点击式操作,可以merge。个人认为存在的一个问题是该工具不透明,又未发表,可能在同行认可方面会有些麻烦(当然你写文章时不说下载过程又是另外一回事了)。

以上推荐不分先后,没有利益关系

广而告之

说一个事,鉴于简书平台在信息传播方面有不足之处,应粉丝要求,白介素2的个人微信平台已经开启,继续聊临床与科研的故事,R语言,数据挖掘,文献阅读等内容。当然也不要期望过高,微信平台目前的定位是作为自己的读书笔记,如果对大家有帮助最好。如果感兴趣, 可以扫码关注下。


qrcode_for_gh_9eaa04438675_258.jpg

推荐阅读更多精彩内容