TCGA和GEO套路文章解说

文章,重在研究思路。有好的思路,才能有精彩的故事。很多时候,我们想找一个好点子,比如性状,疾病相关的关键分子,需要设计实验,做大量的分子筛选的工作,对于土豪实验室可以可以大把的花钱做芯片或者高通量测序做前期的筛选工作。但是如果你所处的实验室或者科室经费少,样本也不多,而无法开展研究,而又想发SCI文章,此时我们最经济有效的方法就是:分析一下别人的数据,筛选出一些有价值的分子(mRNA,miRNA,lncRNA,circRNA,lncRNA),之后在自己的小样本中验证一下,发篇SCI文章还是轻轻松松的。接下来我们来介绍一篇挖掘GEO,TCGA数据库,筛选关键分子的文章。

文章1:

文章今年(2018)发表在:Cancer Management and Research 上IF=3.851。该文章发表的杂志影响因子虽然不高,但是分析思路还是可以借鉴的:文章主要分析结论是:利用公共数据(GEO,TCGA数据),通过数据筛选分析后发现两个miRNA(miR-182 and miR-20a)可以作为结直肠癌(colorectal cancer CRC)诊断的分子标志物,然后在组织和血液中进行验证,最终确定诊断参数。主要的分析思路分为三大步,如下图所示图所示:

第一步:利用公共数据进行筛选biomarker(Discovery phase)

首先,作者利用GEO数据库当中关于CRC的4个miRNA表达芯片数据,寻找患病样品和正常样品中差异表达的miRNA,通过取交集初步筛选到8个miRNA,再利用TCGA数据库中的CRC样本进行筛选,和qRT-PCR验证,其验证不仅在组织样中,同时还在血液中进行筛选,方便后续通过血液检测筛查CRC患者。最终确定了两个miRNA在CRC患者的组织和血液中表达都有上调,可作为CRC的分子诊断候选标志物(miR-182 and miR-20a)。

第二步:做训练数据集,确定诊断参数(Training phase)

之后,作者在自己收集的CRC患者血液样本中进行验证,40个健康样品,40个CRC患者样本,发现这两个miRNA在患者和对照中表达都存在差异,最终通过分析ROC线确定分类参数。

第三步:扩大数据集,确定最佳诊断参数(Validation phase)

最后作者扩大样品到150个,分别为健康样品50个,Adenoma(腺瘤)样品50个和CRC患者(stage I)进行验证并绘制ROC曲线,最终确定,诊断参数:

miR-182,miR-20a, and 2-miRNA combination were 2.620, 1.355,and 2.147, respectively.

文章2:

题目:Expression profiles analysis identifies anovel three-mRNA signature to predict overall survival in oral squamous cellcarcinoma

期刊:Am J Cancer Res

分数:3.2

疾病:口腔鳞细胞癌(OSCC)

文章思路:

利用GSE13601,GSE30784, GSE37991三个mRNA芯片表达数据以及TCGA中OSCC表达数据分别做对照和患者差异基因分析,筛选到显著差异表达的76个上调基因、106个下调基因;然后进行GO和KEGG通路富集分析、PPI网络分析,IPA通路分析,生存分析等联合分析最终筛选到PLAU, CLDN8 and CDKN2A与OSCC预后相关,并且在另一个GEO数据GSE41613中得到了验证。

总结:

大家可以发现,GEO数据挖掘,以及TCGA数据的挖掘就是这个套路,先确定自己要分析的疾病,然后下数据,差异表达分析,筛选得到几个关键的分子(可以是lncRNA,mRNA,miRNA,circRNA),然后进行GO富集分析,Pathway富集分析,GSEA富集分析,PPI分析,IPA通路分析等,再做生存分析,ROC曲线分析等,就可以得到与疾病诊断相关的biomarker。如果要进一步发高分的文章,知其然更要知其所以然。可以再做一下小鼠模型,细胞模型,敲除,过表达等,对分子机理进行深入研究,干湿结合,文章就能再上一个层次。另外,还有其他套路组合,例如做一下WGCNA,或者联合Oncomine数据挖掘等等。

相关课程链接见下方:

学习链接:TCGA-差异基因分析GEO芯片数据挖掘GSEA富集分析课程TCGA临床数据生存分析TCGA-转录因子分析TCGA-ceRNA调控网络分析

更多生物信息课程:

1. 文章越来越难发?是你没发现新思路,基因家族分析发2-4分文章简单快速,学习链接:基因家族分析实操课程基因家族文献思路解读

2. 转录组数据理解不深入?图表看不懂?点击链接学习深入解读数据结果文件,学习链接:转录组(有参)结果解读转录组(无参)结果解读

3. 转录组数据深入挖掘技能-WGCNA,提升你的文章档次,学习链接:WGCNA-加权基因共表达网络分析

4. 转录组数据怎么挖掘?学习链接:转录组标准分析后的数据挖掘转录组文献解读

5. 微生物16S/ITS/18S分析原理及结果解读OTU网络图绘制cytoscape与网络图绘制课程

6. 生物信息入门到精通必修基础课,学习链接:linux系统使用perl入门到精通perl语言高级R语言画图

7. 医学相关数据挖掘课程,不用做实验也能发文章,学习链接:TCGA-差异基因分析GEO芯片数据挖掘GSEA富集分析课程TCGA临床数据生存分析TCGA-转录因子分析TCGA-ceRNA调控网络分析

8.其他课程链接:二代测序转录组数据自主分析NCBI数据上传二代测序数据解读

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 160,165评论 4 364
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 67,720评论 1 298
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 109,849评论 0 244
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 44,245评论 0 213
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 52,596评论 3 288
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 40,747评论 1 222
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 31,977评论 2 315
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 30,708评论 0 204
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 34,448评论 1 246
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 30,657评论 2 249
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 32,141评论 1 261
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 28,493评论 3 258
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 33,153评论 3 238
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 26,108评论 0 8
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 26,890评论 0 198
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 35,799评论 2 277
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 35,685评论 2 272

推荐阅读更多精彩内容