跟着Bioconductor一步一步学习scRNA(一)

刘小泽写于19.9.9、9.11
动力来自偶然间看到的Bioconductor放出的单细胞数据分析教程
https://bioconductor.org/packages/release/workflows/html/simpleSingleCell.html
题目就叫“step-by-step”,最喜欢这么系统的学习了,并且它涵盖了主流的几个R包,主流的两个平台smart-seq2和10X,带着读者一点点去探索scRNA公共数据。所以,你心动了没?
来吧,一起去探索!

前言

这个教程写的非常详细,所以大家可以随时自行演练,我也是凭借兴趣想要去了解这个教程。依然不是翻译

总共有12章:

HTML R Script 01. Introduction
HTML R Script 02. Read count data
HTML R Script 03. UMI count data
HTML R Script 04. Droplet-based data
HTML R Script 05. Correcting batch effects
HTML R Script 06. Quality control details
HTML R Script 07. Spike-in normalization
HTML R Script 08. Detecting doublets
HTML R Script 09. Advanced variance modelling
HTML R Script 10. Detecting differential expression
HTML R Script 11. Scalability for big data
HTML R Script 12. Further analysis strategies

还等什么?快点开始第一章的学习啦!

第一章:序幕

教程在:https://bioconductor.org/packages/release/workflows/vignettes/simpleSingleCell/inst/doc/intro.html,更新于2019-05-03,这个教程基于的环境是R version: R version 3.6.0 (2019-04-26); Bioconductor version: 3.9

作者也是先讲述了他写作的动力

单细胞测序,顾名思义就是对生物体内的单个细胞进行测序。整个测序过程主要有三部分:第一是单个细胞分离;第二是DNA/RNA提取;第三是测序。单个细胞分离的方法主要包括:微流控平台,如Fluidigm C1(Pollen et al. 2014);微量滴定板,如Smart-seq2(Picelli et al. 2014);基于微滴技术,如inDrop(Klein et al. 2015; Macosko et al. 2015)。定量的步骤加入了一个新名词:unique molecular identifiers (UMIs) ,它是为了减轻PCR bias的影响(Islam et al. 2014)。表达矩阵可以用来检测高变异基因highly variable genes (HVGs) ,它一般是细胞异质性的来源;可以寻找基因和细胞表型的关联;可以通过降维、聚类来鉴定新的亚群。这些信息在常规转录组的分辨率下是检测不到的。

scRNA-seq与bulk RNA-seq的不同之处在于:首先scRNA的数据噪音更大(Brennecke et al. 2013; Marinov et al. 2014)。由于单个细胞中的RNA含量很低,dropout的比例会更高(dropout就是原本有表达量但没检测到),因此转录本的捕获、扩增方法需要更优化,在质控时就要注意drouput的情况。scRNA-seq数据可以用来研究细胞间异质性,例如鉴定新的细胞亚群、区分不同的生物过程、将细胞对应到不同细胞周期、鉴定HVGs等 (Vallejos, Marioni, and Richardson 2015; Fan et al. 2016; Trapnell et al. 2014)。因此单细胞转录组数据需要新的方法去分析。

利用Bioconductor来学习scRNA-seq

整个学习过程是从一个表达矩阵开始的,向下有几个关键的步骤:

  • 质控移除有问题的细胞
  • 对细胞差异进行归一化(考虑spike-in的影响)
  • 批次效应校正
  • 根据基因表达量对细胞周期进行推断
  • 数据探索,能否鉴定出新的亚群
  • 最后,HVG与marker基因的鉴定,这些使我们更关心的基因

这些操作会使用公共数据集进行探索,这些数据集主要来自于不同实验方法和平台的骨髓祖细胞、脑细胞、造血干细胞、T辅助细胞和小鼠胚胎干细胞(Lun et al. 2017; Wilson et al. 2015; Zeisel et al. 2015; Islam et al. 2011; Buettner et al. 2015; Zheng et al. 2017)。目的是日后能对自己的数据设计个性化分析流程。

这些流程都在一个数据包中:

if (!requireNamespace("BiocManager", quietly = TRUE))
    install.packages("BiocManager")

BiocManager::install("simpleSingleCell")
browseVignettes("simpleSingleCell")

获取表达矩阵

这里作者没有介绍表达矩阵的上游处理(比对、定量等),不过如果使用R进行处理的话,一般推荐Rsubread 这个包 (Liao, Smyth, and Shi 2013, 2014)。

不同的scRNA-seq方法有不同的技术手段:

  • UMIs:具有相同UMI的reads比对到一个基因,这个转录本的表达量只计算一次。处理包含UMI的数据(例如10X数据)就需要从每个read或read pair中提取出UMI序列,然后将UMI重复的序列合并成一个count值 (Smith, Heger, and Sudbery 2017)
  • cell barcode:测序的时候一般会同时测不同类型的样本,为了区分不同的细胞就给细胞加上一个识别码”cell barcode“。这些序列都是有标准规定的,例如Illumina就提供这种序列。基于droplet技术的实验(Zheng et al. 2017)或者非常高通量基于细胞板的实验,如MARS-seq (Jaitin et al. 2014)都适用。处理这种数据,一般需要一步操作:从每个read中提取barcode序列,然后barcode相同的就来自同一个细胞文库

像这样的预处理, scPipe 包(Tian et al. 2018) 就提供了R处理流程,不过现在10X的cellranger已经有一个比较完善的流程去做count这一步

如果存在spike-inRNA,这些序列就要在比对前(构建基因组index)的时候加上去。然后后面定量之前,spike-in转录本和内源基因的基因组区间可以合成一整个GTF文件


欢迎关注我们的公众号~_~  
我们是两个农转生信的小硕,打造生信星球,想让它成为一个不拽术语、通俗易懂的生信知识平台。需要帮助或提出意见请后台留言或发送邮件到jieandze1314@gmail.com

Welcome to our bioinfoplanet!

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 159,117评论 4 362
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 67,328评论 1 293
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 108,839评论 0 243
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 44,007评论 0 206
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 52,384评论 3 287
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 40,629评论 1 219
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 31,880评论 2 313
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 30,593评论 0 198
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 34,313评论 1 243
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 30,575评论 2 246
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 32,066评论 1 260
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 28,392评论 2 253
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 33,052评论 3 236
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 26,082评论 0 8
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 26,844评论 0 195
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 35,662评论 2 274
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 35,575评论 2 270