单细胞转录组亚群分析

作者：尧小飞
审稿：童蒙
编辑：angelica

引言

在上一篇文章单细胞转录组(Single cell RNA)概述
，我们对单细胞转录组进行了简单的介绍及其分析必备所需矩阵的获得。

此篇6000字干货长文，我们介绍常见的亚群分析内容。耐心看完收获满满；或者收藏后慢慢看。

1.单细胞转录组亚群常见分析内容

单细胞转录组亚群分析的内容根据样品数目多少，可以分为单个样品或者多个样品。单个样品主要可以进行的分析内容有：细胞亚群的鉴定、亚群之间的差异以及发育轨迹分析。多个样品分析内容包括所有单个的分析内容，并且在此基础上还能进行样品的差异分析。

这里样品差异分析主要分两个方面：
1.从宏观上来说，不同亚群中不同样品的细胞数目的差异，不同亚群细胞具有不同的功能，因此亚群的差异对于研究异质性具有十分重要的作用。
2.从单个亚群来说，可以研究不同样品之间的差异，比如同样是上皮细胞，我们可以研究上皮细胞中不同样品之间的差异，基因表达或者代谢通路的差异，这是从机理上来解释生物学问题。

一般使用Seurat工具进行细胞亚群分析。链接：https://github.com/satijalab/seurat

2.数据质控

2.1空载细胞、双细胞、双细胞数据质控

如上图A左图所示，为每个细胞的基因表达数目小提琴图。一般对于单细胞转录组来说，如果细胞表达的基因数目过少，可能是空载细胞（在细胞分筛的时候，溶液可能含有的游离mRNA）；如果细胞基因数目表达过高，可能是双细胞（2个以上的细胞的基因表达数目一般就会较高）。

图A右图为每个细胞中线粒体基因（线粒体基因的名称一般为mt开头，不同物种大小写可能不一样）的表达UMI占比，除非特别的样品或者组织（比如卵组织），一般细胞的线粒体基因表达占比较低。不同文献会有不同的阈值，5-40%都有，因此在做此数据质控的时候需要根据自己的研究样品设定一个合适的阈值，通常可以设为20-25%。

图B为双细胞检测方法介绍，如果细胞基因的表达数目过高，可能对结果具有较大的影响（比如有时过渡态细胞可能不是过渡态细胞，而是双细胞），因此一般需要注意双细胞数目。一般来说，10xGenomics单细胞转录组平台对双细胞有一定的控制，1000个细胞双细胞率不超过0.9%，10000个细胞不超过7%。但是有时候由于实验因素，可能会偏高，需要在分析的时候去掉双细胞。

过滤双细胞的方法有很多种，一种比较直接粗暴的方法就是把细胞基因表达数目超过一定阈值的细胞去掉（比如PBMC细胞，阈值为2500），不过不同的样品阈值不同；另外一种方式就是通过算法来去掉双细胞，现在去掉双细胞的工具有很多种，比如DoubletFinder(https://www.cell.com/cell-systems/fulltext/S2405-4712(19)30073-0)、scrublet(https://github.com/AllonKleinLab/scrublet)、DoubletDecon(https://github.com/EDePasquale/DoubletDecon)、DoubletDetection(https://github.com/JonathanShor/DoubletDetection.git) 等等，python和R语言的工具都有，可以根据自己需要进行工具选择。

对于空载细胞分析，一般cellranger流程已经进行处理过。cellranger在进行call cells的时候，会通过EmptyDrops工具根据其表达量与背景表达量的相似性进行空载细胞的判断。链接：https://genomebiology.biomedcentral.com/articles/10.1186/s13059-019-1662-y

当然也会对基因进行质控，一般会过滤掉基因表达细胞数目过低的基因，比如一般要求至少在3多个或者5个细胞表达的基因。

2.2特定细胞质控

特定细胞的质控，这个一般需要通过特定的样品进行分析，比如PBMC细胞中不能含有血红蛋白基因高表达的细胞，血红蛋白基因高表达细胞一般是红细胞，但是红细胞对于我们的研究一般来说没有什么意义，因此一般需要过滤掉此类细胞，这个阈值不同的样品设定的不一样，比如可以设定阈值为5%。

其他特定细胞的质控，比如我们经过流式筛选的是T细胞，结果出现高表达B细胞、巨噬细胞等其他细胞类型的marker基因，因此需要去掉此类细胞，一般此类细胞聚类都分离得比较开，与其他细胞不一样，比如下图所示。

2.3降维可变基因和PCA数目选择

如上图所示，一般会选择变化度较大的基因进行后续降维聚类分析。一般选择top1000或者2000基因进行PCA降维。然后聚类时，一般是挑选特定的PCA数目进行聚类，比如图B所示的碎石图，一般会选择在拐点位置的PCA数目进行后续分析。

2.4细胞周期质控

上述图A为没有进行细胞周期变异的排除，图B为进行细胞周期变异的排除，图C为S.Score-G2M.Score进行变异的排除的结果。目前主要是人的物种有细胞周期基因，如果想对其他物种进行细胞周期分析，可以根据与人的同源基因比对后进行。

另外需要注意的是，不是所有的样品都适合进行细胞周期分析，如果是干细胞分化研究，这样的话就可能有点不合适，使用两者之间的差异进行分析会更合适一些。具体情况需要根据样品进行分析（这样会将细胞周期细胞与非周期细胞分隔开）。

3.细胞亚群差异

在进行所有质控后，进行降维聚类，得到如上的聚类结果图。现在降维可视化的方法主要有TSNE和UMAP。

一般来说，TSNE为局部最优的结果，边界较为清晰；UMAP可视化结果一般为全局最优，但是边界没有TSNE清晰。但是聚类的结果与可视化的方法没有任何关系，比如上图，虽然图A和图B图形不一样，但是其聚类结果完全一致。

4.亚群细分策略

一般单细胞转录组很少能够一次性得到符合预期的结果，需要对结果需要调整，比如需要对亚群数目进行调整。

如果使用Seurat(https://satijalab.org/seurat/)工具的话，可以通过调整FindClusters函数的resolution参数进行调整，一般可以设0.1-1之间，这个值越高，得到亚群数目越多，但是细胞亚群数目不能太多，不然后续分析比较耗费精力。

另外一种需要进一步或者调整结果的是，对感兴趣的细胞亚群进行亚群细分，可以把感兴趣的一个亚群或者多个亚群提取出来，然后再进行亚群细分。

亚群细分一般有两种方式：第一种，通过分辨率，可以使亚群数目增多。比如下图的1亚群，可以看到1亚群和1亚群的细分的图形一致；第二种，将此亚群提取出来，然后再整体的按照之前分析的pipeline进行重新分析。因此其亚群细分的结果图形会发生变化，比如下图的7亚群细分。

5.亚群功能分析

一般进行简单细胞亚群分析后，会再对亚群进行差异分析。进行差异分析时，一般是选择该亚群与除了该亚群以外所有的亚群进行分析，一般阈值有pct（亚群中某个基因表达的占比）和差异倍数（平均表达量），对于Seurat工具来说，差异倍数一般设为0.25，pct阈值一般是该亚群和该亚群以外所有亚群至少一个的pct值大于0.1。通过此方法得到的差异基因，也认为是marker基因，即每个亚群特异的基因。

根据上述方法得到的差异基因，进行功能分析，了解每个亚群特异的功能，一般会进行GO和KEGG分析，然后通过气泡图展示差异，如下图所示：

6.细胞亚群鉴定

根据上述得到的marker基因，对细胞亚群进行鉴定，这也是单细胞转录组分析最重要的一步，也是最关键的一步，通常需要花费大量的精力进行细胞亚群鉴定。

通常细胞亚群鉴定的方式有如下四种：传统经典marker基因、自动化鉴定工具、其他单细胞转录组数据映射、与bulk RNA相关性分析。

6.1传统经典marker基因

根据已知的细胞类型的marker基因进行细胞亚群鉴定。如上图右上角小提琴图，可以明显看出PF4基因在亚群7特异性表达，因此可以根据此基因为某些细胞类型marker基因进行细胞亚群鉴定。

一般亚群鉴定不是单独一个基因，可能需要多个基因。说到这里，我们需要知道传统经典的marker基因，这个表格从哪儿来呢？

一般有如下两个常用数据库：
CellMarker：http://biocc.hrbmu.edu.cn/CellMarker/
panglaodb：https://panglaodb.se/index.html

不过这两个数据库都只是提供了人和小鼠相关的数据，没有其他物种的，因此其他物种最好通过查询相应的文献来确定。

6.2自动化鉴定工具

目前单细胞亚群鉴定的自动化工具有很多种，至少有20-30种，这些工具主要有两种，一种是自动化鉴定，另外一种是半监督的方式。

自动化鉴定比较常见的singleR，内置了人和小鼠的数据，其基本原理是通过计算单细胞与内置数据库的相关性来判断细胞类型，也可以自己建数据库。地址为：https://github.com/dviraran/SingleR

优点是不用自己提供细胞类型以及相应的marker基因，但是其缺点是只能鉴定出数据库已有的细胞类型以及不能鉴定特别细的细胞亚群，特别细的细胞亚群比如CD4+T 细胞亚群再细分，就没法完成了。

另外一种是半监督的方式，需要自己提供细胞类型的marker基因，也就是只能鉴定自己提供的细胞类型，一是限制了细胞类型，另一方面则是可以鉴定任意感兴趣的细胞类型，不过这种方式需要老师具有较深厚的生物学背景。

比较常用的软件有cellassign和Garnett，其中cellassign只要提供细胞类型以及对应的基因，软件根据TensorFlow机器学习的方法，对每个细胞进行打分。Garnett是拟时间分析工具-monocle工具编写的团队开发的一种细胞简单快速注释细胞类型的工具。它不仅仅提供了根据基因鉴定细胞亚群，还可以通过设定基因表达量阈值、或者不含某个基因来筛选，而且官方提供了一定数目的细胞类型的marker基因list。

cellassign地址：https://irrationone.github.io/cellassign/index.html
Garnett地址：https://cole-trapnell-lab.github.io/garnett/

6.3不同单细胞数据映射

其实现在很多人都会问，现在已经有那么多单细胞转录组数据，为什么不可以利用已知的单细胞数据来鉴定未知单细胞数据？

其实是可以的，而且这种操作的方法和工具还挺多的，比较常用的是Seurat工具中有个TransferData 函数，可以将别的数据标签映射到未知的数据，从而鉴定细胞类型，测试数据准确性可达90%以上。地址：https://satijalab.org/seurat/v3.1/integration.html

6.4与Bulk RNA数据进行相似性分析

另外一种比较常见细胞亚群鉴定方式就是，用单细胞属于相应细胞类型的细胞系测序获得的Bulk RNA数据进行相关性分析，得到相似性热图，判断细胞类型，结果如下图。

此方法是比较耗费精力，需要收集相应细胞类型的Bulk RNA数据，另外单细胞数据表达的模式可能与Bulk RNA数据不太一致，因此此方法一般用于数据验证，不作为鉴定结果。

最后说一句，其实也有一些使用marker基因进行细胞亚群鉴定的小工具。比如可以使用Y叔的Clusterprofle工具，通过对输入的marker基因进行富集，得到可能细胞亚群，不过有个缺点就是，对于一些通过流式得到的单细胞转录组数据，比如某个细胞只有CD4+和CD8+细胞，可能CD4+和CD8+基因不是marker基因，不在marker基因list中，因此鉴定会有些问题。

7.单细胞转录组样品差异分析

10xGenomics单细胞转录组一次可获取10000个细胞。在研究的时候，不能一个细胞一个细胞研究，一般通过降维聚类，将表达模式相同的细胞聚类在一起，即得到细胞亚群，随后的研究是基于细胞亚群进行。

研究不同样品、不同处理条件、不同组织样品的时候，一般是在同一个亚群之下进行的研究，毕竟不同类型的细胞其表达模式肯定不一样，这个可比性不太强。比如在使用某种药物处理后，想看看CD4+ naive T细胞有什么变化，然后挑取CD4+ naive T细胞亚群，直接比较两个样品的细胞基因表达差异，然后对此基因进行功能注释，了解哪些关键基因发生变化，代谢通路发生了变化。

由于10xGenomics单细胞转录组的基因表达较smart-seq2的数据较低，因此一般进行差异分析的时候，其阈值不能直接按照smart-seq2的阈值设置，seurat一般设为差异倍数的log值为0.25。

我们也可以根据每个样品在某个亚群中所有细胞基因的平均表达量作散点图，这样能更直观地展示差异基因，比如下图展示了top10基因，一般越靠近y轴的基因，就是STIM高表达，越靠近x轴，就是CTRL高表达。下图使用了不同的差异基因展示方式。

8.基因集富集分析

除了对常规的差异基因或者marker基因的功能分析以外，还有一种就是对某个基因集进行富集分析或者说打分。这种分析方式不需要在不同样品之间进行比较，关注点是某个基因集在每个细胞、每个细胞亚群中的富集程度，其中这样分析的内容可就多了。

基因集可以根据需要进行设置，比如关注T细胞激活的话，给定T细胞激活的基因集，就可以看到每个细胞的T细胞激活程度。基因集分析比较常用的工具是GSVA（Gene Set Variation Analysis），链接如下：http://www.bioconductor.org/packages/release/bioc/html/GSVA.html

这里需要注意的是该工具尽量不要使用counts表达矩阵作为输入数据，如果实在需要用counts表达矩阵作为输入文件的话，需要修改GSVA的参数kcdf，设为Poisson，其默认为Gaussian。但是使用Poisson的时候，其耗时巨大，因此不建议使用counts表达矩阵。

一般建议使用连续性值，比如log-CPMs, log-RPKMs or log-TPMs，这样分析速度快很多，一般两三万细胞的话，30个基因集以内的，24小时内就可以完成。

至于基因集的设置，一般可以使用GO Term、KEGG代谢通路、reactome代谢通路、或者GSEA官方基因集、自己提供的基因集都可以，下图为GSVA结果展示。

9.单细胞转录组发育轨迹分析

发育轨迹分析即拟时间分析，就是根据细胞中基因的表达量，基于特定基因对细胞进行排序的一个过程，其结果主要反映细胞发育的先后。

一般软件得到的结果是没法确定发育起始点，需要根据某些基因来判断发育起始点，这里特定基因可以是软件自动计算差异的基因，也可以是已知的跟发育相关的基因。其中最常用的发育轨迹的工具是monocle（http://cole-trapnell-lab.github.io/monocle-release/）

当然发育轨迹分析的工具有很多，目前能做此类分析结果的工具至少有60+以上，比如dyno (https://github.com/dynverse/dynmethods)工具搜集了60+，做了一个所有拟时间分析的集合，包括常用的monocle(http://cole-trapnell-lab.github.io/monocle-release/)、PAGA(https://github.com/theislab/paga)、pCreode(https://github.com/KenLauLab/pCreode)等等，不过此软件是基于docker，因此需要系统有root权限。

不同的单细胞转录组数据具有不同的特征，可能某个软件并不通用的。因此dyno工具通过其前期的表达特征，提供该数据对所有软件的最优适配的方案，可以选择最优的方案。

不过此工具也有局限性，比如工具不全、工具的版本更新不及时（monocle现在为版本2）、某些功能的缺失、与其他工具的兼容性有待提升等等。因此没有任何万能的工具，只能根据需要进行挑选工具。

这一篇中，介绍了常见的亚群分析的内容和工具，下一篇我们会介绍详细的单细胞转录组其他高级分析过程和原理，请大家继续关注。

参考文献
1.Giovanni Iacono, Ramon Massoni-Badosa, Holger Heyn. Single-cell transcriptomics unveils gene regulatory network plasticity[J]. Genome biology, 2019, 20(1).
2.Gioele L M , Ruslan S , Amit Z , et al. RNA velocity of single cells[J]. Nature, 2018.
3.Park J , Shrestha R , Qiu C , et al. Single-cell transcriptomics of the mouse kidney reveals potential cellular targets of kidney disease[J]. Science, 2018:eaar2131.
4.Zhang X, Lan Y, Xu J, et al. CellMarker: a manually curated resource of cell markers in human and mouse[J]. Nucleic Acids Research, 2019.
5.Aran D, Looney A P, Liu L, et al. Reference-based analysis of lung single-cell sequencing reveals a transitional profibrotic macrophage[J]. Nature Immunology, 2019, 20(2): 163-172.
6.Aibar S , González-Blas, Carmen Bravo, Moerman T , et al. SCENIC: single-cell regulatory network inference and clustering[J]. Nature Methods, 2017.
7.Wouter, Saelens, Robrecht, et al. A comparison of single-cell trajectory inference methods[J]. Nature Biotechnology, 2019.
8.F, Alexander, Wolf, et al. PAGA: graph abstraction reconciles clustering with trajectory inference through a topology preserving map of single cells.[J]. Genome biology, 2019.
9.Diether L , Els W , Bram B , et al. Phenotype molding of stromal cells in the lung tumor microenvironment[J]. Nature Medicine, 2018.
10.Zheng C , Zheng L , Yoo J K , et al. Landscape of Infiltrating T Cells in Liver Cancer Revealed by Single-Cell Sequencing[J]. Cell, 2017, 169(7):1342-1356.e16.

该文来源于“生信阿拉丁”，关注公众号，第一时间查收“新款”生信学习干货。

最后编辑于：2020.03.22 14:26:42

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 159,716评论 4赞 364
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 67,558评论 1赞 294
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 109,431评论 0赞 244
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 44,127评论 0赞 209
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 52,511评论 3赞 287
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 40,692评论 1赞 222
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 31,915评论 2赞 313
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 30,664评论 0赞 202
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 34,412评论 1赞 246
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 30,616评论 2赞 245
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 32,105评论 1赞 260
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 28,424评论 2赞 254
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 33,098评论 3赞 238
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 26,096评论 0赞 8
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 26,869评论 0赞 197
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 35,748评论 2赞 276
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 35,641评论 2赞 271