单细胞大样本量数据处理新方法||Simpler single cell RNAseq data clustering

聚类是分析单细胞RNA序列(scrna-seq)数据的一种常用分析方法,但数据量的快速增长会使这一过程在计算上具有挑战性。准确高效聚类的新方法是迫切需要的。本文提出了一种基于随机投影和特征构造的大规模scrna-seq数据聚类新框架——spearman次抽样聚类分类(Spearman subsampling-clustering-classification,SSCC)。SSCC大大提高了以多个真实数据集为基准的各种最先进算法的聚类精度、鲁棒性和计算效率。在一个拥有68578个人类血细胞的数据集上,与广泛使用的软件包SC3相比,SSCC在聚类准确性和50倍加速方面实现了20%的改进,但只消耗了66%的内存使用。与K均值相比,SSCC的精度提高了3倍。SSCC的R实现可在https://github.com/japrin/ssclus上获得

单细胞RNA测序(scrna-seq)通过揭示高分辨率单个细胞的异质性,彻底改变了转录组学研究。聚类已成为识别细胞类型、描述其功能状态和推断潜在细胞动力学的常规分析手段[4-10]。已经开发了多种聚类算法,包括Seurat[11]、SC3[12]、Simlr[13]、Zifa[14]、CIDR[15]、SNN-Cliq[16]和Corr[17]。这些算法大大提高了scrna-seq数据的聚类精度,但往往具有较高的计算复杂度,阻碍了这些优雅算法向大规模scrna-seq数据集的扩展。随着scrna-seq技术的快速发展,吞吐量已从最初的数百个细胞增加到现在的数万个细胞。对来自多个运行甚至跨多个研究的scrna-seq数据集的综合分析进一步加剧了计算困难。因此,需要能够高效、准确地对单个单元进行聚类的算法。

为了处理多个大规模scrna-seq数据集,通过将大数据集降采样或卷积为小数据集或通过使用新的软件实现加速计算,提出了特殊的计算策略。这些战略已经达到了不同的成功水平,但还没有充分解决这些挑战。考虑到高效、准确的聚类工具对大规模scrna-seq数据分析的重要性,本文提出了一种新的计算框架,即基于机器学习技术的Spearman次抽样聚类分类(SSCC),包括特征工程和随机投影,以提高聚类的准确性和有效性。对各种scrna-seq数据集进行基准测试表明,与目前的解决方案相比,SSCC可以在保持高聚类精度的同时,将计算复杂度从O(n2)降低到O(n)。此外,新的计算框架的灵活性允许我们的方法进一步扩展和适应于scrna-seq数据分析的广泛应用。

框架概述

在处理大型scrna-seq数据集的可用解决方案中,具有次采样和分类的集群[12,19]具有线性复杂性,即O(N)。这种框架一般由四个步骤组成(图1a)。(1)利用基因和细胞过滤、归一化等数据预处理技术构建基因表达矩阵;(2)将细胞分为两个子集,分别进行亚采样聚类和分类;(3)将用于聚类的子集细胞分为多个聚类。ng k-means[23]、层次聚类[24]、密度聚类[25]或专门为scrna seq开发的算法;以及(4)监督算法,如k-nearest neighbors[26]、支持向量机(SVMS)[27]或随机森林[28]用于根据第三步是聚类结果。为了简单起见,我们将这个现有框架称为子抽样聚类分类(scc)。由于聚类是一个耗时且内存耗尽的过程,因此通过子采样将这一步骤限制在一个小的单元子集上,可以利用有监督机器学习算法的效率,大大降低从O(n2)到O(n)的计算成本。然而,建立在一小部分细胞原始基因表达数据基础上的分类器,由于原始数据的噪声和细胞的数量少,可能存在缺陷和偏差,从而影响了整个细胞标签分配的准确性。


图1。快速聚类大规模scrna-seq数据集的两个计算框架a.sc3中提出的原始计算框架(简称scc)包括四个主要步骤:
(1)构建基因表达矩阵;
(2)通过细胞亚扩增将矩阵分为两部分。
(3)将子样本细胞聚类;
(4)将未完成的细胞分类为聚类。

b.本研究中提出的新计算框架(参考SFCC)。在聚类和分类之前添加一个特征构造步骤。整个框架包括五个步骤:
(1)构建基因表达矩阵;
(2)通过细胞子采样将矩阵分为两部分;
(3)将子采样/未采样的细胞投影到特征空间;
(4)将子采样的细胞聚集到特征空间;
(5)对uns进行分类。在特征空间中将单元格合并为簇。
scrna-seq,单细胞RNA测序;sc3,单细胞共识聚类;scc,亚采样聚类;sfcc,亚采样特征聚类。

在这里,我们提出了一个新的计算框架,通过在SCC中添加一个特征工程/投影步骤来集群大型scrna-seq数据(图1b)。与SCC相似,基因表达矩阵首先通过基因和细胞过滤和归一化构建(步骤1,图1b),然后随机分为两个子集,分别进行聚类和分类(步骤2;图1b)。与直接使用基因表达原始数据的scc不同,我们的新框架将细胞投影到特征空间(步骤3;图1b)中进行聚类(步骤4;图1b)和分类(步骤5;图1b)。

由于新框架的特点是具有聚类分类策略的二次抽样,因此我们将其命名为sfcc。具体来说,我们将特征构造分为两个步骤:

  • (1)将特征提取技术应用于需要聚类的单元;
  • (2)根据特征提取方法的选择,将分类单元投影到构建的特征空间中。

机器学习领域的许多成熟技术可以通过这两个步骤加以利用。例如,主成分分析(PCA)[29]可用于首先为正在进行聚类的单元构造特征,而合成的加载向量可用于线性变换,以投影单元,以便分类到特征空间。在sfcc框架的每个步骤中选择不同的算法将形成不同的管道,用于集群大规模scrna-seq数据集。为了减少算法组合的总数,本文重点比较了各种特征工程算法的性能。我们将基因和细胞过滤、归一化、亚采样和分类算法作为实践中常用的算法。现有的SCC策略可以看作是SFCC的一个特例,其中原始数据空间是特征空间。

本研究所涉及的特征工程技术包括基于距离的方法(欧几里得和余弦)、基于相关性的方法(皮尔逊[30]和斯皮尔曼[31]相关性)和基于神经网络的方法(自动编码器)[32]。对于基于距离和相关的方法,直接使用聚类的细胞的距离/相关矩阵作为其特征,使用分类和聚类的细胞之间的距离/相关矩阵来构建分类的细胞特征子集。对于自动编码器,首先利用待聚类细胞的基因表达数据训练神经网络模型,然后通过训练后的模型的编码函数将所有细胞投射到特征空间中。为了获得独立于聚类算法的评估结果,我们使用轮廓值(silhouette values)[33]来检查这些特征工程方法的全局性能。在全局评价的基础上,选择最有效的方法SSCC和具有斯皮尔曼相关的SFCC作为特征构建方法,进行进一步评价。

scRNA-seq datasets used in this study

我们使用七个scrna-seq数据集来评估特征空间中的聚类性能。这些数据包括Kolodziejczyk数据集[34]、花粉数据集[8]、Usoskin数据集[9]、Zeisel数据集[10]、郑数据集[5]、PBMC 68 K数据集[18]和Macosko数据集[19]。

大规模scrna-seq数据的可用性迫切需要高效和准确的集群工具。目前,一些scrna-seq数据分析包已被提议解决这一挑战。在这些工具中,sc3[12]、seurat[11]和dropclust[20]采用了scc策略,bigscale[21]采用卷积策略,通过贪婪的搜索算法将相似的单个单元合并为巨型单元,scanpy[22]使用python作为编程语言来加速集群过程。虽然这些策略大大提高了大型scrna-seq数据分析的效率,但仍有很大的改进空间。特别是SCC策略存在着子采样带来的偏差,尽管它可以将计算复杂度从O(n2)降低到O(n),但这可能会大大降低聚类的准确性和鲁棒性。在这里,我们将特性工程和投影技术引入到SCC框架中,并提出SFCC作为替代方案。特别是,以斯皮尔曼关联作为特征工程和投影方法,我们建立了一个称为SSCC的框架,它可以显著提高许多通用和特殊设计的聚类算法的聚类精度和一致性。对真正的scrna-seq数据集的评估,包括各种scrnaseq技术、测序深度和生物体,证明了SSCC优越性能的稳健性。因此,SSCC有望成为一个有用的计算框架,进一步释放scrna-seq未来的强大功能。

简单单小区RNAseq数据聚类(sscClust)是一个实现简单使用聚类管道的包。单细胞RNAseq数据聚类通常由变量基因选择、降维、降维数据聚类等组成。目前,该包还封装了针对单细胞RNAseq数据设计的其他聚类方法,包括SC3、ZinbWave等。


Simpler single cell RNAseq data clustering

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 159,835评论 4 364
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 67,598评论 1 295
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 109,569评论 0 244
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 44,159评论 0 213
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 52,533评论 3 287
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 40,710评论 1 222
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 31,923评论 2 313
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 30,674评论 0 203
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 34,421评论 1 246
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 30,622评论 2 245
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 32,115评论 1 260
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 28,428评论 2 254
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 33,114评论 3 238
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 26,097评论 0 8
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 26,875评论 0 197
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 35,753评论 2 276
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 35,649评论 2 271

推荐阅读更多精彩内容