Seurat4.0|| 单细胞多模态数据分析启示录

前情回顾

Seurat 4.0 ||单细胞数据分析工具箱有更新
Seurat 4.0 ||单细胞多模态数据整合算法WNN
Seurat 4.0 || 分析scRNA和表面抗体数据
Seurat 4.0 || WNN整合scRNA和scATAC数据
Seurat 4.0 || 单细胞PBMC多模态参考数据集
Seurat 4.0 || 单细胞BMNC多模态参考数据集
Seurat教程上新||Mixscape : 用多模态单细胞数据筛选免疫检查点

2020年10月,纽约基因组所( New York Genome Center )的 Satija Lab团队开发的单细胞分析工具Seurat升级到了4.0,其特性之一是开发了加权邻近(weighted-nearest neighbor,WNN)算法来分析多模态数据。所谓多模态(multimodal )是指同时在一个细胞内测量分属于(广义?)中心法则不同过程的特征(如,RNA,ATAC,膜蛋白等)。直观地说,这可以从多个侧面反映细胞的真实状态,也会进一步细化我们对细胞行为与状态的理解,这对我们研究生命发育、疾病形成的重要作用是不言而喻的。我们知道,如果是单一模态的数据,如RNA,只是一个侧面;如果只是独立研究,如分别研究RNA和膜蛋白,许多时候不能很好的相互解释。在单细胞面前我们都是贪玩的孩子,不能只摸到象牙就说这是根筷子。

Seurat 4.0 提出WNN是在这样的考虑之下的,重要的是目前的技术已经允许我们同时测量多模态数据了,如CITE-seq可以同时测得RNA和表面蛋白,2020年10X公司也推出了同时测RNA和ATAC的商业解决方案,空转(ST)2019年也已经面市。数据产生需要新的数学框架来整合他们。

WNN算法细节以及应用实例可以在Satija Lab团队的(预印本)文章Integrated analysis of multimodal single-cell data中查看阅读。本文是在学习Seurat 4.0 教程之后的体会,以飨关心单细胞技术发展的华语同行。谬误在所难免,承蒙斧正,不胜感激。

不变

Seurat的框架基本是没变的。这对单细胞数据分析来说是一件好事,因为我们遇到过糟糕的情况:除了R包名字没变之外,一切都变了的情况。如monocle的2和3,与其说是不同版本不如说是不同的R包了。熟悉Seurat v3的同行应该能够平稳地过渡到Seurat v4。虽然引入了大量的新功能,但v3的工作流程、函数和语法,可视化方案在这次更新中基本没有变化。此外,以前在Seurat v3中生成的Seurat对象可以无缝地装载到Seurat v4中以进行进一步分析。

有一点提示下,这几乎是语义上的:“整合”。Seurat V3 一度被认为是整合(Integrate,CCA+MNN)不同RNA数据集的标杆工具,在其文章Comprehensive Integration of Single-Cell Data中提到:Seurat v3引入了集成多个单细胞数据集的新方法。这些方法的目的是识别存在于不同数据集的共享的细胞状态,即使它们是从不同的个体、实验条件、技术平台甚至物种,用到的函数是FindIntegrationAnchors。业内有不少拿它和去批次的工具在一起做benchmark,其实这不是一回事。强调,整合与批次不是一回事。在V4 中整合不同的RNA数据集你依然可以用‘FindIntegrationAnchors’。在V4的WNN中也有一个“整合”,这里的整合多为多模态数据之间的整合,用到的函数FindMultiModalNeighbors。可见,这个函数在v3中对应的位置应该是FindNeighbors,即构建细胞间的图结构用的部分。

我们可以用pacman包来看看新旧版本有哪些函数的变化。

packageVersion("Seurat")
[1] '3.9.9.9005'

library(pacman)
v4fun<-p_functions("Seurat")
setdiff(v4fun,v3fun) # 我存的v3的所有函数

 [1] ".__C__IntegrationAnchorSet" ".__C__ModalityWeights"      ".__C__TransferAnchorSet"    "CalcPerturbSig"            
 [5] "DEenrichRPlot"              "FindMultiModalNeighbors"    "FindSubCluster"             "FoldChange"                
 [9] "Graphs"                     "IntegrateEmbeddings"        "MappingScore"               "MapQuery"                  
[13] "MixscapeHeatmap"            "MixscapeLDA"                "NNPlot"                     "PlotPerturbScore"          
[17] "PredictAssay"               "PrepLDA"                    "ProjectUMAP"                "RunLDA"                    
[21] "RunMixscape"                "RunSPCA"        
几多

看了预印本的文章Integrated analysis of multimodal single-cell data之后觉得WNN简直就是单细胞界的统一场论:可以把单细胞内的隐藏表达矩阵都可以整合到一个Seurat对象中,伟大。但是在重现了V4的教程之后,特别是看到教程RNA+膜蛋白和教程RNA+ATAC是分开的之后,觉得V4没有那么激进:不是一个教程同时整合RNA+ 膜蛋白+ ATAC+空转。这也许不是算法上的,而是技术上的:目前还没有技术可以这么测。现阶段WNN的定位应该是为【scRNA+】提供解决方案。

几才算多呢?

在WNN中所谓的加权主要是给不同模态的数据以不同的权重,比如RNA和膜蛋白中,膜蛋白的权重要高一些,因为它更接近真实状态(RNA不容易看到?)。在算法中,多模态数据可以看作是一个多分类的过程,如果把每一个模态看作我们对细胞的一层感知机,多模态就是多层感知机(机器学习的同行看过来)。随着模态的增加,就像我们提示过的:要以数据库的思维来理解单细胞数据。

又如本文的封面所述,在单细胞技术的早期,数据分析像一本精装书(Hardcover)很精美很细致,每个技术的进步都带来惊喜。随着数据的积累,成本的降低,技术普及,特别是多模态技术的发展,要把多模态的数据解释清楚也就愈发需要生物学的知识,此时的单细胞数据分析就像一本简装书(Paperback):可能需要一个团队来读。这也是我们一直主张的:建立自己的单细胞数据分析团队。

启示录

单细胞技术本身是在NGS技术基本成熟条件下发展出来的,所以数据可以超指数增长;NGS的测序和生信大部分可以扩展到单细胞水平上,所以获得数据和分析工具并不难。单细胞数据分析可以快速入门,一如某上联所述:降维聚类必知必会。但是,当我们把单细胞数据分析的物理要素(数据,服务器,软件)配齐后,我们依然面临:数据如何挖,故事如何讲的科学问题。多模态技术的发展,对生物学背景提出了进一步的要求。之前的scRNA数据,就是表达量咯,不管是均一化,标准化,表达量高的还是高的,低的还是低的,一聚类,高的和高的在一起。如果你是一个数据科学家,翻开自己工具箱,很容易去分析单细胞数:一个矩阵而已。但是,RNA和ATAC可不是直接比较表达量就可以的呀,这时候,打开工具箱,还需要另一个装满生物学问题的急救包。

一如前苏联百科全书式的教授柳比歇夫所比喻的:蠕虫那么长,人生啊可是那么短!在这里,我惊叹:单细胞那么大,宇宙可是那么小呀!

亚历山大·亚历山德罗维奇·柳比歇夫(1890年4月5日--1972年8月31日),前苏联的昆虫学家、哲学家、数学家。毕业于圣彼得堡国立大学,一生发布了70余部学术著作,从分散分析、生物分类学到昆虫学等。业余时间研究地蚤的分类,还写过不少科学回忆录。 各种各样的论文和专著,他一共写了五百多印张。五百印张,等于一万二千五百张打字稿。即使以专业作家而论,这也是个庞大的数字。他不顾政治迫害,做了大量工作来反对和批评当时属于苏联生物遗传学主流的李森科主义。还应用数学方法来研究生物分类学。感兴趣可以读一本小书:《奇特的一生》。


https://www.njtierney.com/post/2017/10/27/change-pkg-name/
https://r-pkgs.org/namespace.html

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 160,108评论 4 364
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 67,699评论 1 296
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 109,812评论 0 244
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 44,236评论 0 213
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 52,583评论 3 288
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 40,739评论 1 222
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 31,957评论 2 315
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 30,704评论 0 204
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 34,447评论 1 246
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 30,643评论 2 249
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 32,133评论 1 261
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 28,486评论 3 256
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 33,151评论 3 238
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 26,108评论 0 8
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 26,889评论 0 197
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 35,782评论 2 277
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 35,681评论 2 272