庚子鼠年春单细胞直播潮观后

庚子鼠年伊春,一场突如其来的新冠疫情牵动着全国人民的心。月末在2020年1月底,科技服务行业开始安排一些“听课不停学”的线上培训课程。一则,这个行业的培训本来是常态,一般是春秋各一季;一则,企业在疫情下复工,许多工作需要远程办理。所以线上课成为首选。

因为我从事的是单细胞数据分析的这个行业,这段时间也听了几家机构的单细胞直播课,同时自己在厂内也做过《单细胞转录组标准分析与个性化》的直播。既然是行业大规模的网络直播,这波直播之后应该会在某种程度上形成共识(common sense)。其实在这波直播过程中也反映出技术、科研、市场的规律。

单细胞 VS 显微镜

有情怀的机构一般会讲讲单细胞的历史。这段历史其实要比北大汤富酬2009年的那篇文章提到的技术长久的多,不过2009年之前的单细胞技术通量比较低,比如一次只能分析几个细胞。早期的单细胞分析一般借助显微镜来人工分选,后来有了流式细胞仪,通量一直在增加,直到现在借助Drop-seq的高通量技术(单个样本一般捕获3000-5000个细胞)。

高通量单细胞技术的成熟,其实给细胞生物学带来了新的视角,这一点就像显微镜或者望远镜一样,它让我们有机会再新的层次上来理解、揭示生命现象。

单细胞能做什么呢?单个细胞及其相互关系将在物理的、化学的、生物的规律将得以揭示。狭义的生命科学上基因组、转录组、蛋白组、代谢组也会因为新工具的引入而带来更多的可能。

单细胞测序(scRNA-seq)通关||数据处理必知必会

国内这方面的科技服务,其实聚集在两方面:转化与创新。转化方面主要是转化国外的技术,不如10X的技术(硬的和软的技术);创新主要是服务模式> 软件能力> 硬件能力。比如有的直播直接拿上游企业的产品宣传视频来播放,大部分都会讲到10X的技术,seurat的分析工具,只有极少的机构能做硬件的创新,一部分能够开发一些算法。

我家单细胞初长成

有一些对新技术追得比较紧的生命科学机构,手上基本有单细胞数据了。情怀牌打过之后就是比较骨感的现实了:手里拿着一个或多个单细胞数据,该如何挖掘呢?其实经过2019年广泛的商业化,单细胞技术的三座大山:

  • 样本制备
  • 建库测序
  • 数据分析

前两座大山已经完成它的商业化了,至少在单细胞转录组是这样的。这当然使得单细胞的研究团队能够更加地专注于从现象到数据,从数据到知识的过程,也为专心科研的团队更轻松地获得单细胞数据。

在数据分析方面其实工具也已经有雏形了,包括空间转录组数据分析。所以我们看到不少将单细胞数据分析的课程,号称代码完全公开,其实公开的不过是Seurat、monocle、scanpy的官方文档。在2019年的时候,大部分单细胞数据分析的软件都进行了升级,但是大的套路没变。在2019年底的时候一篇综述,总结出单细胞转录组最佳实践,提出了几点注意事项也开放了最佳实践的代码。

单细胞RNA-seq数据分析最佳实践(上)
单细胞RNA-seq数据分析最佳实践(中)
单细胞RNA-seq数据分析最佳实践(下)

数据分析主要集中在细胞层面和基因层面:


所以,单细胞数据分析大套路这一块只要能沉下心来,跟着工具的文档,探索自己数据完全是没有问题的。得益于以生信技能树为主的线上社群的努力,生物信息不再是一个缺少代码的行业。比如:7个小时的单细胞转录组视频课程(限时免费),其实单细胞分析的框架已经十分清晰了:

  • step1: 创建对象
  • step2: 质量控制
  • step3: 表达量的标准化和归一化
  • step4: 去除干扰因素(多个样本整合)
  • step5: 判断重要的基因
  • step6: 多种降维算法
  • step7: 可视化降维结果
  • step8: 多种聚类算法
  • step9: 聚类后找每个细胞亚群的标志基因
  • step10: 继续分类

就我个人的体会来讲,单细胞应用方向主要的是在揭示异质性。但是目前用的主要是非监督聚类的方法,这一步尽管是数据分析的核心,同时也是最需要谨慎的地方。不同的算法导致不同的分群,然后再找亚群之间的差异基因也会不同,再基于差异基因去定义细胞类型。其实在没有生物学背景的情况下,这一套流程是很难走得通的。

虽然已经有很多软件和算法来解决单细胞数据分析中的难点,但是目前还是面临着两个主要的问题:

  • 多样本整合
  • 细胞类型鉴定

关于多样本分析我建议区分批次效应与样本整合这两个概念,前者的目的是为了去除数据噪音,后者基于的假设是:相同的细胞类型不应因不同来源而不同。


细胞类型鉴定的方法基本上是在2019年成熟起来的。主要有三种方法:

    1. Marker gene: 看某个亚群的差异基因(one to others)与数据库中哪种细胞类型的 marker gene比较一致,结合其表达量来鉴定细胞类型。常见marker gene数据库有:CellMarker、Mouse Cell Atlas、 cd_marker_handbook、PanglaoDB 等,也可以在文献中收集感兴趣细胞类型的marker gene。
    1. 表达谱相似性:用未知细胞类型的表达谱与已知细胞类型的表达谱做相关性分析,相关性高即鉴定为这类细胞。如R包:SingleR、celaref
    1. 统计模型构建分类器:我们用已知细胞类型的表达谱作为训练集来构建分类器,输入表达谱对我们的细胞来分类和鉴定。如R 语言程序包:Garnett

其实每个细胞都是独一无二的,在鉴定细胞类型的时候,除了结合聚类的结果还可以和拟时分析、富集分析以及生物背景综合来判断。

虽然以后单细胞除了DNA、RNA可能还会有蛋白质、表观,在分辨率上会有空间、细胞内(间)的数据技术出现,每一项技术出现都需要和具体的生物学问题结合起来。

不断壮大的单细胞天地

任何一个物种,所有生物学科都会在得到细胞图谱的基础上,再朝前前进一步。 ---周运来

大部分的直播课都是经过微信公众号来宣传的,而运营这些公众号使我们明白:单细胞每天都有新闻。

在微信公众号、知乎、B站、简书上面关于单细胞的论文、教程也正反映这个领域在当下所处的生长阶段。直播过后,热闹是他们的,希望我们能有看直播之前的那种热情,去比学赶帮。

看到才能想到、想到才能做到,做到才能得到,得到才能失去,失去才能知道适不适合自己。



下面是我们厂这次直播课的回放链接:


QQ:1057591379

10x Genomics和BD Rhapsody单细胞产品介绍及应用 回放链接:
https://ke.qq.com/webcourse/index.html?cid=1073100&term_id=101169126&lite=1&from=800021724#taid=2357803&vid=5285890799182808424

单细胞转录组标准分析与个性化 回放链接,课程从视频26分钟处开始:
https://ke.qq.com/webcourse/index.html?cid=1115895&term_id=101212031&lite=1&from=800021724#taid=2813646&vid=5285890799222117131

植物单细胞高通量测序-样本制备与课题设计 回放链接:

https://ke.qq.com/webcourse/index.html#cid=1319134&term_id=101416393&taid=5887981&lite=1&vid=5285890799516890542

10x单细胞ATAC多组学联合分析 回放链接,课程从17分钟开始:
https://ke.qq.com/webcourse/index.html?cid=1005558&term_id=101101393&lite=1&from=800021724#taid=3256772&vid=5285890799257564270

10x单细胞测序经典研究思路与课题设计 回放链接:
https://ke.qq.com/webcourse/index.html?cid=1008971&term_id=101104806&lite=1&from=800021724#taid=3687020&vid=5285890799323587411

空间转录组发展概况和研究思路 回放链接:
https://ke.qq.com/webcourse/index.html?cid=1006909&term_id=101102744&lite=1&from=800021724#taid=5288005&vid=5285890799462684844

推荐阅读更多精彩内容