Single cell RNA-seq data analysis with R视频学习笔记(八)

第八讲:单细胞轨迹推断分析

视频地址:https://www.youtube.com/watch?v=XmHDexCtjyw&list=PLjiXAZO27elC_xnk7gVNM85I2IQl5BEJN&index=10

练习地址:https://github.com/NBISweden/excelerate-scRNAseq/blob/master/session-trajectories/session-trajectories.md

轨迹推断分析可以帮助我们理解细胞状态的改变的过程,尤其是在细胞分化方面。

上图眼熟吧?是单细胞分析的一个经典的流程。做完聚类后,如果需要你可以做轨迹分析,通过轨迹分析你可以做差异基因的分析,从而得到细胞在分化过程中不同状态下的基因表达差异。当然中间的流程是经典流程,你也可以根据你的需要从不同的步骤跳到轨迹分析。

那么实验时间点的这个"time",和发育的“time”有什么不一样。前者就是我们平时说的“时间”,而后者说的是一种“拟时间”(pseudotime)。细胞按照拟时间的顺序来进行分化。上图中的坐标举的例子是,横坐标你用一种外界刺激使得细胞进行分化,那么纵坐标就是细胞分化的进程。需要注意的是,即便你在每一步都是homogenous的细胞群,你的所有细胞的分化速度都是不一样的。比如上图的9h,尽管很多细胞已经完全的分化了,但是仍然有少数细胞处在中间态,和完全没有分化的状态。这也就是“非同步化”。所以,在任何一个节点,你的所有的细胞个体都代表“这个瞬间”的分化状态。

那是每个人都需要进行轨迹推断分析吗?当然不是。你需要确认的是你的dataset里是否涉及分化过程,或者你的细胞是否有“中间态”。比如:骨髓里的细胞,里面有很多“progenitor cells”,你就需要进行轨迹分析。再比如说你的样品来自血液,血液里都是已经分化成熟的细胞了,基本上不用进行轨迹分析了。需要注意的是:有时候轨迹分析的结果在生物学上并没有意义!所以最好是你已知一部分的分化轨迹,或者知道细胞在某一状态的时候会表达什么基因。

现在有很多种方法可以进行轨迹分析。请注意,不同的轨迹分析软件所对应的降维方法是不一样的。如上图所示。上图没有列出所有的降维方法,只是举一些例子。

在讲解轨迹分析方法之前,主讲人想先介绍两个之前没提到过的降维方法:第一种,ICA:

如果你用monocle v1的话,就是ICA的方法。这种方法与PCA非常相似。区别是:ICA是分解你的data,PCA则是把highest variation分配到highest component里。

现在来详细的看一下ICA到底是干什么的。上图所示,在你的样品里,包含有很多种生物signal,可能有受体信号、可能有细胞活化和增殖的信号、可能有细胞发育期间的Marker。但是当你把这些信号都combine的时候,就像右图。ICA做的事就是分解你的data,使得你可以看到原始的生物信号。

ICA是怎么工作的呢?上图左边是PCA的图,PCA是把highest variation找出来。作为第一主成分。而ICA是从你的data里找出最独立的成分。但是ICA也有缺点:ICA假设它所找出来的生物信号都是相互独立的。另一个就是每个信号的来源都是非高斯分布。这里不好理解,举个例子:在教室里放4个麦克风,然后所有人在说话的时候,我们需要区分出究竟谁在说话。ICA可以分解出每一个人的声音。这些声音就是非高斯分布的。而在生物信号里,大部分的情况下,信号来源都是高斯分布的。即便是对于单个细胞来说,你也很难说是高斯分布,还是非高斯分布。

ICA是一个线性降维方法。可以分解你data里的不同生物信号来源,这种降维方法对后面的轨迹分析比较有利,它可以分辨出哪个信号先出现,哪个信号后出现。但是这种方法有时候在分析单细胞数据的时候得到的结果并不真实。而且ICA默认的是所有的信号来源是同等重要的,但事实并不是。

下一个主讲人想讲的是另一种之前没提到的降维方法,diffusion maps。

diffusion maps是一种非线性降维方法。它是基于计算“probability”进行工作的。举个例子:从点1到点6,你可以选择一条路径1>2>6。这就是2步。你也可以选择3步,比如1>4>5>6和1>4>7>6。它计算的是“可能性”。

简单的来说:为了把可能性转化成距离,DM计算B到C的可能性,再计算A到C的可能性,根据公式,如果两种可能性差不多大,那么它们的差值就趋近于0。说明A到B的过程可以通过C来很好的连接起来。

在了解了两种降维方式之后,我们可以来看如何建立细胞之间的关系。从而我们可以知道我们应该从哪里开始建立轨迹,又在哪里结束。一种方法叫做“MST”(翻译过来叫:最小生成树)。

先来举个简单的例子,上图里有很多个点,每一个点之间的距离你都可以量的出来。或者你用上面提到的diffusion map可以计算出每个点之间的“可能性”。然后你可以把每一个点连线,黑色的粗线就是最小生成树。怎么理解呢?为什么说是最小生成树呢?这个“最小”怎么理解?我们要找到一个“把所有的点连在一起时,相加的数最小”的方式。(把这句加粗的句子多读几遍,就理解了)另外加一句,如果你分析前就知道你的发育起始点,或者例如干细胞,那就会相对容易很多。

需要注意的是:MST没有循环!所以如果你研究的生物过程是细胞增殖(周期),那你就不能用这个方法。

第二个方法建立细胞轨迹,这个方法就是现在monocle 2使用的方法。叫做反向图嵌入。

为什么使用这个方法呢?上图,A比如说是一个最小生成树得到的轨迹推断。如果你把其中一个点的位置稍稍挪一下,像B图那样,你会发现细胞轨迹完全就改变了!因为最小生成图非常依赖于每一个点。所以这个RGE的方法是像C图一样,先把你的细胞或者样品做cluster,根据这些细胞的平均值来画轨迹图。

上图显示的是RGE的一个工作原理图。从左上角的红点那个图看起,你有很多个点在多维的空间里。然后你用各种方法做了降维(第一行中间图)。之后根据一些clustering来假设一个轨迹。接下来(第二行右图)RGE所做的事就是:由于有些点离这个假设的轨迹比较远,它就把每一个点分配到离点最近的轨迹的部分上。然后更新中心点,将二维的轨迹投影到多维空间里,比较是否和原始的数据相吻合,如果不是,它会再回到降维后的那一步,循环这个过程。这个过程实际上很像前面讲降维里的tSNE和UMAP的循环。直到这个细胞轨迹与原始data非常符合。这时你可以选择这个轨迹的root,这样你就可以定义你的“拟时间”或者是“发育轨迹”了。另外根据你的轨迹图里的“分叉”,你还可以定义你的cell fate。

根据RGE的idea,这两年又发展不少新的方法。你不需要掌握这么多方法,会一个,会用就行了。

这是Monocle v3的一个工作流程。首先拿到你的dataset> 标准化你的data > 降维> 聚类 > 建立你的tree(拟时间)> 差异基因分析。

现在介绍一个新的模型:RNA velocity。有道翻译:RNA速度。这个模型是基于生物学概念的一个模型。是一个基因表达的轨迹推断模型。

学生物的都知道,mRNA刚转录出来的时候,是没有经过剪切的。里面有内含子。剪切后,你会得到spliced mRNA。这是编码蛋白的。你同时还会有一些mRNA降解。这个模型可以看什么?上图右边的6张图,每一个点是一个细胞,你可以比较在拟时间线上的一个瞬时的点,“经过剪切的mRNA”和“未经剪切的mRNA”哪一个要更提前。

来看一个更为直接的例子:上图红色代表未剪切的mRNA,蓝色代表剪切的mRNA,两个群分别代表你所有的细胞的两个基因的表达情况。根据生物学概念来推断,你的这些细胞的状态应该是从左往右的。所以这样一来,你就知道你的轨迹应该是从哪里开始了。这个模型可以让你定义你的轨迹的“起点”、“终点”和“分支”。

这个模型的好处还有一个:它可以建立一个循环的轨迹。

下面总结一下:

在实际的实验中,多维空间里的距离常常反映了细胞群之间的基因表达差异,而不是真正意义上的“时间”。所以才把这一个概念称为“拟时间”。你的样品里需要包含一个连续的细胞状态。如果你的细胞群是完全独立的、完全不同的,有可能你会得到错误的结果,或者得到一个不太好的轨迹图。第三,如果你是研究细胞分化过程,最好设计多个实验取材的时间点。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
禁止转载,如需转载请通过简信或评论联系作者。
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 159,458评论 4 363
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 67,454评论 1 294
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 109,171评论 0 243
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 44,062评论 0 207
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 52,440评论 3 287
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 40,661评论 1 219
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 31,906评论 2 313
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 30,609评论 0 200
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 34,379评论 1 246
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 30,600评论 2 246
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 32,085评论 1 261
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 28,409评论 2 254
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 33,072评论 3 237
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 26,088评论 0 8
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 26,860评论 0 195
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 35,704评论 2 276
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 35,608评论 2 270

推荐阅读更多精彩内容