Diffusion Map在单细胞中的应用

单细胞降维

基于单细胞表达矩阵的降维方式有很多,例如UMAP,t-SNE,PCA等,而Diffusion Map是基于非线性的降维模式。对于单细胞表达谱而言,该降维方法有利于降维出“枝干形状”的效果:


Diffusion Map

文中提到的URD软件既是基于Diffusion Map算法而制作的,Diffusion Map又称为扩散映射,其原理是将空间距离转换为一种状态转移的概率,从而确定随机游走的方向,从而确定细胞发育轨迹
该算法分为确定细胞转移方向(Markov矩阵)和降维(Markov矩阵特征值分解降维)两块



如图所示,红色为我们的目标细胞,在目标细胞周围有一些细胞,那么Diffusion Map首先计算这些细胞两两之间的距离,进而Affinity化,即如果两个细胞距离较大,那么其概率就小,如果两个细胞距离较小,那么其概率就大。再将其转换为Markov矩阵,Markov矩阵表示某细胞向其他细胞转移的概率,因此在网络图中,边的权重可以用Markov矩阵中的元素表示:



如上图所示,对于邻近的几个细胞来说,当距离矩阵换算为Markov矩阵后,里面的元素代表细胞间转移游走的概率,比方说M12代表cell_1向cell_2转移的概率;M13代表cell_1向cell_3转移的概率。距离远的细胞转移概率比较小,距离近的细胞转移概率比较大(参照下文的Markov矩阵)。
因此Markov矩阵表示细胞随机转移到方向,进而特征值分解降维到二维即可看出细胞的轨迹

1.计算距离矩阵

那么我们的单细胞矩阵形如:


单细胞表达矩阵

每一行代表一个基因(一共m个基因)。每一列代表一个细胞(一共n个细胞)。首先,该算法先计算两两细胞之间的距离,转换为距离矩阵D:


距离矩阵

2.Affinity

之后根据一些核函数,例如高斯核函数进行转化,这一步称为Affinity,转移后的矩阵简称为A矩阵,i 为行,j 为列,其中Dij代表上述的距离矩阵

高斯核转换

A矩阵如下:
A矩阵

3.标准化(Markov矩阵)

再之后将A矩阵按行标准化以后,转化为Markov矩阵:


将Markov矩阵简称为M矩阵:


M矩阵

比方说,cell_1和cell_2对应的值表示cell_1向cell_2转移的概率;而Markov矩阵为实对称矩阵,一定能分解为n个秩为1的方阵乘它们各自的特征值λ然后相加的结果

接着我们需要把M矩阵给对角化分解:



其中ψ1,ψ2.....ψn是ψ矩阵的行向量,ψ矩阵为特征向量矩阵

ψ矩阵为n×n的特征向量方阵
那么 t 表示多重转移的次数,转移多次后可以达到平稳状态;这个对角矩阵的主对角线表示的是M矩阵的特征值(这里只展示3个):

对角矩阵

此时重构数据点new:


其中ψ1,ψ2.....ψn是ψ矩阵的行向量

容易得到:



ψ×M代表将特征向量重新做旋转拉伸,变换后的特征向量带有M矩阵的特征,即细胞间距离的特征。
特征向量指向的点代表每个细胞在高维空间所在的点,变换后的列向量为带有细胞距离特征的新坐标点

ψ矩阵为n×n的特征向量方阵

其中q1,q2.....qn为ψ矩阵的列向量,即特征向量;ψ1,ψ2.....ψn是ψ矩阵的行向量;由于M矩阵为实对称矩阵,因此q1...qn相互正交(实对称矩阵可以被正交对角化)

也就是重构的新坐标点矩阵等于特征向量矩阵乘Markov矩阵,对应的元素是相等的,并以此作为新坐标点,M矩阵表示的是两两cell的距离,其中ψ×M相当于做拉伸旋转变化,变换后表示每个细胞在高维空间的相对位置(相对坐标)
个人认为作者采用M矩阵的特征向量组来重构坐标是因为方便后续的计算,个人感觉任意一组正交向量组都可以,因为降维是依据特征值λ的大小来完成的,所以M矩阵的特征向量组是最好选择

新构造的矩阵为new表示的是每个细胞在对应维度的坐标:

new

其中λ的顺序为从大到小,ψ矩阵为n×n的特征向量方阵,ψi 表示第 i 行向量;即第 i 行的特征向量。从某种意义上,此时的n仍然表示细胞个数,而假设我想降维到二维,那么我只需保留前两个即可,即 i=1,2,那么每个细胞的坐标既是二维的

这样就完成了降维,那么Diffusion Map通过Markov随机游走来判断细胞转移的方向,从而确定细胞轨迹的

小tip

这个tip是关于如何理解


这一个坐标转换公式的意义,我们不妨举一个简单的例子:

前面的是特征向量矩阵,后面的是M矩阵,正如我们所说的,M矩阵是一个实对称矩阵,所以特征向量:q1,q2,q3是相互正交的,并且M×q与q转置×M是等效的
我们不妨利用矩阵的乘法性质画出图来观察:

在高维空间里,三个细胞的相对位置如图所示,假设cell_1坐标为(a1,b1,c1);cell_2坐标为(a2,b2,c2);cell_3坐标为(a3,b3,c3)
那么我们知道,在三个细胞中,经过计算q3向量特征值λ3比较小(这是因为q3向量的变化相当于q1向量和q2向量较小),所以对应只保留q1向量特征值λ1和q2向量特征值λ2,从而构建二维坐标,这样就完成了由三维降至二维

盗图传送门:传送门

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 158,736评论 4 362
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 67,167评论 1 291
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 108,442评论 0 243
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 43,902评论 0 204
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 52,302评论 3 287
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 40,573评论 1 216
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 31,847评论 2 312
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 30,562评论 0 197
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 34,260评论 1 241
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 30,531评论 2 245
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 32,021评论 1 258
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 28,367评论 2 253
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 33,016评论 3 235
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 26,068评论 0 8
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 26,827评论 0 194
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 35,610评论 2 274
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 35,514评论 2 269

推荐阅读更多精彩内容