孤立核函数( Isolation Kernel)的前世今生

“人类的知识祭奠都是来源于探究事物的相似和不同之处。” —— 诺贝尔


图1显示了橘子和苹果的酸甜度分布图,如果出现了一个新的水果(披着苹果皮橘子芯),按照口味分类的话,那我们就可以划分其为橘子的亚种。

图1: 水果酸甜度分布


相似度计算是很多数据挖掘和机器学习算法中不可或缺的一部分,而核函数(kernel function)的最终目的也是计算任意两个数据点的相似度。核函数在机器学习领域获得了广泛运用,尤其是在SVM分类器中,将低维空间线性不可分的模式通过非线性映射到高维特征空间则可能实现线性可分。通俗来讲,核函数就是一种相似度度量函数,其本质在于通过把数据映射到一个新的空间(无论高低维),再在新的空间中计算数据之间的点积作为新相似度(核函数是可以跳过映射步骤直接计算出该相似度)。当前网上有很多深入浅出的讨论核函数博客,如果大家感兴趣可以浏览这篇知乎文章。再比如kernel k-means是把欧式距离公式替换成了核函数相似度公式,以找到非球状的簇,详细内容可以查看这个PPT。因此,如何设计相似度度量是设计核函数的核心,也就是设计衡量2个物体是否相似的评判标准。

* 相似度和相异度是可以互相转换的,例如我们常用的欧式距离是一种相异度计量方法,就是看两个点在数据空间中相隔的距离。如果用一个常数减去这段距离就可以得到这两点的相似度,即距离越近,相似度越高。

首先,我们先探讨一下将两个苹果放置在梨子堆里和放置再苹果堆,这两个苹果之间相似度会不会发生转变?


如果我们还是用口味坐标轴表示这俩苹果的关系,我们发现用常用欧式距离算相似度的话,他们并没有任何改变,即与背景数据分布无关。


然而,心理学家很久以前(1970’)就发现人类认知事物是需要考虑环境影响的,也就是说这俩苹果如果放在梨子堆,他们应该更加的相似啦,也更容易被找到啦!(传说中说少数群体惺惺相惜) 


因此,我们需要设计更符合人类心理学特征的相似度计量方法 —— 基于数据分布特性的核函数(data-dependent kernel)!从数学上来讲,就是说我们需要增加低密度区域里物体之间的相似度,降低高密度区域里物体之间的相似度。为了达到这个目的,我们可以设计很多不同的方法来重新衡量相似度,本文接下来就是讲解如何利用数据孤立机制来设计相似度计量方法 —— 孤立核函数(Isolation Kernel)

我之前的博文已经介绍过2种基于孤立机制来查找数据异常的方法,iForest和iNNE。他们都是利用数据的抽样来划分数据空间的方法,数据越密集的地方由于抽到的样本越多,越容易被划分到更细小的子空间,这种特性就非常符合我们要设计的核函数啦!我们可以同样用树(类似iForest)或者用最近邻(类似iNNE)来划分空间,本文仅讲解用最近邻来画格子,因为目前实验效果更好。原文发表在2019 AAAI,其包含2个核心步骤: 

1. 从训练数据中随机选择Ψ个点样本点作为subsample,然后以这Ψ个点样本划分整个数据空间,形成维诺图(voronoi diagram),即一个样本点为一个细胞(cell)的中心。反复训练 t 次得到 t 个维诺图。

2. 将测试的俩个数据点放进每个维诺图中,如果这俩个点落在同一个细胞中,则他们的相似度为1,否则相似度为0。然后计算得出他们落在同一个细胞中的概率即最终的相似度。

* 具体实现这个计算的时候,并不需要画维诺图,只需要判断俩个数据点是否在训练数据中享有同样的最近邻就行,因为维诺图就是按最近邻来划分细胞的。

图2展示了一个维诺图划分的区间分布,可以看到数据分布越密集的地方会被划分得越多,那么测试数据点如果在这些地方,则他们更容易掉进不同的细胞里面而得到更小的相似度。因此,这个孤立机制计算出来的相似度非常符合之前提到的人类心理学的特性!

图2: Ψ=20 形成的维诺图

实践证明,采用这种相似度计算方法,可以显著提现有基于欧式距离的分类器和聚类器的性能,使用起来也非常简单粗暴,直接替换他们算法中的欧式距离计算模块就好。详细的实验结果可以参考论文(部分论文使用了其他的孤立划分空间的方法):

1. Qin, X., Ting, K.M., Zhu, Y. and Lee, V.C., 2019, July. Nearest-neighbour-induced isolation similarity and its impact on density-based clustering. In Proceedings of the AAAI Conference on Artificial Intelligence (Vol. 33, No. 01, pp. 4755-4762).

2. Xu, B.C., Ting, K.M. and Zhou, Z.H., 2019, July. Isolation set-kernel and its application to multi-instance learning. In Proceedings of the 25th ACM SIGKDD international conference on knowledge discovery & data mining (pp. 941-949).

3. Ting, K.M., Xu, B.C., Washio, T. and Zhou, Z.H., 2020, August. Isolation Distributional Kernel: A New Tool for Kernel based Anomaly Detection. In Proceedings of the 26th ACM SIGKDD International Conference on Knowledge Discovery & Data Mining (pp. 198-206).

4. Ting, K.M., Zhu, Y., Carman, M., Zhu, Y. and Zhou, Z.H., 2016, August. Overcoming key weaknesses of distance-based neighbourhood methods using a data dependent dissimilarity measure. In Proceedings of the 22nd ACM SIGKDD international conference on knowledge discovery and data mining (pp. 1205-1214).


最新孤立核函数源码下载:https://github.com/zhuye88/anne-dbscan-demo

全文完,转载必须注明出处:  © Ye Zhu 2021

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 159,716评论 4 364
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 67,558评论 1 294
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 109,431评论 0 244
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 44,127评论 0 209
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 52,511评论 3 287
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 40,692评论 1 222
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 31,915评论 2 313
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 30,664评论 0 202
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 34,412评论 1 246
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 30,616评论 2 245
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 32,105评论 1 260
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 28,424评论 2 254
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 33,098评论 3 238
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 26,096评论 0 8
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 26,869评论 0 197
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 35,748评论 2 276
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 35,641评论 2 271

推荐阅读更多精彩内容