聚类分析的简单理解(1)

各位小伙伴们大家好,这几天我在学习聚类分析这个统计方法,所以希望通过这个文章来概括下自己所学的知识,并且希望大家可以指出不足

1:什么是聚类分析?

聚类分析(cluster analysis)是一种将数据所研究的对象进行分类的统计方法,像聚类方法这样的一类方法有个共同的特点:事先不知道类别的个数和结构,据以进行分析的数据是对象之间的相似性(similarity)和相异性(dissimilarity)的数据.将这些相似(相异)的数据可以看成是对象与对象之间的”距离”远近的一种度量,将距离近的对象看做一类,不同类之间的对象距离较远,这个可以看作为聚类分析方法的一个共同的思路.

聚类分析可以根据分类对象的不同分为Q类型聚类分析和R类型聚类分析.

Q类型可以看做为对于样本的聚类,R类型可以看作为对于变量进行聚类分析.

2:距离和相似系数

其实个人觉得,聚类分析本质上就是研究样本和变量的聚类的一个过程,尽管我们在聚类的时候使用的方法有很多,但是这样的方法的选择往往都和变量的类型有关系,因为数据来源和测量方法的不同,我们可以把变量大致分为两类:

1:定量的变量:比如说我们的长度重量,人口,速度等,这些变量都是由具体的特征数值所构成,很多都是用真实的测量计数而来

2:定性变量:这样的量并非只有数量上的变化,但是往往有一些性质上的差异,比如说成绩的名次,性别,产品的型号等等.

1:距离:

现在设X(ik)为第i个样本的第K个指标,数据矩阵如图所示:

每一个样本都具有P个变量,现在我们把每个样本看成为一个点,这n个样本就可以看作为n个点,第i个样本与第j个样本之间的距离记作为d(ij),在聚类的过程中,个人倾向于距离较近的点归为一类,距离较远的点归为不同的类.距离必须满足一下几个条件:

1:对于一切的i,j,d(ij)>=0;

2:d(ij)=0,当且仅当i,j个样本的各种变量相同;

3:dij=dji,对于一个i,j

4:dij<=dik+dkj,对于一切i,j,k

对于求距离的几种常用的方法:

1:求绝对值距离:

2:Euclide距离:

3:Minkowski距离:

这里我发现绝对值距离和Eucide距离是MinKowski距离的特例,要是各种变量的单位不同或者测量值范围相差很大时,不应该采用Minkowski距离,应该是先进行标准化数据处理,然后再用标准化数据进行计算.

4:chebyshev距离:

这个是minkowski距离中q趋向于无穷的时候的状况

以上的这几种都是丢定量变量的距离定义,还有几种定性的变量距离定义的方法,接下来打算用实例的时候再结合进行解释:

2:相似系数

聚类分析方法不仅用对样本进行分类,而且也可以用对变量进行分类,在对变量进行分类时,一般用相似系数来度量变量之间的相似程度:

现在我们设C(ij)表示Xi和Xj间的相关系数一般要求:

当C(ij)越接近于1,说明Xi和Xj之间的关系也就越亲切,如果C(ij)越接近0,则两者的关系也就越疏远.一般用求夹角余弦的方法,来求相似的系数.

3:一个实例:

对305名女中学生测量8个相关的体型指标,相应的相关矩阵如下图所示,将相关系数看做相似系数,定义距离为:

现在使用最长距离法做系统分析:

现在解题的方法如下:

首先,我们先输入相应的相关系数矩阵,这里使用R语言来进行操作:

1:先输入相关的矩阵

然后做相关的系统聚类分析

这里边使用了一个新的函数as.dist(),其作用是将普通的矩阵转化为聚类分析所使用的距离结构

d<-as.dist(1-r);hc<-hclust(d);dend<-as.dendrogram(hc)

然后写一段小程序,在绘图命令中调用它,使谱系图变得更好看

最后一步,画出谱系图:

de <- dendrapply(dend,addE);plot(de,nodePar= nP)

所有的代码如图所示:


所得到的图形如图所示:

从这个图里我们可以看出,变量X2(手臂长)与X3(上肢长)首先合为一类,接下来是X1(身高)和X4(下肢长)合并为一了你,在合并就是讲得到的类合并为一个新类,后边的X5和X3合并,最后X7,X8合并为一类.

这个时候,肯定有很多的小伙伴们想,在聚类中类的个数应该怎么选择才是最适宜的,所以我想在下一篇文章中讲一讲我对于类的个数的确定以及系统聚类法的自己学习的一些经验.

PS:自己在学习中,曾经陷入到了深陷算法推理的迷局,往往花费大量时间,还得不到结果,但是我们并不是每个人都有数学天赋,并不是每个人都是数学家,这个时代更最看重的是我们的应用能力,我们只需要保证我们理解调用就好,所以我尽量减少算法推理过程,加强工具的使用过程,大家一起加油吧!

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 159,117评论 4 362
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 67,328评论 1 293
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 108,839评论 0 243
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 44,007评论 0 206
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 52,384评论 3 287
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 40,629评论 1 219
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 31,880评论 2 313
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 30,593评论 0 198
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 34,313评论 1 243
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 30,575评论 2 246
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 32,066评论 1 260
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 28,392评论 2 253
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 33,052评论 3 236
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 26,082评论 0 8
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 26,844评论 0 195
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 35,662评论 2 274
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 35,575评论 2 270

推荐阅读更多精彩内容