机器学习

聚类

无监督学习

一、Kmeans

  • 1、k值的选择:
    经验+肘部法则:每一类中样本到重心的距离平方和下降的拐点;

  • 2、初始中心点的确定

    1)随机取点;

    2)先使用层次聚类进行初步聚类,然后从k个类别中随机选择中心点作为kmeans的初始中心点;

  • 3、评估指标

    轮廓系数:结合了聚类的凝聚度和分离度,用于评估聚类的效果。该值处于-1~1之间,值越大,表示聚类效果越好。具体计算方法如下:对于每个样本点i,计算点i与其同一个簇内的所有其他元素距离的平均值,记作a(i),用于量化簇内的凝聚度。选取i外的一个簇b,计算i与b中所有点的平均距离,遍历所有其他簇,找到最近的这个平均距离,记作b(i),即为i的邻居类,用于量化簇之间分离度。

    对于样本点i,轮廓系数s(i) = (b(i) – a(i))/max{a(i),b(i)}

    计算所有i的轮廓系数,求出平均值即为当前聚类的整体轮廓系数,度量数据聚类的紧密程度。从上面的公式,不难发现若s(i)小于0,说明i与其簇内元素的平均距离小于最近的其他簇,表示聚类效果不好。如果a(i)趋于0,或者b(i)足够大,即a(i)<<b(i),那么s(i)趋近与1,说明聚类效果比较好。

  • 4、优化

    二分Kmeans方法:基于SSE(组内距离平方和)。步骤:

    所有样本划分为一类,计算SSE;

    对现有的每一类分别进行K-means将其划分为两组,并计算这两组组别各自的SSE,将两组SSE加和;

    比较加和之后的SSE最小的那两组,对这一类进行划分,其他类不划分。

  • 5、区分与knn的关系

    无监督 v.s. 监督学习方法

二、系统聚类方法

思想就是基于距离(最小距离,最大距离,平均距离,重心)自底向上/自顶向下

三、密度聚类

  • DBSCAN(density-based spatial clustering of applications with noise)
    • 邻域:对于任意样本i和给定距离e,样本i的e邻域是指所有与样本i距离不大于e的样本集合;
    • 核心对象:若样本i的e邻域中至少包含MinPts个样本,则i是一个核心对象;
    • 密度直达:若样本j在样本i的e邻域中,且i是核心对象,则称样本j由样本i密度直达;
    • 密度可达:对于样本i和样本j,如果存在样本序列p1,p2,...,pn,其中p1=i,pn=j,并且pm由pm-1密度直达,则称样本i与样本j密度可达;
    • 密度相连:对于样本i和样本j,若存在样本k使得i与j均由k密度可达,则称i与j密度相连;
    • 噪声:不属于任何簇的样本。
      DBSCAN 将簇定义为:由密度可达关系导出的最大的密度相连样本集合。
      簇C满足连接性和最大性:
      连接性:C中任意xi,xj皆满足密度相连
      最大性:若C中xi,某xj由xi密度可达,则xj∈C。
      简单来说:如果x是核心对象,那么由x密度可达的所有样本组成的集合就是满足连接性和最大性的簇。
      算法步骤:
      (1)找出所有的核心对象,组成集合Ω;
      (2)从Ω中任选核心对象x,找出由x密度可达的所有样本,组成第一个簇;
      (3)从样本集和Ω中剔除簇中的所有样本,重复(2)中的操作,直到Ω为空。

logistic回归

F1-score

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 159,219评论 4 362
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 67,363评论 1 293
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 108,933评论 0 243
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 44,020评论 0 206
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 52,400评论 3 287
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 40,640评论 1 219
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 31,896评论 2 313
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 30,597评论 0 199
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 34,327评论 1 244
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 30,581评论 2 246
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 32,072评论 1 261
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 28,399评论 2 253
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 33,054评论 3 236
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 26,083评论 0 8
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 26,849评论 0 195
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 35,672评论 2 274
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 35,585评论 2 270

推荐阅读更多精彩内容

  • 聚类算法 前面介绍的集中算法都是属于有监督机器学习方法,这章和前面不同,介绍无监督学习算法,也就是聚类算法。在无监...
    飘涯阅读 40,465评论 3 52
  • 1. Kmeans聚类算法简介 由于具有出色的速度和良好的可扩展性,Kmeans聚类算法算得上是最著名的聚类方法。...
    wujingwin阅读 10,282评论 1 8
  • 01 物以类聚 经过半年的不懈努力,我们已经学习并实践了经典的分类算法和经典的回归算法,下面我们开始学习经典的聚类...
    Sudden阅读 2,405评论 0 11
  • 聚类是什么:聚类是无监督学习。是将相似的样本分组的过程,每个组称为一个簇,样本没有标签。 聚类的应用:天气特征、信...
    流纱静溪阅读 463评论 0 0
  • 你是否有选择障碍?这是一个很好的词,可以掩饰你的浅薄脆弱和遇事时的不知所措。如果是买东西,如果钱包给力,两样都买就...
    小小Sera阅读 305评论 0 1