GMM与K-means聚类效果实战

正文

一、数据探索和预处理

1.读取数据

import numpy as np
import pandas as pd

data = pd.read_excel(r'C:\Users\user\Desktop\客户年消费数据.xlsx')

2.缺失检查

print('各字段缺失情况：\n', data.isnull().sum())

输出：

id                  0
Fresh               0
Milk                0
Grocery             0
Frozen              0
Detergents_Paper    0
Delicatessen        0
dtype: int64

观察得出：数据不存在缺失，且数据类型都为整数数值型

3.不同商品消费额分布

为了避免分布图右偏严重，剔除了大于95%分位数的极端值

import matplotlib.pyplot as plt
import seaborn as sns

# 六种商品年消费额分布图
fig = plt.figure(figsize=(16, 9))
for i, col in enumerate(list(data.columns)[1:]):
    plt.subplot(321+i)
    q95 = np.percentile(data[col], 95)
    sns.distplot(data[data[col] < q95][col])
plt.show()

输出：

图1.1 年消费额分布图

从图中看出：商品年消费额基本符合大于0的正态分布

4.极值和异常值处理

features = data[['Fresh', 'Milk', 'Grocery', 'Frozen', 'Detergents_Paper', 'Delicatessen']]
# 剔除极值或异常值
ids = []
for i in list(features.columns):
    q1 = np.percentile(features[i], 25)
    q3 = np.percentile(features[i], 75)
    intervel = 1.6*(q3 - q1)/2
    low = q1 - intervel
    high = q3 + intervel
    ids.extend(list(features[(features[i] <= low) |
                             (features[i] >= high)].index))
ids = list(set(ids))
features = features.drop(ids)

二、无监督学习-降维和聚类分析

1.整体思路

数据中没有没有明显的目标变量，因此只能对客户的消费特征进行分析，也就是机器学习中所指的无监督方法。这里利用K-means和GMM（Gaussian Mixture Model）两种聚类算法，尝试对客户进行聚类分析，并对比两种算法的聚类结果差异。为了方便分析聚类效果，先用PCA算法降六个特征维度降低到两维。

2.聚类算法原理简述

K-means聚类

该算法利用数据点之间的欧式距离大小，将数据划分到不同的类别，欧式距离较短的点处于同一类。算法结果直接返回的是数据点所属的类别。

GMM

全称Gaussian Mixture Model，可以简单翻译为高斯混合模型，Gaussian指高斯分布（也就是正态分布）。该算法假设所有数据点来自多个参数不同的高斯分布，来自同一分布的数据点被划分为同一类。算法结果返回的是数据点属于不同类别的概率。

3.数据降至二维（PCA）

# 计算每一列的平均值
meandata = np.mean(features, axis=0)  
# 均值归一化
features = features - meandata    
# 求协方差矩阵
cov = np.cov(features.transpose())
# 求解特征值和特征向量
eigVals, eigVectors = np.linalg.eig(cov) 
# 选择前两个特征向量
pca_mat = eigVectors[:, ：2]
pca_data = np.dot(features , pca_mat)
pca_data = pd.DataFrame(pca_data, columns=['pca1', 'pca2'])

# 两个主成分的散点图
plt.subplot(111)
plt.scatter(pca_data['pca1'], pca_data['pca2'])
plt.xlabel('pca_1')
plt.ylabel('pca_2')
plt.show()

输出：

图2.1 前两个主成分散点图

说明：图2.1中，横轴代表第一主成分，纵轴代表第二主成分

4.数据降维后信息保留百分比

print('前两个主成分包含的信息百分比：{:.2%}'.format(np.sum(eigVals[:2])/np.sum(eigVals)))

输出：

前两个主成分包含的信息百分比：92.39%

5.客户聚类

该步骤中，主要是对降维后的二维数据进行GMM和K-means聚类。聚类类别分别为2,3,4,5时，对比时两种算法下，点的的划分结果，并以散点图展现。
先定义make_ellipses函数，用于画出GMM算法中的高斯分布区域：

import matplotlib as mpl

#  定义make_ellipses函数，根据GMM算法输出的聚类类别，画出相应的高斯分布区域
def make_ellipses(gmm, ax, k):
    for n in np.arange(k):
        if gmm.covariance_type == 'full':
            covariances = gmm.covariances_[n][:2, :2]
        elif gmm.covariance_type == 'tied':
            covariances = gmm.covariances_[:2, :2]
        elif gmm.covariance_type == 'diag':
            covariances = np.diag(gmm.covariances_[n][:2])
        elif gmm.covariance_type == 'spherical':
            covariances = np.eye(gmm.means_.shape[1]) * gmm.covariances_[n]
        v, w = np.linalg.eigh(covariances)
        u = w[0] / np.linalg.norm(w[0])
        angle = np.arctan2(u[1], u[0])
        angle = 180 * angle / np.pi  # convert to degrees
        v = 2. * np.sqrt(2.) * np.sqrt(v)
        ell = mpl.patches.Ellipse(gmm.means_[n, :2], v[0], v[1],
                                  180 + angle)
        ell.set_clip_box(ax.bbox)
        ell.set_alpha(0.3)
        ax.add_artist(ell)

再根据模型输出，画出聚类结果对比图：

from sklearn.cluster import KMeans
from sklearn.mixture import GaussianMixture
from sklearn.metrics import silhouette_score

score_kmean = []
score_gmm = []
random_state = 87
n_cluster = np.arange(2, 5)
for i, k in zip([0, 2, 4, 6], n_cluster):
    # K-means聚类
    kmeans = KMeans(n_clusters=k, random_state=random_state)
    cluster1 = kmeans.fit_predict(pca_data)
    score_kmean.append(silhouette_score(pca_data, cluster1))

    # gmm聚类
    gmm = GaussianMixture(n_components=k, covariance_type='full', random_state=random_state)
    cluster2 = gmm.fit(pca_data).predict(pca_data)
    score_gmm.append(silhouette_score(pca_data, cluster2))

    # 聚类效果图
    plt.subplot(421+i)
    plt.scatter(pca_data['pca1'], pca_data['pca2'], c=cluster1, cmap=plt.cm.Paired)
    if i == 6:
        plt.xlabel('K-means')
    plt.subplot(421+i+1)
    plt.scatter(pca_data['pca1'], pca_data['pca2'], c=cluster2, cmap=plt.cm.Paired)
    make_ellipses(gmm, ax, k)
    if i == 6:
        plt.xlabel('GMM')
plt.show()

输出：

图2.2 聚类效果对比

说明：聚类类别分别为2,3,4,5时，两种聚类算法结果对比（左边是K-means，右边是GMM）；点的颜色相同代表被聚为同一类；右图中的透明椭圆区域，代表GMM算法估计出的隐藏高斯分布区域。

三、聚类效果分析

如何评判聚类结果呢？这里引入轮廓分析（Silhouette analysis），轮廓分析主要统计轮廓得分，该指标计算聚类类别与相邻类别之间的总体距离大小，从而判断聚类有效程度。

# 聚类类别从2到11，统计两种聚类模型的silhouette_score，分别保存在列表score_kmean 和score_gmm 
score_kmean = []
score_gmm = []
random_state = 87
n_cluster = np.arange(2, 12)
for k in n_cluster:
    # K-means聚类
    kmeans = KMeans(n_clusters=k, random_state=random_state)
    cluster1 = kmeans.fit_predict(pca_data)
    score_kmean.append(silhouette_score(pca_data, cluster1))
    # gmm聚类
    gmm = GaussianMixture(n_components=k, covariance_type='spherical', random_state=random_state)
    cluster2 = gmm.fit(pca_data).predict(pca_data)
    score_gmm.append(silhouette_score(pca_data, cluster2))

# 得分变化对比图
sil_score = pd.DataFrame({'k': np.arange(2, 12),
                          'score_kmean': score_kmean,
                          'score_gmm': score_gmm})
# K-means和GMM得分对比
plt.figure(figsize=(10, 6))
plt.bar(sil_score['k']-0.15, sil_score['score_kmean'], width=0.3,
        facecolor='blue', label='Kmeans_score')
plt.bar(sil_score['k']+0.15, sil_score['score_gmm'], width=0.3,
        facecolor='green', label='GMM_score')
plt.xticks(np.arange(2, 12))
plt.legend(fontsize=16)
plt.ylabel('silhouette_score', fontsize=16)
plt.xlabel('k')
plt.show()

输出：

图3.1 K-means和GMM得分对比

四、小结和建议

经过本次探索过程，总结以下几点：
1.图2.2，从点的划分情况来看，GMM和K-means的聚类结果具有较强的相似性；
2.图3.1，从对比的角度，以silhouette_score为评判指标，整体上GMM的模型得分略低于K-means；
3.图3.1，聚类类别增多时，K-means模型的得分比较稳定，几乎没有明显差别，相比之下，GMM模型的得分开始下降幅度较大，但之后也趋于稳定。
4.根据得分情况，最佳聚类类别应该为2或3，此时K-means和GMM模型的表现都比较好。
5.最优k值对应的聚类类别可以作为新的数据特征，用于其它分析。

个人建议：若不考虑运算速度，当两种算法聚类得分差异很小时，推荐使用GMM算法，因为GMM能输出数据点属于某一类别的概率，因此输出的信息丰富程度大大高于K-means算法。

ps:欢迎指出文章中出现的任何错误，连同其它问题可在评论区交流，谢谢支持～

最后编辑于：2019.05.12 11:24:03

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 158,560评论 4赞 361
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 67,104评论 1赞 291
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 108,297评论 0赞 243
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 43,869评论 0赞 204
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 52,275评论 3赞 287
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 40,563评论 1赞 216
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 31,833评论 2赞 312
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 30,543评论 0赞 197
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 34,245评论 1赞 241
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 30,512评论 2赞 244
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 32,011评论 1赞 258
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 28,359评论 2赞 253
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 33,006评论 3赞 235
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 26,062评论 0赞 8
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 26,825评论 0赞 194
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 35,590评论 2赞 273
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 35,501评论 2赞 268

GMM与K-means聚类效果实战

GMM与K-means聚类效果实战

目录

一、数据探索和预处理

二、无监督学习-降维和聚类分析

三、聚类效果对比分析

四、小结和建议

备注

正文

一、数据探索和预处理

1.读取数据

2.缺失检查

3.不同商品消费额分布

4.极值和异常值处理

二、无监督学习-降维和聚类分析

1.整体思路

2.聚类算法原理简述

K-means聚类

GMM

3.数据降至二维（PCA）

4.数据降维后信息保留百分比

5.客户聚类

三、聚类效果分析

四、小结和建议

推荐阅读更多精彩内容