大众点评网健身房数据分析

一、项目描述

互联网行业的快速发展已经在各个方面改善了人们的生活。大众点评作为知名的独立第三方消费点评网站,为用户提供了商户信息、消费点评及消费优惠等信息服务。
我从大众点评网http://www.dianping.com/search/category/1/45/g147,爬取了752家健身中心的店名、位置、点评条数、人均消费额、设施评分(均分)、环境评分(均分)、服务评分(均分)、点评的均分、有无团购、有无停车位等数据(还可以采集标签等数据,这部分数据可选,但有可能影响分析效果),采用数据挖掘中的分类、聚类、关联或回归等方法(算法),对如下的问题做深入分析:

  • 1.探究影响健身房营业效果的因素,并以某家健身中心Fitplus运动加&Denny House为例,为其制定市场推广策略。
  • 2.某客户住在中山公园附近,对设施、环境和服务要求很高,且希望建设中心能提供团购服务,请为其推荐适合的健身中心。

二、数据分析工具

IBM SPSS Modeler、IBM SPSS Statistics

三、数据预处理

3.1 缺失值分析

FIG.1.缺失值分析.PNG

通过观察,原始数据的人均消费列和branch列存在空值比较多,考虑到branch(分店数量)不是主要研究因素,样本数量充足,属于完全随机缺失的情况,因此可以过滤掉人均消费为空值的记录
同时,我们发现不同健身房人均消费数据的差距非常大,而且这些数据与其它影响因素没有必然联系。通过分析每家健身房里的用户文字评论,我们发现有无私教会极大的影响人均消费额,而这项数据无法通过爬虫获取得到。因此为了使数据更具有代表性,同时考虑到我们分析的四个问题都是面向高端健身房,我们过滤了所有人均消费额1000元以下的记录,最终的爬取结果如图1所示。
FIG.2.人均消费.png

3.2 人均消费离散化

为了简化数据结构,使分析结果更加稳定,需要将人均消费离散化,为了确定分割点,我做了描述统计并画出箱线图


FIG.3.人均消费统计描述.png

FIG.4.人均消费箱线图.png

最终以2000和4000为界限,把所有数据项分为“价格实惠”,“价格适中”,“价格昂贵”三类。离散的时候使用了内置的if-else语句。
添加导出节点并命名为”Price”,编辑公式为:if 人均消费<2000 then "价格实惠" elseif 人均消费<4000 then "价格适中" else "价格高昂" endif。如图所示:
FIG.5.price导出.png

3.3 评论条数离散化

由下图可知,评论条数的离散程度较高,异常值较多,所以我们将所有数据分成4个区间:20/50/100,把所有数据分为“评论少”、“评论较少”、“评论较多”和“评论多”四类(这里没有处理异常值,而是通过合理确定分割点来弱化异常值对分析结果的影响)。
添加导出节点并命名为” ReviewNum”,编辑公式为:if 评论条数<20 then "评论少" elseif 评论条数<50 then "评论较少" elseif 评论条数<100 then "评论较多" else "评论多" endif

FIG.6.评论条数统计描述.png

FIG.7.评论条数箱线图.png

3.4 设施、环境、服务离散化

由下图可知,这三项的分布差别不大,均以 7/8 为界,分别把所有记录分为“一般”,“较好”,“好”三类。
添加三个导出节点,分别命名为 Facility,Environment 和 Service。编辑公式如下:
if 设施<7 then "设施一般" elseif 设施<8 then "设施较好" else "设施好" endif
if 环境<7 then "环境一般" elseif 环境<8 then "环境较好" else "环境好" endif
if 服务<7 then "服务一般" elseif 服务<8 then "服务较好" else "服务好" endif

FIG.8.设施服务环境统计描述.png

FIG.9.设施环境服务箱线图.png

3.5 商户评分离散化

我们爬取到的数据是商户的星级,根据各星级的分布情况,按照星级将评分分为“评分一般”、“评分较高”和“评分高”。
添加导出节点并命名为” Score”,编辑公式为:if member(rankstars,['五星商户','准五星商户']) then "评分高" elseif member(rankstars,['四星商户','准四星商户']) then "评分较高" else "评分一般" endif

FIG.10.商户评分图.png

3.6 数据预处理总结

我们总共添加了6个导出节点,数据预处理的流程如下:


FIG.11.预处理流.png

预处理后的数据如下图所示,我们得到了经过离散的各项数据。


FIG.12.预处理后.png

四、探究影响健身房营业效果的因素

健身房的营业效果可以从客流量和顾客的平均打分两个方面来评估,而客流量与点评条数是基本成正比例的,因此我在本部分主要通过C5.0决策树来分析其他影响因素对平均得分(Score)和点评条数(ReviewNum)的影响

4.1 探究影响点评条数的因素

我把影响因素分为两类:
(1)店家固有属性:位置,Price,有无团购、有无促销;
(2)用户体验:设施、服务、环境、点评分数。

4.1.1 店家固有属性

输入:位置、Price,有无团购、有无促销
目标:ReviewNum
决策树模型:添加一个C5.0节点,生成了一个三层决策树,其中影响最大的是所在位置,其次是价格,如下图所示:

FIG.13(a).店家固有属性对评论条数的影响结果.png

FIG.13(b).店家固有属性对评论条数的影响结果.png

从上图可以看出,在市中心繁华地段的健身房评论数较多,而偏远郊区评论数较少。Fitplus运动加&Denny House位于浦东新区,因此我们分析浦东新区的情况,其决策树如下:

FIG.14浦东新区.png

结论:Fitplus运动加&Denny House可以多提供一些特色团购服务,价格可以适中或高昂,走高端路线

4.1.2 用户体验

输入:Facility、Sevice、Environment、Score
目标:ReviewNum
决策树模型:按照上一节中提到的方法,这里生成了两层决策树。其中影响因素重要性最高的是点评分数,达到了61%,然后是设施。(点评分数的重要性高于设施,存疑)如下图所示:

FIG.15(a).用户体验对评论条数的影响.png

FIG.15(b).用户体验对评论条数的影响.png

结论:设施好和设施较好的健身房评论条数较多,而设施一般的健身房评论条数也不少,这说明人们对健身房设施的选择大多集中在两个极端,设施一般的健身房更面向大众,而设施好的健身房受高端用户青睐。对于Fitplus运动加&Denny House来说,有两种选择,或者提供较一般的健身设备提高针对普通用户,或者提供好的设备主打高端市场。

4.1.3 整体分析

输入:位置、Price、Facility、Score
目标:ReviewNum
决策树模型:可见在所有因素中,位置是最重要的因素,然后是设施,最后是价格

FIG.16 .整体分析影响评论条数的因素.png

FIG.17 .浦东新区整体分析.png

结论:健身房需要评估商圈的位置和定位,这样才能准确把握并迎合消费者的心理,从而拥有更多的客户。而对于Fitplus运动加&Denny House,可以提供较一般的健身设备提高针对普通用户;或者提供好的设备主打高端市场。在价格方面,应当适中。

4.1.4 模型结构
FIG.18.评论条数模型结构.png

4.2 探究影响点评分数的因素

与上一部分一样,将影响因素分为店家固有属性和用户体验。

4.2.1 店家固有属性

输入:位置、Price,有无团购、有无促销
目标:Score
决策树模型:生成了三层决策树。影响因素最大的是有无特色团购,在有特色团购的商家中,评分高的店家占23.037%,而没有特色团购商家的这个比例只有2.586%。次要的影响因素是位置,最后是价格,可以发现同种情况下价格实惠的健身房评分高的比例会更大。

FIG.19(a).店家固有属性对评分的影响.png

FIG.19(b).店家固有属性对评分的影响.png

结论:这个结论不难理解,当有团购时,用户可以获得最大程度的优惠,所以也会倾向于给更高的评分。同时,用户也更喜欢价格实惠的健身房。Fitplus运动加&Denny House,可以提高团购的优惠力度,适当降低价格,提高用户评分。

4.2.2 用户体验

输入:Facility、Sevice、Environment、ReviewNum
目标:Score
决策树模型:生成两层决策树模型,其中影响因素最大的是服务,在服务好的健身房中,评分高的健身房比例高达71.875%,而服务较好和一般的健身房的这个比例都不到1%。其次是环境。

FIG.20(a).用户体验对评分的影响.png

FIG.20(b).用户体验对评分的影响.png

结论:在第二层决策树中可以发现,服务一般的健身房一般环境评分也较差,这说明这两项评分有一定的关联性。对于Fitplus运动加&Denny House来说,可以提高自己的服务质量,并改善用户健身环境,从而提高用户评分。

4.2.3 整体分析

输入:有无团购、位置、Sevice
目标:Score
决策树模型:生成一层决策树模型,服务的重要性占到100%,

FIG.21(a) .整体分析影响评分的因素.png

FIG.21(b) .整体分析影响评分的因素.png

结论:由决策树可以看出,在所有影响点评分数的因素中,服务是最重要的,顾客是上帝,提供最优质的服务才是商户应有的追求。

五、推荐合适的健身中心

为了能够快速有效的为客户推荐合适的健身中心,需要对健身中心进行聚类。在聚类之前,为了剔除强相关变量对结果的影响,需要先进行关联分析,这里采用的是Apriori 算法。

5.1 Apriori算法关联分析

我所做的关联分析分别有以下几组:
(1)店家固有属性之间:位置、Price、有无团购、有无促销;
(2)用户体验属性之间:Facility、Sevice、Environment;
(3)Facility、Sevice、Environment、Price;
(4)Facility、Sevice、Environment、Score
这里,我设置最低条件支持度 10%,最小置信度 80%,最大前项数 5 项。

5.1.1 位置、Price、有无团购、有无促销
FIG.22 .位置、Price、有无团购、有无促销 关联分析.png

分析:对于浦东新区,有特色团购的支持度为16.938%,置信度为100%,而价格适中的支持度为11.401%,置信度为100%
结论:位于浦东新区的健身房大多数都有特色团购并且价格适中,这个不难理解,浦东新区年轻人较多,消费能力中等,也更喜欢使用团购这种比较新颖的购买方式。

5.1.2 Facility、Sevice、Environment

FIG.23 .Facility、Sevice、Environment关联分析.png

分析:从图中可以看出,设施、服务与环境这三项打分往往是要高都高、要低都低,原因一方面是好的店家往往在这三方面都很注意,另一方面是由于用户在这三方面的打分呈现出的关联性。
结论:对于健身房来说,设施、环境喝服务三方面都需要注重,否则可能因为某一方面影响了用户而导致得分都比较低。

5.1.3 Facility、Sevice、Environment、Price

FIG.24 .Facility、Sevice、Environment、Price关联分析.png

分析:从图中除了可以得到5.1.2中的结论之外,我们还可以看到,当人均消费水平低的时候,往往服务和环境、设施也较差,而当人均消费水平高的时候,服务和环境、设施一般会比较好。但是也可以注意到,人均消费水平一般的时候,也有很多健身房的设施、服务、环境不错的。
结论:为客户推荐健身房时,最好推荐价格一般或者价格高昂的健身房。

5.1.4 Facility、Sevice、Environment、Score

FIG.25 .Facility、Sevice、Environment、Score关联分析.png

分析:从图中看到,当服务和环境、设施也较差,而当人均消费水平高的时候,Score也较低;当服务和环境、设施好的 时候,Score也高;当服务和环境、设施一般的 时候,Score也一般。
结论:Score和设施、环境、服务之间有很强的关联性

5.2 K-Means聚类

首先对预处理的参数进行筛选,考虑到用户对健身房的要求,我们需要选取设施、环境和服务这三个参数。之所以没有选择健身房评分,是因为我们在前面的分析中看到健身房评分与设施、环境和服务两个维度的数据有着很强的关联性,另外还有有无团购这一属性。除了这些,还需要有健身房所在的地区和健身房名称,但均不作为算法的输入参数
输入参数:有无特色团购、设施、服务以及环境(根据客户对健身房的要求来定)、Price
聚类类别数:3类(多次尝试后)

FIG.26 .聚类结果(a).png

FIG.26 .聚类结果(b).png

FIG.26 .聚类结果(c).png

分析:从结果中我们看出聚类的质量还是比较好的,这三类中分别有79、115和113个健身中心。在聚类-1中,设施、服务和环境指标都是很好的,属于性价比高的健身房,聚类-2和聚类-3分别代表性价比一般的健身房性价比低的健身房
结论:很明显,聚类-1就是用户所希望的这一类健身房,为了在中山公园附近找到合适的健身中心,我们在这里添加了一个选择节点用于筛选健身房,筛选条件为:region = "长宁区" and '$KM-K-Means' = "聚类-1"。最终得到的筛选结果如下:

FIG.27 .筛选结果.png

考虑到用户希望在中山公园附近,所以我们最终的推荐健身中心是中田健身工作室(中山公园店)。

六、总结

  • 本次项目使用C5.0决策树分析了影响用户评分和评论条数的因素,并以健身中心Fitplus运动加&Denny House为例,为其制订了市场推广策略。
  • 使用关联分析分析这些因素的内在关系。
  • 使用聚类分析为用户推荐合适的健身房。
    这里的每个结果对商家和客户都具有很重要的现实意义,其中蕴藏着巨大的商机。
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 159,716评论 4 364
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 67,558评论 1 294
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 109,431评论 0 244
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 44,127评论 0 209
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 52,511评论 3 287
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 40,692评论 1 222
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 31,915评论 2 313
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 30,664评论 0 202
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 34,412评论 1 246
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 30,616评论 2 245
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 32,105评论 1 260
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 28,424评论 2 254
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 33,098评论 3 238
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 26,096评论 0 8
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 26,869评论 0 197
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 35,748评论 2 276
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 35,641评论 2 271