数据分析的前世今生(用做菜的功夫了解数据分析)

随着计算机和互联网的发展,人们在各项活动中形成的数据容量呈几何级数增长,对数据的分析和利用已经渗透到生活的方方面面。大数据的时代对商业、对思维、对管理的变革,无论是企业、政府以及个人都想要把大数据纳入囊中成为一把利器。那么,今天,我们就来对数据分析进行一个拆解,让您对数据分析的学习有方向可循。
先抛个问题:你知道制作这样一张数据报表,都需要经过哪些步骤吗?
贴一张dashboard
我们可以将这张报表比喻成一道菜,而它分别需要经历买菜,洗菜,切菜,烹饪,上菜几个过程。这几个过程也分别对应着我们的原数据提取,数据处理(数据清洗,转换),数据分析方法,可视化报表。
买菜(原数据提取):
买什么菜:确定数据范围
想要制作一张具备分析价值的可视化报表,数据是必备的基础要素。每个企业都会有包含关于企业经营范围内的业务数据,但是成千上万条数据不可能全部都利用上。在开始一项数据分析前,要明白我们要分析的主题或者问题是什么?然后对这个问题进行拆解、量化,从而确定我们所需要的数据是哪些。
买什么类型的菜:
定义了买什么菜以后,我们就要确定菜的具体类型是什么,比如买辣椒,辣椒又分为小米椒,线椒,青椒,干辣椒等。我们的数据也分为日期型的数据,整数型的数据,布尔类型的数据以及字符串类型的数据等。不同的数据类型定义了不同的数据格式,也会在数据的分析和可视化中体现出来。比如日期型数据的格式一般是:2020-08-03或者2020/08/03等。
数据类型 数据样例
日期型 2020-08-03或者2020/08/03
日期时间型 2008-12-26 16:23:55
整数型 45382,34893,809427
字符串型 ‘苹果’,‘草莓’,‘哈密瓜’
布尔类型 是或否
小数型 32.33,36.58,565.89
[图片上传失败...(image-95eb3e-1599529301934)]

去哪里买菜:
我们买菜一般都在菜集中的地方,如菜市场、超市或者手机上买菜的APP等。我们的数据同样有它集中存储的地点,也就是数据库,数据仓库,数据湖,数据集市等。
数据库:
数据库是“按照数据结构来组织、存储和管理数据的仓库”。是一个以一定方式长期存储在计算机内的、有组织的、可共享的、统一管理的大量数据的集合,是一个能与多个用户共享、具有尽可能小的冗余度、与应用程序彼此独立的数据集合,可视为电子化的文件柜——存储电子文件的处所,用户可以对文件中的数据进行新增、查询、更新、删除等操作。
主流关系数据库
(1)商用数据库:Oracle, SQL Server, DB2等;
(2)开源数据库:MySQL, PostgreSQL等;
(3)桌面数据库:以微软Access为代表,适合桌面应用程序使用
(4)嵌入式数据库:以Sqlite为代表,适合手机应用和桌面程序

洗菜、切菜:运用SQL语言或者Tableau Prep工具做数据处理
理解了数据和数据的存储地点以后,我们该如何提取出我们的数据?
这里就要介绍我们的结构化查询语言(Structured Query Language)简称SQL,它是一种特殊目的的编程语言,是一种数据库查询和程序设计语言,用于存取数据以及查询、更新和管理关系数据库系统。
初次接触SQL还是在大学的《数据库应用》这门课中,我们学习了Access数据库的简单SQL语句,思维的启蒙为我在后来的SQL学习中奠定了一大步基础。简单说SQL就是通过编写一些语句,去查询数据或者获取你想要的数据,这种方式减少了数据的冗余,想要什么数据提取什么数据即可。为BI开发工具省去内存,一定程度上提高性能。
另外,通过SQL我们可以为我们的数据进行处理,比如将数据转换类型,进行简单计算等。想要更深入学习SQL,推荐书籍《SQL必知必会》,推荐网站SQL教程

数据提取:
Select 列名称 from 表名称
如提取订单表中的产品名称, 销售额信息:
SELECT product_name, sales FROM order

数据转换:
将日期时间类型的数据转换为日期格式:
CAST(表达式 AS 数据类型)
SELECT CAST( now() AS DATE ) FROM order
Now()=2020-08-31 18:43:00

数据清洗:
只提取订单状态为已结算的数据:
SELECT * FROM order
WHERE order_status='已结算'

数据计算:
提取各个产品的平均销售额数据:
SELECT AVG(sales) FROM order

当然了,SQL只是一种对于结构化数据进行数据提取,转换,清洗的语言。企业中的数据往往也会更复杂一些,需要更加专业的数据清洗工具进行清洗,转换等。

Tableau prep:数据处理工具
Tableau Prep是tableau系列的产品之一,主要用于对数据的处理,它不需要写SQL语句,只需通过一些拖拉拽即可满足对于数据的处理需求,如筛选、拆分、重命名、转置、联接和合并等操作。非常适合业务人员处理数据时使用,无需代码操作即可把数据处理成自己想要的样子。

烹饪:
当我们准备好了我们的原材料(原数据),接下来就要想如何做这道菜了。做这道菜的方法也就是我们要分析数据的方法。通常我们会借助一些分析模型,来得到更加专业、清晰的报表。这里简单介绍几种模型:
CRM中常用的RFM模型,对客户进行细分
R(Recency):客户最近一次交易时间的间隔。R值越大,表示客户交易发生的日期越久,反之则表示客户交易发生的日期越近。
F(Frequency):客户在最近一段时间内交易的次数。F值越大,表示客户交易越频繁,反之则表示客户交易不够活跃。
M(Monetary):客户在最近一段时间内交易的金额。M值越大,表示客户价值越高,反之则表示客户价值越低。

产品分析中的波士顿矩阵:
波士顿矩阵(BCG Matrix),又称市场增长率-相对市场份额矩阵,由美国著名的管理学家、波士顿咨询公司创始人布鲁斯·亨德森于1970年首创,它是通过销售增长率(反应市场引力的指标)和市场占有率(反应企业实力的指标)来分析决定企业的产品结构。
BCG矩阵由纵轴的销售增长率和横轴的相对市场占有率组成,横纵轴分别有高和低两种状态描述某个产品更接近于哪个位置,就这样形成了4种组合、4个象限、4类产品。

明星类产品:高增长且高市占,发展前景好,竞争力强,需加大投资以支持其发展;

问题类产品:高增长但低市占,发展前景好但市场开拓不足,需谨慎投资;

现金牛产品:低增长但高市占,成熟市场的领导者,应降低投资,维持市占并延缓衰退;

瘦狗类产品:低增长且低市占,理论率低甚至亏损,应采取撤退战略。
更多关于波士顿矩阵的知识可以在一下链接中看到:https://www.zybuluo.com/notmylove/note/1518501

零售分析中的关联购物篮分析:
相信不少同学都听过啤酒和尿布的故事:在美国,妇女们经常会嘱咐她们的丈夫下班以后给孩子买一点尿布回来,而丈夫在买完尿布后,大都会顺手买回一瓶自己爱喝的啤酒(由此看出美国人爱喝酒)。商家通过对一年多的原始交易记录进行详细的分析,发现了这对神奇的组合。于是就毫不犹豫地将尿布与啤酒摆放在一起售卖,通过它们的关联性,互相促进销售。这就是产品的关联性购买分析的经典案例。购物篮分析是通过发现顾客在一次购买行为中放入购物篮中不同商品之间的关联,研究顾客的购买行为,从而辅助零售企业制定营销策略的一种数据分析方法。
通过历史的交易订单数据,我们可以分析在一个订单中,购买产品A后又购买了产品BCDEF的频次,从而发现产品之间的关联性购买强度。企业往往可以通过发现产品之间的关联而进行产品组合的一系列营销活动,以提升公司销售额。

除了分析模型,往往可能我们只是需要看一看时间趋势或某指标的分类占比等,这就要确定我们的需求,多问一问自己:通过数据的分析想看到什么?不同的视角我们需要运用不同的可视化图表来更直观的体现。如想要看某产品的销售额时间趋势,这时就要想到使用折线图来体现,若想要看占比情况则可以使用饼图,环形图等。
具体的可视化图表可以参考下图:
(图片)

常用指标含义
ROI(Return On Investment )投资回报率
反映投入和产出的关系,衡量我这个投资值不值得,能给到我多少价值的东西(非单单的利润),这个是站在投资的角度或长远生意上看的。通常用于评估企业对于某项活动的价值,ROI高表示该项目价值高。
投资回报率(ROI)= 年利润或年均利润/投资总额×100%。
重复购买率:指消费者在网站中的重复购买次数。
同比:指的是与历史同时期的数据相比较而获得的比值,反应事物发展的相对性。
环比:指与上一个统计时期的值进行对比获得的值,主要反映事物的逐期发展的情况。

用户数据指标:

行为数据指标:

产品数据指标:

上菜:数据报告的呈现
当菜做好了以后,我们就要把菜端到餐桌上供大家品尝了。而我们的报表制作完成后,一种形式是放在服务器供大家参考分析,另外一种形式就是制作成数据分析报告向老板做汇报。做汇报的数据分析就要根据不同的场景不同的人员进行报表的讲解,往往注重报告给相关人员他们更加关注的数据。
给老板做汇报:更加关注趋势、预测、宏观KPI、重要警戒指标;
给部门负责人做汇报:关心达成、进度、异常点分布、排名
给运营或者营销负责人做汇报:关注异常点、探索差异、寻找标杆
给基层员工做汇报:关注完成度、绩效奖励、员工排名、站点排名

我们简单做一个小结:制作数据分析报表,就好像制作一道菜。首先需要有做菜的原材料,报表的原材料则是数据,只有对我们的数据有清晰的认识,才能获取我们想要的原材料。之后要明确去哪里获取原材料,我们介绍了数据的存储地,数据库、数据仓库、数据集市的概念,接着我们学习做菜的方法,介绍了数据分析中常用的模型:CRM客户分析的RFM模型,产品分析中的波士顿矩阵,订单分析中的购物篮关联性分析。另外介绍了制作报表时的可视化图形选择。最后,我们围绕如何对制作好的数据报表进行数据报告做了一个分析。

综上所述,想要掌握好数据分析的技能,我们要掌握一定的数据处理能力,如SQL使用能力以及对数据的认识。其次我们要有一定的分析思维,对于业务的理解能力,最后则是数据分析的工具使用能力。所以,懂可视化报表工具的应用是远远不够的,更加核心的是我们对业务的理解,以及对数据的理解。只有将大量的数据通过业务的分析理解并利用可视化工具展现出来,将冷冰冰的数据转换成信息,利用信息去挖掘知识形成企业洞察,从而增进智慧,才能为企业提高决策效率,创造价值。

这一篇文章更多的介绍了在数据分析中的一些概念,接下来的一篇文章,我会为大家以案例的形式详细介绍业务中数据分析的具体流程和步骤。