第三章 数据可视化

第一章 数据可视化简介

第二章 数据

第三章 数据可视化

3.1 数据可视化流程

数据可视化是一个相当复杂的过程,因此我们必须简单界定一个工作流程,以期能提高可视化的工作效率。而随着“大数据”这个词汇的普及,可视化也被越来越多的人提及和使用。特别是一系列商业BI软件的诞生,比如DataFocus、Tableau,帮助越来越多的公司进行可视化,实时监测企业数据,提高工作的效率,并且为公司决策提出科学有参考性的建议。那么专业的数据分析人员是如何从原本杂乱无章的数据中提取出关键的重要信息的呢?简洁的数据可视化流程又是如何操作的呢?

1、确定一个分析目标

一个明确的分析目标就像远行大海中的一座灯塔,能够为此次数据分析指引前进的方向,不至于迷失方向。简单来说,明确的分析目标也就是需要知道,此次报告结构的受益对象是谁?想要通过此次数据分析得出什么结果、达到什么目的?可以是企业的产品在中国哪部分区域的销售量是最好的,以及导致销售量较低的主要原因之类的。

2、了解业务流程

在确定好目标之后,必须对公司业务的流程进行一定的了解。若是对公司的业务情况一无所知,就无法知道什么是导致业务量下降的重要原因,找不到关键因素,无法提取重要变量。

3、提取数据

在对业务逻辑有了一定了解后,我们就可以进行提取数据了。这个步骤很大程度上与第二步相关,也就是说你从第二步分析出了什么重要变量、外部因素,就可以按照这些变量和因素寻找需要的数据或字段。

4、数据分析,最重要的一步

需要的数据已经整理完毕,接下来就是进行实际操作了。数据分析的过程并不是简单的排序,数据中可能存在很多的无用数据需要过滤,如何从密密麻麻的数据中,需要到企业关心的重点。你也可能会发现很多有趣的数据,找到一些有趣的规律,例如经典的啤酒和尿布案例。

5、得出结论

最后的一步就是将数据分析的结果进行整理得出一份完整的试验报告,并验证一下这份报告的可靠性。

这里介绍的数据可视化流程主要是针对数据分析人群的一个大致思路,是介绍如何将数据从数字模式转变成丰富的图形表达的提纲步骤,通俗说也就是看图说话的一个过程。

3.2 数据可视化设计

数据可视化最主要的作用之一就是希望能将图形背后的数据含义准确传达给用户,因此在设计数据可视化时最好对以下内容进行关注:

1、选组图形时必须具有一定的规则,一定要选择最合适的图表类型,不能盲目选择;

2、图形设计时尽量简洁,可利用鲜明的颜色增加数据之间的对比度,增强对用户的视觉冲击,同时也能加深用户对图表的印象。但切忌颜色不能太丰富,太过丰富艳丽的颜色只会导致用户的视觉疲劳;

3、在数据看板的设计中,一般选择将可视化大屏的背景颜色选择为深色,常用黑色、墨蓝色,在此基础上搭配一些动图或者背景本身就是动态的,看上去就可以给人一种比较直观的震撼的感觉;

4、可视化大屏的内容要见谅简洁,凸出需要重点展示的内容,删除不必要的信息;

5、一般一张可视化大屏所展示的内容基本是一致的,若要表示一系列的内容,可以选择添加多张可视化大屏。在DataFocus系统中,可以在可视化大屏下设二级看板,代表为一个系列的内容。

3.3 可视化基本图表

这里介绍的基本图表和高级图表都以DataFocus工具为例,介绍一下可视化图表所需字段和一些基本场景。DataFocus中包含了35种丰富的图表类型,能够满足日常分析的绝大部分可视化需求,并且具有超强的个性化设置。另外,用户可根据自身需求,导出图片或对应数据信息,方便后续使用。

DataFocus系统中支持的基本图表有柱状图、堆积柱状图、折线图、面积图、饼图、环图、散点图、气泡图、条形图、堆积条形图、漏斗图、帕累托图、KPI指标、仪表图、雷达图、位置图、数据透视表,系统会根据用户当前输入的字段类型和字段个数,自动推荐比较合适的图表类型,然后用户也可以利用图表转换按钮选择更加美观合适的图表类型。

1、柱状图

柱状图适用于一个属性列和一个(或数个)数据列的二维数据结构,属性列作为进行类别比较的x轴,数据列作为显示比较高度的y轴。利用图形高度反映数据的差异,效果直观。当变量数目较少时,可以选用柱状图,在变量有多个时,可以将每一类别由一根柱变成多根柱。柱状图一般排序后使用,效果更佳,同时适合基于分类或时间类型的数据。

2、堆积柱状图

堆积柱状图适用于n(n>=2)个属性列和一个数据列的数据结构,其中一个属性列作为总体的x轴,其余则是每个总体的组成部分,数据列则作为显示比较高度的y轴。堆积柱状图既可以利用图形高度反应总体数据的差异,也可以计算各个组成部分的占比情况,尤其是当需要看某一单位的综合以及各系列值的比重时,最适合。这里说的堆积柱状图包括堆积柱状图和百分比堆积柱状图,利用堆积柱状图可以直观的对比每一条柱体的长度,反应出整个系列的总和,还可以对比各系列的长度。利用百分比堆积柱状图则可以更加明确地对比每一柱体中各系列的比重。

3、折线图

折线图适用于一个属性列和一个(或数个,数个时通过图例选中不同的显示效果)数据列的二维数据结构,属性列作为进行类别比较的x轴,数据列作为显示比较高度的y轴。折线图适用于基于时间的数据,也就是我们常说的时序数据,最好是连续型的数据类型,这时候可以非常明显的看出变量随时间的走势变化,举个简单的例子,比如股票数据,基本都是用折线图表示。

4、面积图

面积图适用于一个属性列和一个(或数个,数个时通过图例选中不同的显示效果)数据列的二维数据结构,属性列作为进行类别比较的x轴,数据列作为显示比较高度的y轴。面积图显示各种数值随时间或类别变化的趋势线,尤其适用于强调数量随时间或类别变化的趋势,可用于引起人们对总值趋势的注意。面积图的表示和折线图十分类似,就是将折线图下方部分用颜色填充,面积图最终是用数据颜色部分的面积大小来代表各变量的数据大小,可以用来表示时序数据或分类数据。

5、饼图

饼图适用于一个属性列和一个(或数个,有多个数据列时生成多环饼图)数据列的二维数据结构,属性列作为类别比较,数据列显示比较占比。饼图多用来展示不同类别的占比情况和比例,显示各项的大小与占总体的比例,能够明确直观地显示比例情况,多适用于用户群体倾向和渠道来源等场景。说到分布构成,都会不由自主的想到饼图,饼图适用于数据差异较明显的情况下,可以用饼图来展示简单的占比关系,可以显示饼图中各元素占整个元素总和的比例。

6、环图

环图适用于一个属性列和一个(或数个,有多个数据列时生成多环环图)数据列的二维数据结构,属性列作为类别比较,数据列显示比较占比。环图看上去其实就是空心的饼图,使用方法和饼图也十分类似,也是用来表示占比,区别是环图在数据看板上可以有更加灵活的操作,可以扩大半径起点,然后在中间的空心区域放置其他图表。

7、散点图

散点图适用于一个属性列和一个(或数个,数个时通过图例选中不同的显示效果)数据列的二维数据结构,属性列作为进行类别比较的x轴,数据列作为显示比较高度的y轴。多用来观察各个数据点之间的关系以及分析变量之间的联系,还可以直观的看出数据的分布情况以及特殊的离群值。

散点图也经常被称为“相关图”,是由两个数值变量在x、y轴上的交叉点绘制而成的图表,一般是针对离散型的数据,可以观察数据集中情况,也可以将这些散点进行大致连接,拟合辅助离散数据的线性回归。

8、气泡图

气泡图适用于一个属性列和两个数据列的三维数据结构,属性列作为进行类别比较的x轴,一个数据列作为显示比较高度的y轴,一个数据列作为气泡的大小的显示。气泡图与散点图类似,不同之处在于在图表中额外加入一个表示气泡大小的变量进行两组数据的对比,比较角度多维,效果美观,多适用于反映销售场景需要同时比较两个数值的情况。

9、条形图

条形图适用于一个属性列和一个(或数个,数个时通过图例选中不同的显示效果)数据列的二维数据结构,属性列作为进行类别比较的竖轴,数据列作为显示比较长度的y轴。利用图形长度来反应数据的差异,条形图近似等于将柱状图按顺时针旋转90度。当变量数目较多时,更加适合使用条形图。但条形图的类目一般不超过30条,否则会造成视觉负担,影响对比结果,且基于时间的数据不适合使用条形图。

10、堆积条形图

堆积条形图适用于n(n>=2)个属性列和一个数据列的数据结构,其中一个属性列作为总体的竖轴,其余则是每个总体的组成部分,数据列则作为显示比较长度的y轴。堆积条形图同样是将堆积柱状图顺时针旋转90度,对比每一横条的长度总和以及其中各系列的长度情况。和条形图类似的,堆积条形图也不适用于基于时间的数据。

11、漏斗图

漏斗图适用于一个属性列和一个数据列的二维数据结构,属性列作为类别进行比较,数据列显示比较程度。漏斗图适用于一个连续流程的完成情况分析,显示各个阶段的转化率,尤其是在网站分析的用户转化的场景下很理想,能够完整的展示用户从进入到实现购买的最终转化之间的每个流程,并直观显示出整体流程的转化率情况,显示出问题所在。

12、帕累托图

帕累托图适用于一个属性列和一个数据列的二维数据结构,属性列作为进行类别比较的x轴,数据列作为显示比较高度的y轴。帕累托图用双直角坐标系表示,左边纵坐标表示频数,右边纵坐标表示频率,分析线表示累积频率。横坐标表示影响质量的各项因素,按影响程度的大小(即出现频数多少)从左到右排列。帕累托图是按照发生频率大小顺序绘制的直方图,表示有多少结果是由已确认类型或范畴的原因所造成。它是将出现的质量问题和质量改进项目按照重要程度依次排列而采用的一种图表,可以用来分析质量问题,确定产生质量问题的主要因素。

13、KPI指标

KPI指标适用于一个数据列的一维数据结构,直白将数据呈现在面板上。KPI指标分析能最直接显示结果,可以通过配置添恰当的数据单位,适用于高亮关注指标值或者差异,非常简单。选用KPI指标图来显示,结果直观且没有多余信息,一般是直接放置企业的核心数据,直接显示。

14、仪表图

仪表图适用于n(n>=1)个数据列的一维数据结构,让仪表指针在仪表盘数据范围内选中指定数据。使用方法和KPI指标类似,但区别于KPI的是,KPI指标是以数值形式直接将所需结果进行展示,因此不能对比别的数值;仪表图则是确定一个范围后,指针选中数值,并且仪表盘可以对比多个数值项。

15、雷达图

雷达图适用于一个(或数个)属性列和一个数据列的二维数据结构,属性列作为类别进行比较,数据列显示比较高度。雷达图比较常见的就是用于分析人物或事物的各项能力水平,主要是用来比较每个数据相对与中心的数值变化情况,多用于倾向分析和重点把握。每个数据离中心越近,则说明属于较差的状态,需要改进;数据远离中心,则说明表现优异。

16、位置图

位置图适用于一个属性列(必须是省份数据)和一个数据列的二维数据结构。位置图适用于有空间位置的数据分析,因为涉及行政区域,最好在特殊状况下使用。当原始数据中存在地理省份信息的数据时,就可以利用位置图来更加形象地表示。若数据中还存在省份下各城市数据的话,可以利用DataFocus系统的下钻功能,观察某省份下的各城市具体情况。

17、数据透视表

数据透视表适用于两个属性列和两个数据列的四维数据结构。数据透视表能够将筛选、排序和分类汇总等操作依次完成,并生成汇总表格。每一次改变版面布置时,数据透视表会立即按照新的布置重新计算数据。另外,如果原始数据发生更改,则可以更新数据透视表。数据透视表可方便地调整分类汇总的方式,灵活地以多种不同方式展示数据的特征。

18、表格

表格其实并不算是DataFocus系统中的一种基本图表,表格显示的数据就是制作图表时会运用到的数据,这部分数据已经在搜索界面进行了聚合处理,选择表格比较适合当数据需要进行筛选、排序或者查看具体数据的情况。

3.4 可视化高级图表

DataFocus系统中支持的高级图表则有组合图、树形图、词云图、瀑布图、旭日图、打包图、弦图、桑基图、箱型图、平行图、时序柱状图、时序条形图、时序散点图、时序气泡图、经纬图、经纬气泡图、热力图、统计图,其中时序类的图形都属于动态图表,会根据数据中的时间变化而变动。

1、组合图

组合图适用于一个属性列和两个数据列的三维数据结构,属性列作为进行类别比较的x轴,两个数据列分别用柱状图和折线图的高度作为显示。当你想要在一个图中既表达对比又表达趋势,就可以使用组合图表示,能够充分满足你的需求,同样可以用来表示时序数据或分类数据。

2、树形图

组合图适用于一个属性列和一个数据列的二维数据结构,属性列作为类别进行比较,数值列显示整体面积占比。树形图本质就是决策树的可视化,只不过排列成矩形,同时将各个变量进行细分。在矩形树图中,各个小矩形的面积表示每个子节点的大小,矩形面积越大,表示子节点在父节点中的占比越大,整个矩形的面积之和表示整个父节点。

3、词云图

词云图适用于一个属性列和一个数据列的二维数据结构,属性列作为类别进行比较,数值列显示为词云图中字符的大小。词云图一般用于显示词汇出现的频率,词汇较大的就是出现频率较高的,词汇较小的就是出现频率较低的,这样可以使用户一目了然,直接看到词频最高的几个类目,比较适用于分类变量数据。

4、瀑布图

瀑布图适用于一个属性列和一个数据列的二维数据结构,属性列作为进行类别比较的x轴,数据列作为显示比较高度的y轴。瀑布图可以表达前后两个数据点之间数量的演变过程,数据从最开始的一个值,随时间不断进行上升下降后,得出最后的一个值,可以用于表示基于时间的数据演变情况,也可以表达静态情况下,各部分元素占总和的比例。

5、旭日图

旭日图适用于1-3个属性列和一个数据列的数据结构,属性列作为类别比较,数据列显示比较占比。旭日图和树形图有一定的类似,也是利用父子层次结构来清晰地表达层级和归属关系,同时能够帮助细分数据,了解该部分数据的真正构成。

6、打包图

打包图适用于1-3个属性列和一个数据列的数据结构,属性列作为类别比较,数据列则显示比较面积。打包图其实就是将同一大类下的数据进行打包,数值较大的占的面积就较大,也就是圈圈面积越大,比较适合表达静态数据的分类构成。

7、弦图

弦图适用于两个属性列和一个数据列的数据结构,两个属性列必须具有相同属性,且去重后数据总量 < 10。弦图的各弧代表各属性列,弧的角度大小代表数据列,弧被分为多种颜色,体现各个属性列的不同属性。弦图的各弦代表两个属性列之间的往来。

8、桑基图

桑基图也适用于两个属性列和一个数据列的数据结构,桑基图是一种特定的、可用于代表数据一步步流程的特殊图表类型,桑基图中的每一分支的宽度就代表了数据流量的大小。还一种很新颖,很有特点的图表类型,会经常在对某网站进行用户行为分析时使用,细分网站的用户流向情况。

9、箱型图

箱型图也适用于一个属性列和一个(或数个)数据列的数据结构,箱形图是一种用作显示一组数据分散情况资料的统计图,常见于品质管理。它主要用于反映原始数据分布的特征,还可以进行多组数据分布特征的比较。箱线图可以显示一组数据的最大值、最小值、中位数和两个四分位数。

10、平行图

平行图适用于两个(或数个)属性列的数据结构,可以选择不添加数值列。在平行图中绘制表示数据表中各行的相连线段,通过绘制成型的平行坐标来查看多维数据中的模式。

11、时序柱状图、时序条形图、时序散点图、时序气泡图

作为时间序列类的动图,时序柱状图、时序条形图、时序散点图、时序气泡图的使用方法和柱状图、条形图、散点图、气泡图是一致的,需要至少一个属性列和一个数据列的二维数据结构,但不同的是时序图需要在搜索界面输入一个时间关键词,每年或每月。最后再对时序图的轮播时间进行一个设置即可。

12、经纬图

经纬图适用于问题数据中必须包含唯一的经度列和唯一的纬度列,再加上一个数值列的数据结构。根据原始数据中的经纬度数据,可以绘制某区域或全国的地图,显示经纬度,类似的还有统计图。

13、经纬气泡图

经纬气泡图适用于问题数据中包含唯一的经度列和唯一的纬度列,再加上一个数值列的数据结构。经纬气泡图,顾名思义是经纬图结合气泡图形成的,系统根据经纬度数据绘制气泡的点,再根据数值列数据对气泡的颜色进行定义,颜色深的气泡点,一般数值较大,数据集中。

14、热力图

热力图适用于问题数据中包含唯一的经度列和唯一的纬度列,再加上一个数值列的数据结构。热力图可以视为气泡图和地图的结合演变而成,主要是表示数据的密集程度,一般颜色越深的地方则数据密度大,数据集中。

15、统计图

统计图适用于问题数据中包含唯一的经度列和唯一的纬度列,再加上一个数值列的数据结构。系统同样根据经纬度数据绘制柱体的点,再根据数值列数据对柱体的长度进行绘制,柱体约长,则数值越大,数据越集中。

使用DataFocus搜索式数据分析系统时,可以经由用户的查询问题自动生成适合数据结构的可视化图表类型,但用户也可以将图表转化成自己需要或最合适的图表类型。图表用来显示比较结果的方式主要是高度、大小、角度等。

推荐阅读更多精彩内容