统计学第一周——数据图表的展示

参考:1.内容参考-公众号“木东居士”,作者“Destiny”;2.统计学第七版-第3章数据图表的展示;

本周的主要学习内容是数据图表的展示,本文主要从以下三个方面来进行总结:(1)数据预处理;(2)常用的数据图表;(3)基于python的图表的可视化

1.数据预处理

在日常的数据分析的过程中,通常我们获得的数据是不能够直接用于分析中的,而是要经过一些必要的预处理过程包括数据的审核、筛选、排序等,从而使得数据达到一定的标准。获取数据可以分为一手数据&&二手数据的审核。

一手数据审核:主要从完整性和准确性两个方面进行。完整性是指调查对象(单位或个体)的完整性;准确性是指数据是否准确,是否存在异常值,存在进行纠正。异常值常有的处理方法有:异常值的处理方法常用有四种:1.删除含有异常值的记录2.将异常值视为缺失值,交给缺失值处理方法来处理3.用平均值来修正4.不处理。需要强调的是,如何判定和处理异常值,需要结合实际。(参考:https://blog.csdn.net/xzfreewind/article/details/77014587)

二手数据审核:主要从适用性和实效性两个方面进行。需要了解数据的来源、口径数据、背景资料等。

常见数据预处理方式有数据筛选、排序、数据透视表等,可以基于Excel实现,这里就不再具体阐述了。

2.常用的数据图表

数据图表可以帮助我们更直观的获取数据中的信息,因此如何选择合适图表是进行数据分析过程中关键内容。我们常见数据图表包括柱状图、饼图、环形图、茎叶图、散点图等,接下来我们将对这些图表进行简单的介绍。

在进行数据图表的选择前我们需要我们数据的类型以及数据分析的目的。参考公众号“木东居士”中作者“Destiny”的“七天数据可视化之旅”文章中数据图表的选择中内容,数据类型可以分为时序性数据(连续时间、离散时间)、对比型数据、比例型数据、分布型数据、区间型数据、关系型数据、地理型数据。

3.基于python的图表的可视化

下面对基于python对一些常用的图表进行可视化,地图、词云图、气泡图、漏斗图(后续增加其他类别图的可视化内容)。

1.地图分布数据

代码:基于pyecharts进行地图类数据的可视化

示例:

2.词云图

词云图生成过程一般包括三个部分:(1)文本数据的爬取;(2)文本词频处理;(3)词云图生成

代码:这里我们只展示第三部的过程,后期可以把前两步补上。

示例图:

3.漏斗图:适用于业务流程比较规范、周期长、环节多的流程分析,通过漏斗各环节业务数据的比较,能够直观地发现和说明问题所在。

代码:

示例:

4.气泡图

代码:

示例:

推荐阅读更多精彩内容