数据分析入门

目录:

1.概述
2.数据是基础
3.数据库是数据存储的载体
4.工具是实现数据分析的方式
4.1主流BI工具——Power BI介绍
4.2主流BI工具——Tableau介绍
5.如何进行业务分析以及各个图表的使用
6.分享一些公众号

随着计算机和互联网的发展,人们在各项活动中形成的数据容量呈几何级数增长,对数据的分析和利用已经渗透到生活的方方面面。大数据的时代对商业、对思维、对管理的变革,无论是企业、政府以及个人都想要把大数据纳入囊中成为一把利器。那么,今天,我们就来对数据分析进行一个拆解,让想要学习数据分析的你迈出第一步~


图源自网络侵删

想要做成上图这样的数据分析报告需要经历哪些流程呢?
数据的前世今生

很显然,我们的第一张图仅仅是数据展示所呈现的结果。想要做出一张合逻辑又美观的仪表盘,首先是对数据源进行收集、汇总,这个数据可能是结构化的,也可能含有半结构化数据,也有非结构化数据。之后我们要将数据源进行规范化处理,针对不同类型的数据会有不同的处理方式。结构化数据可以直接通过ETL到关系型数据库中,如SQL Server中,再流入数据湖,半结构化数据需要经过处理转换成结构化数据后再存储到数据库中。数据湖的数据会被放入数据集市,在数据展示层面,会有很多BI分析工具,这些工具通过API调取数据集市里的数据,然后就可以用这些数据通过不同的展现形式进行分析了。

数据是基础

数据分为结构化数据,半结构化数据和非结构化数据这三种类型:
结构化数据:是由二维表结构来进行逻辑表达和实现的数据,严格地遵循数据格式与长度规范,主要通过关系型数据库进行存储和管理。常用的有Excel数据结构化数据

半结构化数据:这样的数据和其他两种类别都不一样,它是结构化的数据,但是结构变化很大。例如员工简历,基本信息一栏比较一致,符合一定的结构。但是在其他方面,例如教育经历,婚姻状况,出入境情况等等,甚至还有一些难以预料的情况需要记录,想要存储这些数据就变得复杂起来。半结构化数据

非结构化数据:非结构化数据是数据结构不规则或不完整,没有预定义的数据模型,不方便用数据库二维逻辑表来表现的数据
包括所有格式的办公文档、文本、图片、XML, HTML、各类报表、图像和音频/视频信息等等。非结构化数据

非结构化数据

一般我们都是基于结构化的数据进行分析。而对于半结构化,非结构化的数据我们也会进行一定的处理(称为“数据清洗”)转换成我们可理解的结构化数据。

数据库是数据存储的载体

传送门:简单介绍了数据仓库,数据库的关系以及数据清洗<ETL>

主流关系数据库
(1)商用数据库:Oracle, SQL Server, DB2等;
(2)开源数据库:MySQL, PostgreSQL等;
(3)桌面数据库:以微软Access为代表,适合桌面应用程序使用
(4)嵌入式数据库:以Sqlite为代表,适合手机应用和桌面程序

谈谈SQL
结构化查询语言(Structured Query Language)简称SQL,是一种特殊目的的编程语言,是一种数据库查询和程序设计语言,用于存取数据以及查询、更新和管理关系数据库系统
初次接触SQL还是在大学的《数据库应用》这门课中接触了Access数据库的简单SQL语句,思维的启蒙为我在后来的SQL学习中奠定了一大步基础。简单说SQL就是通过编写一些语句,去查询数据或者获取你想要的数据,这种方式减少了数据的冗余,想要什么数据提取什么数据即可,为BI开发工具省去内存,一定程度上提高性能。想要更深入学习SQL,推荐书籍《SQL必知必会》,推荐网站SQL教程

工具是实现数据分析的方式

介绍两种市面上比较流行的两个BI工具:Power BI和Tableau

Power BI

Power BI是由微软提供的自助式商业智能云服务,为非技术业务用户提供聚合,分析,可视化和共享数据的工具。对于熟悉Excel的用户来说,Power BI用户界面直观,功能颇多,与其他微软产品深度集成为一种非常通用的工具。它可以链接到PPT上形成一份有理有据的数据报告呈现给老板看,它可以运用微软邮箱与同事内部共享。
下载官网:https://powerbi.microsoft.com/zh-cn/

从产品中选择Power BI Desktop:
下载的时候选择高级下载选项,可以选中文版本(如果英语不错,也可以直接下英文版本的),根据电脑的操作系统选择32位或者64位的安装包。
如果是WIN10系统,还可以直接在微软store里面找到Power BI Desktop应用直接安装。

安装完成,启动后会提示你注册登录,暂时不想注册直接关掉就行,如果注册,推荐申请个126邮箱,很容易注册成功,或者正在使用钉钉的话可以用钉钉注册登录,现在注册可以享受2个月的PowerBI专业版体验。

Power BI的界面:

界面

数据分析的第一步是获取数据,可以在左上角的获取数据进行,
获取数据

以上都是常用的数据格式,如果是新手,建议使用Excel进行练习(Power BI在下载Desktop的同时会包含一个Excel超市数据供练习)。
获取示例数据

当然也可以连接数据库直接调用数据,点击更多:


数据库获取数据

数据导入后,可以进入内嵌的查询编辑器,这是Power BI的一个主要模块,称为Power Query。在这里可以对数据进行转换清洗,是一个面向非技术人员的简单ETL工具。


Power Query界面

接下来要将整理好的数据进行数据建模,建模是针对数据源有多个表的情况下进行的,它用于将表与表之间通过主键进行数据关联。如果只有一个表就可以跳过这一步。


数据建模

之后就到了数据可视化的环节了。图中是Power BI Desktop自带的一些可视化图,如果想要更丰富的图表样例,也可以从应用商店导入,但有些是付费的,使用起来也有些僵硬,就经验而言不建议使用应用商店里的图表样例,能够使用自带的图表样例尽量使用,除非客户或者领导有特殊需求。
可视化组件

通过简单勾选想要分析的维度,度量,选择对应的可视化图,即可生成丰富的视图。当然,不同的图表所表达的含义也不尽相同,后面我们会一一介绍。
简单视图
* Tableau

Tableau是一款定位于数据可视化敏捷开发和实现的商务智能展现工具,以实现交互式和可视化的分析和仪表板应用,从而帮助企业用户快速地认识,理解和应用数据。
下载官网:(https://www.tableau.com/products

产品明细

Tableau提供了两个产品和一项云服务:
• 用于内容制作的 Tableau Desktop
• 用于数据/可视化分享的 Tableau Server
o 可托管在本地,也可放入云中
• Tableau Online
o Tableau Server 的托管版本
所有这 3 种产品都有试用版。
一般用户在Tableau Desktop中各个版本试用14天,如果是学生,可以通过学生证注册获得许可证,有效期一年。

首先是获取数据:


获取数据

Tableau和Power BI可支持的数据库或文件基本涵盖了市面上使用的类型。选择连接到相关数据源文件,


数据源处理

与Power BI的数据处理不同,Tableau有其独有的软件Tableau Builder对数据进行简单的清洗、转换。大家可以自行下载试用。
Tableau的界面

Tableau根据导入的数据会自动分成维度和度量。度量是数值数据元素 - 也就是相加、求平均或执行其他计算的对象,可以将度量视作“数字”。维度通常是非数值数据元素 - 它们是可作为分组依据或下钻查询依据的对象,可以将维度视为“词语”。

有时候某些ID数据本来是维度,但由于数据格式为数值的话会被自动识别到度量中,此时我们要单击该数据字段,右键选中“转换为维度”即可。

Tableau的操作相较于Power BI会更灵活方便,只需简单的拖拉拽就可以生成一个视图,并且可以根据右边的图表样式进行更改。

Power BI的画布就是一个仪表盘,在画布上可以放很多张视图,而Tableau分为工作表,仪表板和故事板。我们在做数据分析展示的时候,通常是做好每一个工作表,再在仪表板中将工作表拖拽其中进行美观上的设计布局。

制作好的仪表盘,我们会将其发布到Tableau Server上,设立每个仪表盘的查看权限,供不同权限的成员进行分享查看。

Tips:
关于Tableau的产品框架及用途,我在Process-on上专门做了梳理,欢迎大家参考:
Tableau产品框架梳理
Tableau功能和计算字段梳理

Tableau产品框架.png

Tableau功能梳理.png

关于Tableau具体的学习使用推荐书籍《人人都是数据分析师》,电子版本在文末~
这本书写的较基础、详细,特别推荐初步学习的同学阅读。

如何进行业务分析以及各个图表的使用

以下是我做的一个关于“如何基于统计分析业务”的PPT,希望能够帮助你找到分析思路。


业务分析

分享一些公众号

关于宏观大数据or 案例:大数据DT,大数据文摘,修炼大数据,DT财经,199IT互联网数据中心,软件定义世界(SDX),智企云拥;
关于Power BI:Power BI中国社区,悦策Power BI,Power BI星球,Power BI战友联盟;
关于Tableau:Tableau社区,参悟Tableau,Tableau传道士,数据艺术家。

电子书资源:复制这段内容后打开百度网盘手机App,操作更方便哦 链接:https://pan.baidu.com/s/17S2Uu46QgbhaLlFdAk5vNw 提取码:j1vx

推荐阅读更多精彩内容

  • BI一词早在20年前就被提出,加特纳集团将商业智能定义为描述一系列的概念和方法,通过应用基于事实的支持系统来辅助商...
    数通畅联阅读 490评论 0 7
  • 前段时间有报道称,有学者质疑“大数据”理论,也有硅谷公司负责人质疑大数据应用的效果。结合2011年Gartner关...
    栀子花_ef39阅读 991评论 0 5
  • 大数据学习交流群:808769635 前段时间有报道称,有学者质疑“大数据”理论,也有硅谷公司负责人质疑大数据应用...
    顺治帝阅读 1,989评论 0 5
  • 我的私奔计划:1.想逃离这个吵吵闹闹的世界;2.想丢掉把我困住的一切;3.想一整天你在你的房间;4.想和你分享我爱...
    米花娘阅读 113评论 0 1
  • 终于把现有的数据处理好了,不知道哪里出了问题,有一个就是算不好,明天再试试吧,希望能够在周末之前把所有的数据都处理...
    慕枫秋阅读 46评论 0 0