【演奏的船长】先知夏洛克的数字餐馆——数据分析学习总结

如何盖一栋大楼?


我有一个体会,要想高效的掌握某方面的知识,除了要投入时间精力认真学习思考具体的知识点,还要从更宏观和更微观的角度去观察该领域,从而建立更加全面的认知。这个过程很像是盖楼:
1.宏观上,得有科学、牢固的主体结构
2.操作上,得有高强度的粘合剂,将各种材料固定在主结构上
3.微观上,得有充足且质量过硬的基础建材

结合以上,我将数据分析的学习也想象成了一个盖楼的过程,并据此从以下三点对这一个多月来的学习进行一个总结:
钢结构——框架认知
混凝土——思考体悟
砖瓦块——定义描述


【PART1. 钢结构】框架认知


钢结构,是一栋大楼核心骨架,应当满足两点:
1.科学坚固,保证相关的概念、心得可以高效的建构在上面。
2.简洁清晰,易于记忆和调取,从而指导相关工作、学习的开展;

下面就从“事”和“人”两个角度来阐述我的框架认知

【事】对数据分析的整体认知

基本认知:

定义(WHAT):有目的搜集数据,提炼信息,找出规律,形成结论的过程。
价值(WHY):支撑科学决策,助力业务优化。

基本流程(HOW)

结合了解到的大大小小多个数据分析流程及个人对数据分析的理解,我总结了以下数据分析流程,其步骤及主要任务如下:

  • STEP1.业务理解—— 搞清楚 [Who how to do what things with whom,by what tools,and howmuch money/time/energy at where, in when, for why.]
    明确目的:为什么要进行分析,要实现什么价值
    定义问题:澄清问题的RSQC-PE(范围边界Range、进度时间Schedule、质量效果Quality、成本投入Cost、干系同路人People、预期成果Expection)
    拟定方案:设定假设及基本故事线
  • STEP2 数据搜集—— 获得原始数据并确定可用
    采集:获取原始数据
    检核:评估数据质量
    探索:简单观察数据
  • STEP3 数据处理—— 根据分析目的,对数据进行整理加工,得到适合数据分析要求的样式
    清洗:剔除无效数据
    校正:对数据进行微调以使其符合分析需要
  • STEP4 数据分析—— 围绕发现关联、验证假设、预测变化开展分析
    描述性分析:发生了什么,什么正在发生?
    推断性分析:为什么发生,还可能发生什么?
  • STEP5 直观展示—— 让客户在30秒钟内看懂你的数据。
    可视化:用图形直观展示数据背后的信息
    视觉优化:减少信息干扰,降低认知难度,提升美感和易读性
  • STEP6 讲解汇报—— 讲一个好故事,将结论高效传递给客户
    讲解分析结论/撰写分析报告——综合阐述假设、证明、结论、建议

【人】数据分析师需要的素养

结合工作室培训、书籍及相关文章,梳理出了数据分析师需要具备的素养,作为学习提升的参照系。

思维

  • 结构化:
    将事物抽象、分类成更小的元素,以便发现关联关系,找出关键要素。
  • 公式化:
    将各个要素量化、运算为可比较评价的指标。
  • 业务化:
    将各要素带入业务场景,结合成本、收益、机会、风险等,找出性价比最高的控制要素。

素质

懂:
管理&业务
工具&分析
展示&设计

擅:
严谨&好奇
沟通&学习
模仿&创新

技能(初级)

  • 统计学
    信息图形化、条件概率、贝叶斯公式、相关与独立、几何分布、二项分布、泊松分布、正态分布、统计抽样、估计、置信区间、假设检验
  • 软件工具
    • Tableau
      数据源:连接、表关联、数据提取
      数据处理:拆分、数据透视表、维度/度量、离散/连续、分层结构
      表计算:百分比、同环比、表计算方向
      计算字段:逻辑函数、日期函数、文本函数、空值函数
      筛选器:维度筛选器、度量筛选器
      基本图表:折线图、条形图、饼图、双轴图、散点图等
      仪表板:大小、容器、布局等
      简单的参数、组、集使用方法
      简单的参考线、参考区间使用方法
      基本的格式设置
    • SQL
      查询、存储
    • R
      命令行用法
      基本的数据分析库包(tidyr,dplyr,ggplot2)
    • Python
      基本语法
      函数和相关库包(numpy, pandas, matplotlib, sklearn)

【PART2.混凝土】个人体悟


一个中心

如果有人问我数据分析的中心词是什么,我会认为是“相关”,无论哪种类型的分析,其背后的逻辑都是找到一组相关,然后通过对这组相关的论证运用来支撑决策,优化业务。
由此想到,如果用最简化的语言概括数据分析,就是猜测相关、检验相关、运用相关

两个主题

将上面说的检验相关、运用相关,用另一种更常见的方式表达,就找到了了数据分析工作的两个核心主题——验证假设、预测变化

船长的数据分析流程V2.0.jpg

三个隐喻

①厨师

上面提到的数据分析6步流程,相对比较抽象,我将之映射成了一个更直观的过程——厨师烹饪

  • 业务理解——确定点单
    明确客人想吃啥,自己要做的菜品和数量
  • 数据搜集——获取食材
    根据要做的菜品去搜集需要的食材,并检验食材的质量。
    这些食材,有些是野菜随处可见(公开数据),有些是自家种的菜(企业内部数据),有些是得花钱买的菜(外部隐私数据),有些是偷的菜(爬取数据)
  • 数据处理——洗菜切菜
    将食材清洗、切割以便加工烹饪
  • 数据分析——加工烹饪
    通过各种方法,最大化发掘出食材的美味。
    我们可能会发现有些食材需要特殊的厨具和方法才能烹饪。这就是数据挖掘,这些特殊的厨具和烹饪方法,就是数据挖掘里用到的各类算法和模型。
  • 直观展示——装碗摆盘
    装碗以便于客人夹取食用,摆盘增加美观度以提升食欲
  • 讲解报告——上桌成席
    送到客人面前进行品尝

②侦探

数据分析师开展工作时的感觉很像侦探在调查案子,先要仔细去探查现场(理解业务),再事无巨细的搜集线索(数据搜集),大胆的做出假设(猜测相关),再认真仔细的去验证假设。总有一些秘密等着我们去发现,这正是数据分析的乐趣所在。

③预言家


在电影《黑客帝国》中,先知是一个计算机程序,因为可以读取Matrix的所有数据,所以能预见未来,这正是数据分析想要实现的终极目标。上图中对于先知描述正像预言家做的一眼:解读需要智慧、无法保证预测一定正确、不能代替人做决定,也和数据分析工作如出一辙。

十个元素

数据可视化的是将抽象的数据转化为直观视觉信息,从而发现和凸显数据之间的关联。
将这个过程进一步拆解,我们会发现数据可视化本质就是将多个维度/度量合理的安排到多个视觉元素当中,使人能从单个图像上获取更多维的信息。从这个角度理解,常见的图表不过是一些视觉元素的常用组合方式。只要理解了所有的视觉元素,我们就可以构建更加独特的可视化效果。基于此,我找到了十个视觉元素,分别是
七个基础视觉元素:颜色、形状、尺寸(大小)、位置、亮度、纹理、角度

三个衍生可识别视觉元素:符号、文字、阵列
以上十个视觉元素可以用一句话记忆“色型尺位亮纹角,符号文本阵列表

无数个视角

对于数据分析,维度是个至关重要的概念,广义上说,维度就是观察事物的视角,往往表现为一种分类方式,用以规范化的描述事物的某些特征。这组分类可以是文字、数字甚至任何可区分的符号。
当表现为一组离散的、可穷尽的类别时,就是Tableau里的的[维度]。
当表现为一段连续的、不可穷尽的数值时,就是Tableau里的[度量]。
无论我们怎么称呼它们,它们都只是观察事物的角度而已,这种角度可以有无数多个。于是我们可以有n个[维度]、[度量]、分类方式,以及nxn个类别,同时我们需要明白,所有这些类别都是为了便于人类认知而人为设定出来的,本质是通过对客观事物进行抽象简化,降低认知的难度。
所以,我们完全可以根据自己的需要建立超越已有分类方式的维度。只要满足MECE(相互独立、完全穷尽),任何你能想到的分类方式都可以成为一个新的维度,这种创造维度的活动其实很常见,比如企业根据自身情况进行的客户分类画像。
综合以上,我们就会发现数据分析的过程,其实是通过不同[维度]的组合来切割或整合出新的视角,并在该视角下观察[度量]值的变化,以发现和验证相关,这点在使用Tableau等可视化分析工具时感受会尤为明显。不同维度的组合方式,决定了观察数据的视角和颗粒度。


【PART3附录.砖瓦块】定义描述

以下是截止目前收集到的数据分析相关概念及部分描述,因内容较多,为避免干扰,以链接形式展示→定义描述


关键词回顾——先知夏洛克的餐馆

  • 先知——隐喻③预言家——核心主题之预测变化
  • 夏洛克——隐喻②侦探——核心主题之验证假设
  • 餐馆——隐喻①厨师——数据分析流程
记忆表征——先知大厨夏洛克
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 159,835评论 4 364
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 67,598评论 1 295
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 109,569评论 0 244
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 44,159评论 0 213
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 52,533评论 3 287
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 40,710评论 1 222
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 31,923评论 2 313
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 30,674评论 0 203
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 34,421评论 1 246
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 30,622评论 2 245
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 32,115评论 1 260
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 28,428评论 2 254
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 33,114评论 3 238
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 26,097评论 0 8
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 26,875评论 0 197
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 35,753评论 2 276
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 35,649评论 2 271

推荐阅读更多精彩内容