深入浅出数据分析读书笔记

96
crazymagicjing
2018.12.18 22:49* 字数 729

一、引言,分解数据。

1. 数据分析的过程:明确该数据分析服务的目标客户及其真实需求一〉确定问题一〉分解问题和数据一〉评估一〉决策

2.统计模型取决于心智模型

二、实验,检验你的理论

1.注意比较,要怀疑因果方向

2.分组成控制组和实验组时,要注意混杂因素,使其具有同票同权

三、最优化,寻找最大值

1.列出方程,用excel的Solver求最值

四、数据图形化

1.尽量让图形多元化可促成最有效的比较,如将多张相似的散点图相邻排放

五、假设检验用证伪法

1.从线索中寻找元素间的正相关和负相关,然后对每一种假设证伪

2.如果证据能帮助对假设强弱排序,则具有诊断性

六、贝叶斯统计,强大。

七、主观概率需量化,用标准偏差看与平均值的差距。当需要加入新证据修正主观概率时,贝叶斯规则

八、启发法,人类天性

1.快省树

2.当直接计算、找数据的过程不可行时,用启发法

九、直方图

1.R程序和直方图,一个直方图发现问题,找到R中平均值中值和直方图中峰的错位,拆分多个图可能发现原因。

十、回归,预测

1.可能需要预测的问题:

- 人们的措施

- 市场动态

- 重大事件

- 实验结果

- 数据中未体现的资料

不能不问的问题

- 我有足够的数据进行预测吗?

- 我的预测准确性如何?

- 是定性预测还是定量预测?

- 我的客户能顺利利用这个预测吗?

- 我的预测有何局限性?

2.散点图可以处理可能有关系的2-3个数据,平均值图显示X轴每个区间相对应的Y轴数值,回归线是最准确的贯穿平均值图中各个点的直线,回归线对具有线性相关特点的数据有用,相关系数为0表示毫不相关。

十一、误差

1.机会误差又称残差,是优秀的统计模型的核心,若能正确解释,就能更好的理解数据和模型的用途。定量的指定误差一〉推出结果范围而不是一个简单的值更理性,误差需要定量。标准差描述平均值周围的分布,均方根误差描述残差分布

读书笔记