大道至简-互联网数据统计的误差管理

本文聊聊数据统计的误差管理。

年初的一篇短文里,提到了量化“数据不充分”和尝试“容纳误导”,经过半年来ab测试实践,有了更深的体会。

先插入一段学生时代的记忆,中学学工有缝纫机制作睡裤的课程,老师问了一个问题,大针脚4cm,小针脚2cm,如果需要3cm间隙的两行针,该怎么办呢?

我们异口同声地说,大加小除以二,然后老师像看鬼一样看着我们说,怎么市重点的学生连这么简单的问题也不会?任何职校专科都没问题。

我们全员懵b。

愣了很久以后老师说,比大的小一点、比小的大一点啊。

很多年以后我领悟到,这位老师无意中(或许不是无意?)正在教我们这些熟练于“小乘佛法”的所谓优秀学生以“大乘佛法”:

这个回答一直到本科才领悟到(文科生可能今生就觉得缝纫老师傻),即首先根据缝纫机原理的常识,判断针脚尺寸变化是单调的,进而在目测中间位置随机选点,输出一定量的距离y以后,可以达到某种置信范围内的3cm的期望(实际上2和4也是期望,机械误差无可避免)--这里也需要假设反复测试的时候没有被老师大声呵斥,这样可能导致有极大影响的因子出现,通不过t测试。

这个故事除了炫耀一路重点书呆子以外(此处应有弹幕。。。),还提出了两个很重要的概念:

1、假设从生活抽象到理论的难度是1,那么理论返回来指导生活的难度可能是100。

王阳明说的所谓知行合一,具体来说涉及生活提炼到理论(书本知识是来自他人的生活)和理论指导生活。

那么书本知识的精确和僵化,同现实生活的繁复和随机,怎么调和呢,王的方法是哲学思辨。现代社会借助电脑多了一种方法,概率论和数理统计。

大部分团队对于数据,还是处于一个“比大的小一点,比小的大一点”状态,也就是经验方法能解决问题,而数据方法就像“大加小除以二”一样,毫无现实可操作性,无法解决问题,成为一种点缀。

在无数培训、讲座、博客都能看到,有人问,如果有某某误差怎么办,如果埋点漏了怎么办,如果不准怎么办。甚至出现了将错误进行到底,号称“因为根本不需埋点所以也不会漏”这种卖点噱头。

实际上数据统计作为一系列理论,要应用到现实,本身就必须容纳和体现业务、技术、市场环境的种种影响,埋点的方式和范围也在其中。

思想上,接受数据统计要能服务于现实,误差管理是正常的、必备的环节,既不是硬着头皮说数据没错,也不是因为数据有误差,就回滚到拍脑袋。

2、“缝纫机原理的常识基础上,判断针脚尺寸是单调的”

2cm和4cm的针脚中间位置,大体是3cm,而不会是5cm,这是所谓的单调预判。

读者可能会说,这谁不知道呢?我们不妨把问题稍作复杂化,一段时间内埋点sdk有问题,数据有少量偏差,这时是否理解取数、传输、存储的原理(涉及基本的应用开发和通信知识),就成为能否评估量化数据误差的关键。

误差管理要求杂学和扎实的基础,我们很容易发现,现在混得好的互联网市场人员,越来越多是程序员出身。

互联网行业的数据统计需要太多IT常识,如果连dom,activity,cookie都不知道,基本上等于在给广告公司送钱,有些博客就专门写写如何防范乙方数据作假,也能解决大量的生活实际问题,造(de)福(zui)一方。

有种说法是,数据要切实应用,需要业务+数学+工具(技术和统计),这三者都对误差有很大的影响:

对于纯技术背景的分析人员来说,他们奋斗一周克服的数据坑,可能是随便拉个业务妹子都知道的常识(比如上个季度我们和xx终止合作了呀,或者zf规定xx和yy不能一起卖了呀);

工具本身的结构性误差,包括采集、传输、保存的逻辑和流程,可以通过保持用同一个工具来看趋势,用两套完全不同的工具来做验证,来尽量控制。当发生明显误差时,可以定位到是采集、传输、保存中哪个步骤的问题,加以定量和解决;

算法的误差,目前更大来自于“洗数据”这一部分,而这一步极其有赖于对业务和工具的深刻理解和掌握,在洗数据之后的步骤,理论研究已经走到了“完全只差更快的电脑”的地步了,现在就站在那里等数据。。。。经常有分析人员一面看着kaggle上面一个个优雅华丽的case,一面回首自己手上的勉强可算数据的一堆烂帐,黯然下楼买泡面。

回到标题的大道至简

所谓“简”,可能是当暮然回首的时候,发现自己也就解决了“比大的小一点、比小的大一点”的随便拍脑袋即可搞定的事情,只不过是通过理论而已。

所谓“大道”,读者或许也发现,结果看似一样,实际完全两个境界,小乘和大乘的差距就在于,前者是解决了一个件事,而后者是解决了一个领域的问题。

数据指导业务,有非常艰难的冷启动阶段,可能费了很大的力气,才刚刚到达起点的拍脑袋即可搞定的水平,然而未来无可限量。

所以现在那么多的CTO都号称“数据基础工作是无需评效益,优先级永远最高的”,这一方面是因为流行时尚(CTO其实比CMO更时尚,只是方式不同),另一方面,如果按照短期利益来评优先,费那么大的劲可能还短期赶不上拍脑袋的效率和效果,数据基础设施的投入或许是永远不值得做的。

大致就这样了,谢谢能阅读到这里的朋友们,欢迎各种形式交流讨论。

推荐阅读更多精彩内容