如下图。 这里有两个问题: 1. hive和spark都有corr函数,impala貌似没有,那怎么计算相关系数?难道只能套公式来计算? 2. ...
爬虫是一个比较容易上手的技术,也许花5分钟看一篇文档就能爬取单个网页上的数据。但对于大规模爬虫,完全就是另一回事,并不是1*n这么简单,还会衍生...
R中的线性回归函数比较简单,就是lm(),比较复杂的是对线性模型的诊断和调整。这里结合Statistical Learning和杜克大学的Dat...
在多元线性回归中,并不是所用特征越多越好;选择少量、合适的特征既可以避免过拟合,也可以增加模型解释度。这里介绍3种方法来选择特征:最优子集选择、...
前些日子我的好哥们安琪姐扔给我一篇Adtributor的paper,尽管已经很久没有看算法,更久没有读paper;但出于对这位专业的数据科学家的...
作品概述 这个作品刚刚获得“中国电科杯”城市数据创新大赛的城市交通专项奖,现在作为案例分享出来供同行交流讨论。虚的就不说了,此文只讨论技术。 先...
最近打算逐步将自己的知识能力逐步梳理一下,其中重要一项就是将自己过去在数据分析方面所写的代码产品化,形成一套通用(放之四海皆准)的工具箱,以便提...
先用人话来描述一下这个问题:有两个收益不固定的投资项目,如何将一笔固定的金额分开投资,才能使总投资风险最小? 再用数学语言来描述一下这个问题,对...
0. 前言 这是本人第3个基于shinydashboard开发的数据产品(前2个见基于R shinydashboard的道路交通可视化案例、比特...