真依然很拉风

IP属地：北京

如何在impala中计算多个数值字段的相关系数矩阵？
如下图。这里有两个问题： 1. hive和spark都有corr函数，impala貌似没有，那怎么计算相关系数？难道只能套公式来计算？ 2. ...

0.4 2173 2 2
大规模爬虫流程总结
爬虫是一个比较容易上手的技术，也许花5分钟看一篇文档就能爬取单个网页上的数据。但对于大规模爬虫，完全就是另一回事，并不是1*n这么简单，还会衍生...

2.2 9577 5 114 1

R做多元线性回归全攻略
R中的线性回归函数比较简单，就是lm()，比较复杂的是对线性模型的诊断和调整。这里结合Statistical Learning和杜克大学的Dat...

3.2 62581 1 62
多元线性回归模型的特征选择：全子集回归、逐步回归、交叉验证
在多元线性回归中，并不是所用特征越多越好；选择少量、合适的特征既可以避免过拟合，也可以增加模型解释度。这里介绍3种方法来选择特征：最优子集选择、...

0.9 8338 1 13
数据分析工具箱v1.6——根因分析
前些日子我的好哥们安琪姐扔给我一篇Adtributor的paper，尽管已经很久没有看算法，更久没有读paper；但出于对这位专业的数据科学家的...

4980 1 2
基于R shinydashboard的道路交通可视化案例
作品概述这个作品刚刚获得“中国电科杯”城市数据创新大赛的城市交通专项奖，现在作为案例分享出来供同行交流讨论。虚的就不说了，此文只讨论技术。先...

0.7 8540 2 19
数据产品-数据分析工具箱
最近打算逐步将自己的知识能力逐步梳理一下，其中重要一项就是将自己过去在数据分析方面所写的代码产品化，形成一套通用（放之四海皆准）的工具箱，以便提...

0.1 801 1 1

自助法在分散式投资策略中的应用
先用人话来描述一下这个问题：有两个收益不固定的投资项目，如何将一笔固定的金额分开投资，才能使总投资风险最小？再用数学语言来描述一下这个问题，对...

623 1 2
基于shinydashboard开发的数据产品监控平台
0. 前言这是本人第3个基于shinydashboard开发的数据产品（前2个见基于R shinydashboard的道路交通可视化案例、比特...

1.2 2503 1 10