240 发简信
IP属地:北京
  • Resize,w 360,h 240
    如何在impala中计算多个数值字段的相关系数矩阵?

    如下图。 这里有两个问题: 1. hive和spark都有corr函数,impala貌似没有,那怎么计算相关系数?难道只能套公式来计算? 2. ...

  • Resize,w 360,h 240
    大规模爬虫流程总结

    爬虫是一个比较容易上手的技术,也许花5分钟看一篇文档就能爬取单个网页上的数据。但对于大规模爬虫,完全就是另一回事,并不是1*n这么简单,还会衍生...

    2.2 9577 5 114 1
  • Resize,w 360,h 240
    R做多元线性回归全攻略

    R中的线性回归函数比较简单,就是lm(),比较复杂的是对线性模型的诊断和调整。这里结合Statistical Learning和杜克大学的Dat...

  • Resize,w 360,h 240
    多元线性回归模型的特征选择:全子集回归、逐步回归、交叉验证

    在多元线性回归中,并不是所用特征越多越好;选择少量、合适的特征既可以避免过拟合,也可以增加模型解释度。这里介绍3种方法来选择特征:最优子集选择、...

    0.9 8338 1 13
  • Resize,w 360,h 240
    数据分析工具箱v1.6——根因分析

    前些日子我的好哥们安琪姐扔给我一篇Adtributor的paper,尽管已经很久没有看算法,更久没有读paper;但出于对这位专业的数据科学家的...

  • Resize,w 360,h 240
    基于R shinydashboard的道路交通可视化案例

    作品概述 这个作品刚刚获得“中国电科杯”城市数据创新大赛的城市交通专项奖,现在作为案例分享出来供同行交流讨论。虚的就不说了,此文只讨论技术。 先...

    0.7 8540 2 19
  • 数据产品-数据分析工具箱

    最近打算逐步将自己的知识能力逐步梳理一下,其中重要一项就是将自己过去在数据分析方面所写的代码产品化,形成一套通用(放之四海皆准)的工具箱,以便提...

  • Resize,w 360,h 240
    自助法在分散式投资策略中的应用

    先用人话来描述一下这个问题:有两个收益不固定的投资项目,如何将一笔固定的金额分开投资,才能使总投资风险最小? 再用数学语言来描述一下这个问题,对...

  • Resize,w 360,h 240
    基于shinydashboard开发的数据产品监控平台

    0. 前言 这是本人第3个基于shinydashboard开发的数据产品(前2个见基于R shinydashboard的道路交通可视化案例、比特...

    1.2 2503 1 10
个人介绍
我一个字不写,那是坠吼的。
但是看到你们这么热情,
我一个字不写也不好。