240 发简信
IP属地:北京
  • 120
    数据分析师(运营/增长)面试必备资料集合

    01 什么是用户行为 目的:分析用户购买行为用户行为由最简单的五个元素构成:时间、地点、人物、交互、交互的内容。 量化指标:将分析框架中的问题形成可量化的指标进行衡量和评价如...

  • 120
    主成分分析(PCA)教程(1)

    主成分分析(PCA)是现代数据分析的主要方法之一,它被广泛使用但其内在机制仍不为太多人理解。这篇文章的主旨就是厘清并解释其原理。这篇教程不仅能帮助建立起对 PCA 原理的直觉...

  • 标准化与归一化 with Scikit-learn

    1. 范数公式 L0 范数:所有非零元素个数 L1 范数: L2 范数: Lp 范数: 2. 标准化(Standardization) 对于一个数据集,如果其某些特征不服从正...

  • Python中sorted方法与operator.itemgetter方法的共用

    Python中的sorted函数和operator.itemgetter可以说经常一起用,主要是处理一些复杂的排序问题的时候。 operator.itemgetter函数 o...

  • 10行代码实现kNN算法

    使用 numpy 库,只需 10 行简单的代码就能实现 k 近邻算法。 算法逻辑 对要分类的点(X)进行下列运算: 计算 X 与已知分类的所有点的距离(欧氏距离); 距离按照...

  • 数据预处理与特征工程初步

    Intro 使用鸢尾花数据集: 其中features是特征矩阵,labels是真实分类。 1. 预处理(preprocessing) 1.1 预处理的目的 数据预处理的目的在...

  • 120
    不只是线性回归(2):多重共线性与正则化

    Intro 线性回归(Linear Regression)是机器学习的基本方式,但为了提升其性能,人们发明了无数优化方式。这个“不只是线性回归”系列就是为了记录我在日常的学习...

  • 120
    不只是线性回归(1):稳健回归

    Intro 线性回归(Linear Regression)是机器学习的基本方式,但为了提升其性能,人们发明了无数优化方式。这个“不只是线性回归”系列就是为了记录我在日常的学习...

  • 120
    最大似然估计、最大后验概率与贝叶斯估计

    Intro 众所周知,机器学习的过程一般分两个要点,第一是“模型”,第二是“优化”。“模型”这一点很好理解,就是要找到适合用于解决手头上预测问题的模型。机器学习训练过程的核心...

  • 120
    互联网金融用户增长数据模型

    Intro 最近很集中地系统梳理了互金理财行业在用户增长(Growth)方面的 methodology 与 practice,尝试以文章的形式予以框架性地总结,也算是给自己这...

  • 120
    梯度提升决策树 - GBDT

    Intro 最近因为打算参加一些CTR预估的竞赛,对一些常见的CTR竞赛所用模型做了些学习,本文主要记录一下对GBDT的学习收获。 学过机器学习的人肯定对决策树(Decisi...