wujustin - 简书

IP属地：甘肃

Hive系列之SerDe
SerDe是Serialize/Deserilize的简称，目的是用于序列化和反序列化。序列化作用序列化是对象转换为字节序列的过程。序列化是...

0.5 16890 1 7
回归系列之L1和L2正则化
机器学习监督算法的基本思路是让拟合的模型尽量接近真实数据，换句更通俗的话, 要让我们的模型尽量简单又能很好的反应已知数据之间关系。在这个贴近...

0.2 26204 2 33 1

回归系列之线性回归的关键问题
如上篇文章，岭回归、Lasso回归和ElasticNet 回归都是以普通的线性回归为基础，先列举下线性回归的模型公式：岭回归为解决共线性问题...

2463 2 0
回归系列之梯度下降
上一篇文章中，线性回归关键问题之一：求解系数的方法梯度下降。梯度下降在数据挖掘很多算法中都有应用，属于比较基本的数学基础方法，本文对此算法进...

2137 1 8
回归系列之入门篇
常见回归算法基础概念，参见下如下文章，个人感觉是介绍比较好的文章： 7 Types of Regression Techniques you s...

0.3 3141 2 7
Hadoop系列之yarn架构与流程浅析
Yarn介绍 MapReduce 早期的 JobTracker/TaskTracker 机制在可扩展性，内存消耗，线程模型，可靠性和性能存在较大...

0.1 2331 0 5
特征工程之缺失值与离群值处理
缺失值处理方式删除均值缺点：当缺失数据不是随机数据时会产生偏差.对于正常分布的数据可以使用均值代替，中位值数据是倾斜的，使用中位数比均值可...

3957 0 3

损失函数之交叉熵
一、交叉熵的由来信息量香农提出的“信息熵”，是用来解决信息量化问题。信息的不确定性越强，需要用来表达的数据量也就越多。事件的不确定性通常是...

0.7 9597 0 5
SVM支持向量机
SVM是数据挖掘算法中比较复杂难懂的，反复观看斯坦福机器学习的视频，以及网上零散学习各种数学和SVM相关资料，对SVM还只能算有个粗浅的理解...

0.7 22276 0 20