IP属地:西藏
通过练习了解词袋及其属性:无序文本长度影响算法结果对复合短语处理能力不足 在sklearn中的使用CountVecterizer即可理解为词袋 ...
通过3个联系,直观认识异常值outliers 异常值检测/删除算法:训练->删除误差最大的10%数据->再训练使用残差residual erro...
通过大量小练习,直观学习:判断连续与离散分布简单的回归方程,斜率slope和截距intercept的概念使用回归方程进行预测 使用sklearn...
Enron事件背景,以及通过外部信息列出的可能的嫌疑人(POI)。 一般来说,可供训练的数据越多,效果越好。 基本的数据类型判断练习。 迷你项目(略)
决策树利用核技巧,把简单的线性决策面,转换为非线性决策面。一个接一个的处理多元线性问题。根据数据,算法自动找出决策边界决策树 sklearn中的...
SVM寻找一条直线或超平面,将输入数据分隔成两类。好的分隔线可以最大化间隔最大化MarginSVM首先考虑是否正确分类,其次才是最大化间隔。同时...
sklearn中的cross validation from sklearn import cross_validation features_...
PCA(Principal Component Analysis)是一套全面用于各类数据分析的分析方法,包括特征集压缩。每当需要将数据直观化的时...