week14

ch22 ch24
机器学习的方法数不胜数,但是所有方法都试图建立一个模型来对现有实例进行归纳
所有方法可分为:
模型的表示
用于评估模型优度的目标函数
一种优化方法,可以通过学习找出一个模型,使目标函数值最大化或最小化

机器学习算法:

  • 监督式学习
    1、从一组成对的特征向量和值开始
    2、目标:从这些特征向量和值中推导出某种规则,预测出未知的特征向量及所定义的值
    3-1:回归模型:为每一个特征向量关联一个实数
    3-2:分类模型:为每一个特征向量关联一组数量有限的标签
  • 非监督式学习
    没有给定一个标注的特征向量集合,通过算法自动发现特征向量集合中的隐含模式
名词解释
  • 特征工程:区分数据中的信号和噪声,如果相对于样本量来说数据的维度(即特征的数量)比较大的时候,特征工程就有较大的失败风险
  • 距离度量:
    目的:看看响尾蛇与巨蟒更相似,还是与箭毒蛙更相似。
    方法:
    1、比较等长向量的闵可夫斯基距离
def minkowskiDist(v1, v2, p):
 """假设v1和v2是两个等长的数值型数组
返回v1和v2之间阶为p的闵可夫斯基距离"""
 dist = 0.0
    for i in range(len(v1)):
        dist += abs(v1[i] - v2[i])**p
    return dist**(1/p)

kmean聚类的理解

k最邻近算法:
对新样本进行标注时,就是根据它们与训练集样本的相似度而进行的
KNN分类器的缺点:当存在严重的分类不平衡的时候(两种类别数量差别大),分类结果非常糟糕
改进:对k最邻近进行加权

推荐阅读更多精彩内容