【机器学习实战】01-kNN近邻算法

【博客的主要内容主要是自己的学习笔记，并结合个人的理解，供各位在学习过程中参考，若有疑问，欢迎提出；若有侵权，请告知博主删除，原创文章转载还请注明出处。】

1.什么是kNN#

k-近邻算法（kNN k-NearestNeighbor）采用测量不同特征值之间的距离方法进行分类。在确定分类决策上仅依据最邻近的一个或多个样本的类别来决定待分样本所属类别。

2.用途#

kNN算法主要被用于文本分类、相似推荐.

3. kNN工作原理#

存在一个样本数据集合（即训练样本集），并且样本集中每个数据都存在标签（即每个数据与所属分类的对应关系）。输入没有标签的新数据之后，将新数据的每个特征与样本集中数据对应的特征进行比较，算法将提取出样本集中特征最相似数据（最近邻）的分类标签。

一般选择样本数据集中前K个最相似的数据，k一般不大于20的整数。

说明：图中绿色圆点表示新数据，蓝色正方形和红色三角形表示已分类的样本集。
如果K=3，由于红色三角形所占比例为2/3，绿色圆点则属于“红色三角形”分类；
如果K=5，由于蓝色正方形所占比例为3/5，绿色圆点则属于“蓝色正方形”分类。

4. kNN算法流程#

使用K-近邻算法将每组数据划分到某个类中：
1）计算已知类别数据集中的点与当前点之间的距离；

2）按照距离递增次序排序；
3）选取与当前点距离最小的K个点；
4）确定前K个点所在类别的出现频率；
5）返回前K个点出现频率最高的类别作为当前点的预测分类。

5. kNN算法Code#

1.Python算法实现

from numpy import *
import  operator
from os import listdir

def classify0(inX, dataSet, labels,k):        
    #0、获取数据Count
    dataSetSize = dataSet.shape[0]
    
    #1、计算距离
    diffMat = tile(inX,(dataSetSize,1)) - dataSet
    sqDiffMat = diffMat ** 2
    sqDistances = sqDiffMat.sum(axis=1)
    distances = sqDistances ** 0.5
    
    #2、选择最小距离的k个点
    sortedDistIndicies = distances.argsort()
    
    #3、确定前K个点所在类别的出现频率
    classCount={}
    for i in range(k):
        voteIlabel = labels[sortedDistIndicies[i]]
        classCount[voteIlabel] = classCount.get(voteIlabel,0) + 1
    
    #4、返回前K个点出现频率最高的类别作为当前点的预测分类
    sortedClassCount = sorted(classCount.iteritems(),key=operator.itemgetter(1),reverse=True)
    
    return sortedClassCount[0][0]

2、kNN算法测试

def createDataSet():
    group = array([[1.0,1.1],[1.0,1.0],[0,0],[0,0.1]])
    labels = ['A','A','B','B']
    return group,labels

6. kNN算法特点#

优点
1、简单，易于理解，易于实现，无需估计参数，无需训练；
2、适合对稀有事件进行分类；
3、适用于多分类问题。
缺点
1、计算复杂度高、空间复杂度高；
2、可理解性差，无法给出像决策树类的规则。

7. kNN示例分析#

7.1 示例1：使用k-近邻算法改进约会网站的配对效果##

1.背景
海伦通过在线约会网寻找自己合适的约会对象。根据自己一番总结将约会对象分为三类：
1、不喜欢的人；
2、魅力一般的人；
3、极具魅力的人.

海伦收集网站中每位约会对象的以下数据来划分其约会类型：
1、每年获得的飞行公里数；
2、玩视频游戏所耗时间百分比；
3、每周消费的冰淇淋公升数.

编写个小程序，海伦输入会员特征值程序显示该会员所属分类。

2. 分析
1）收集数据：提供文本文件
2）准备数据：使用Python解析文本文件
3）分析数据：使用Matplotlib画二维扩散图
4）训练数据：不适合kNN
5）测试数据：使用海伦提供的部分数据作为测试样本
6）使用算法：产生简单的命令行程序，然后海伦可以输入一些特征数据以判断是否为自己喜欢的类型。

3. Code
使用Python解析文本文件

def file2matrix(filename):
     fr = open(filename)
     numberOfLines = len(fr.readlines())
     
     #初始化矩阵
    returnMat = zeros((numberOfLines,3))
         
     #初始化标签矩阵
     classLabelVector = []
         
     fr = open(filename)
     index = 0
     
     for line in fr.readlines():
         line = line.strip()
         listFromLine = line.split('\t')
         returnMat[index,:] = listFromLine[0:3]
         classLabelVector.append(int(listFromLine[-1]))
         index += 1
     return returnMat,classLabelVector

4. 使用Matplotlib画二维扩散图

#读取样本数据   
datingDataMat,datingLabels = file2matrix('H:\workspacePy\machinelearninginaction\Ch02\datingTestSet2.txt')
             
#散点图显示样本数据
import matplotlib
import matplotlib.pyplot as plt
import matplotlib.font_manager 
             
fig = plt.figure()
ax = fig.add_subplot(111)
             
##1、散点图显示“玩视频游戏所耗时间百分比”、“每周消费的冰淇淋公升数”
ax.scatter(datingDataMat[:,1], datingDataMat[:,2], 15.0*array(datingLabels),15.0*array(datingLabels))
plt.show()
             
##2、散点图显示“每年获得的飞行常客里程数”、“玩视频游戏所耗时间百分比”
ax.scatter(datingDataMat[:,0],datingDataMat[:,1],15.0*array(datingLabels),15.0*array(datingLabels))
plt.show()

5.归一化特征值

特征值数值间相差较大，在计算距离时易产生较大偏差。例如：

”每年获得飞行常客里程数”远大于“玩视频游戏所耗时间百分比”和“每周消费冰淇淋公升数”，仅仅因为“每年获得飞行常客里程数”远大于其它2个特征值，计算距离结果将放大。我们将“每年获得飞行常客里程数”特征换算为“0到1”或“-1到1”之间，称为“归一化特征值”。

def autoNorm(dataSet):
    minVals = dataSet.min(0)
    maxVals = dataSet.max(0)
    ranges = maxVals - minVals
    normDataSet = zeros(shape(dataSet))
    m = dataSet.shape[0]
    normDataSet = dataSet - tile(minVals,(m,1))
    normDataSet = normDataSet/tile(ranges,(m,1))
    return normDataSet,ranges,minVals

6.测试算法

机器学习算法很大重要工作就是评估算法的正确率，通常将提供已有数据的90%作为训练样本来训练分类器，而使用其余的10%数据去测试分类器，检查分类器的正确率。

def datingClassTest():
     hoRatio = 0.10
    datingDataMat,datingLabels = file2matrix('datingTestSet.txt')
     normDataSet,ranges,minVals = autoNorm(datingDataMat)
    m = normDataSet.shape[0]
    numTestVecs = int(m * hoRatio)
    errorCount = 0.0    
    for i in range(numTestVecs):
        classifierResult = classify0(normDataSet[i,:],normDataSet[numTestVecs:m,:],datingLabels[numTestVecs:m],3)
        print "the classifier came back with:%d, the real answer is: %d" % (classifierResult,datingLabels[i])
        if(classifierResult != datingLabels[i]):
            errorCount += 1.0
         print "the total error rate is : %f" % (errorCount/float(numTestVecs))

7.2 示例2：手写识别系统##

1. 背景
数字0_{9，通过32*32位图来展现。现有1900个位图数据，分别表示了0}9数字内容。需通过kNN方法能快速分辨出位图的数字。

2. 分析
1）收集数据：提供文本文件；
2）准备数据：将图像格式转换为分类器使用的list格式；
3）分析数据：在Python命令提示符中检查数据，确保它符合要求；
4）训练算法：不适合kNN算法；
5）测试数据：编写函数使用提供的部分数据集作为测试样本，测试样本与非测试样本的区别在于测试样本是已经完成分类的数据，如果预测分类与实际类别不同，则标记为一个错误。
6）使用算法：省略

3.Code

#将32**32位图片数据转换为1*1024的list
def img2vector(filename):
    returnVect = zeros((1,1024))
    fr = open(filename)
    for i in range(32):
        lineStr = fr.readline()
        for j in range(32):
            returnVect[0,32*i+j] = int(lineStr[j])
    return returnVect

4.测试算法

#测试算法
def handwritingClassTest():
    #1、获取样本数据集合，
    hwLabels = []
    path = 'H:\\workspacePy\\machinelearninginaction\\Ch02\\digits\\trainingDigits'
    trainingFileList = listdir(path)
    m = len(trainingFileList)
    trainingMat = zeros((m,1024))
    
    #2、将样本数据并转换为list
    for i in range(m):
        fileNameStr = trainingFileList[i]
        fileStr = fileNameStr.split('.')[0]
        classNumStr = int(fileStr.split('_')[0])
        hwLabels.append(classNumStr)
        
        trainingMat[i,:] = img2vector(path + '/%s' % fileNameStr)
                
    #3、使用测试样本进行测试对比。
    path1 = 'H:\\workspacePy\\machinelearninginaction\\Ch02\\digits\\testDigits'
    testFileList = listdir(path1)
    errorCount = 0.0
    mTest = len(testFileList)
    for i in range(mTest):
        fileNameStr = testFileList[i]
        fileStr = fileNameStr.split('.')[0]
        classNumStr = int(fileStr.split('_')[0])
        
        vectorUnderTest = img2vector(path1 + '/%s' % fileNameStr)
        
        ##knn
        classifierResult = classify0(vectorUnderTest,trainingMat,hwLabels,3)
        print "the classifier came back with:%d,the real answer is :%d" %(classifierResult,classNumStr)
        if(classifierResult != classNumStr): errorCount +=1.0
    print "\nthe total number of errors is :%d" % errorCount
    print "\nthe total error rate is:%f" % (errorCount/float(mTest))

最后编辑于：2017.12.03 07:44:02

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 160,165评论 4赞 364
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 67,720评论 1赞 298
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 109,849评论 0赞 244
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 44,245评论 0赞 213
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 52,596评论 3赞 288
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 40,747评论 1赞 222
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 31,977评论 2赞 315
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 30,708评论 0赞 204
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 34,448评论 1赞 246
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 30,657评论 2赞 249
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 32,141评论 1赞 261
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 28,493评论 3赞 258
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 33,153评论 3赞 238
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 26,108评论 0赞 8
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 26,890评论 0赞 198
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 35,799评论 2赞 277
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 35,685评论 2赞 272