搭建python机器学习环境以及一个机器学习例子

搭建python机器学习环境以及一个机器学习例子

这篇文章介绍了Python机器学习环境的搭建,我用的机器学习开源工具是scikit-learn。下面具体介绍环境搭建以及遇到的一些问题。所有可能需要的软件都可在官网下载,或者在我的百度网盘下载:http://pan.baidu.com/share/linkshareid=1273581610&uk=3510054274。这里介绍的在windows下搭建的,同时我也在ubuntu 13.04下搭建成功,之前也一直在ubuntu下办公,但是后来发现风扇一直开启,还经常卡死,看电子书和视频也不太方便。于是后来又回到了windows下,如果只在Linux下学习那么应该选择ubuntu 13.04。

scikit-learn是一个开源机器学习软件包。其用户手册在这里下载:http://pan.baidu.com/share/link?shareid=1332146121&uk=3510054274。scikit-learn是用python开发的。于是整个环境的第一步要安装python,这里用的是python 2.7,也建议使用这个版本,我已经包含在我的网盘里了,大家看名字可以明白是哪一个。安装过程比较简单,鼠标直接一路(可改变以下路径,默认是装在C盘的)点下来即可。之后我们需要分别安装的是Numpy,Scipy,Matplotlib,前两者是科学计算的,比如说矩阵处理,后者是用来画图的,作数据可视化的。关于它们的教程可在这里下载:http://pan.baidu.com/share/link?shareid=1374756503&uk=3510054274。它们的安装都比较简单,安装的时候会自动检测之前安装的python,所以基本也就是一路点击下来。最后安装scikit-learn 0.15,安装之前首先需要安装numpy-MKL.整个过程是比较简单的。

下面介绍使用过程,构建第一个机器学习的例子,其中需要的数据我放在这里了:http://pan.baidu.com/share/link?shareid=1399332518&uk=3510054274。我们的数据的格式是这样的:

总共有743条,用word的写字板打开我网盘里的文件:web_traffic.tsv。这里数据的第一列表示时间(小时),第二列表示在这个小时内网站点击量(比如说第一行1  2272,表示第1个小时的点击量为2272次)。而我们所要做的工作便是通过这些数据去预测未来的点击量,从而未我们的网站建设提供一些指导,比如说我们需要多少服务器来支撑这样的点击量,如果我们能够提前知道就可以节省很多钱,总比事先买很多服务器好哈。

首先,我们要做的是把这些数据读到我们的程序里去。方法是使用SciPy的genfromtxt(),首先打开开始菜单中的所有应用程序找到Python 2.7,选择第一个IDLE(Python GUI):

然后输入:

import scipy as sp

data=sp.genfromtxt(“web_traffic.tsv”,delimiter=”\t”)

前者表示路径名,要注意在自己电脑上设置成相应的路径名,然后第二个参数是分隔符,由于原文件中使用的制表符隔开数据的,所以这里是\t。为了查看以下是否已经成功将数据读取到相应变量中,我们可以用如下的方法检验:

其中观察到第二行数据的第二列nan,它表示无效数据。然后,我们再敲入:

>>>print(data.shape),显式如下:

它的意思表示一共有743行数据,每行数据有2个属性。到这里,我们已经成功把数据读到程序里去了。接下来需要对数据进行一些预处理,比如说上面显示的无效数据。

我们需要把数据分成两个向量也许更好。它们分别是向量x和向量y。使得它们可以对应监督学习中的输入和输出。第一个向量x表示第一列时间,向量y表示第二列点击量。操作如下:

刚才提到了无效数据,首先看看有多少个无效数据,也就是有多少行含有“nan”。敲入:

看来不多,只有8行。我们能够手动删除它们?那如果很多无效数据了呢,所以我们还是借助SciPy的强大功能吧。敲入:

学过程序的人应该都能看得明白,~表示取反,这里就表示取有效的数据,当然具体细节我们暂时不需要明白,只要知道它的功能即可。好的,现在来检测一下是不是已经剔除了无效数据呢?

发现原来的2被我们剔除了,再来看下y吧:

原来那个nan没了。好的,数据处理好了,接下来想可视化以下,我们把它展示在一张图中,这就要借助工具Matplotlib.把下图中的>>>后面的命令敲入:

可以看到图:

这个就是之前的数据绘成的图,x,y轴分别表示时间和点击量。数据到这里基本就处理好了。下面应该是机器学习算法部分了。我们要选择一个算法去预测将来的点击量,这是明显的监督学习。上图给出的数据便是训练样本。在建立我们第一个模型之前我们需要先设计一个评估函数,用来判断什么样的模型才是好的。也就是误差函数,可以这样来计算,用模型的预测值-真实值(训练样本已经提供)的差的平方来评估(为什么它能评估,也是很好理解的)。即:

def error(f,x,y):

return sp.sum((f(x)-y)**2)

容易知道,这其实是一个拟合问题,把这些数据拟合到最佳模型(即一个函数,再用这个函数去预测新数据)。从最简单的情况开始,我们首先去一条直线去拟合这些数据。SciPy提供了函数polyfit(),只要给定数据x和y以及多项式的阶数(直线是1次函数),它就能找到模型的函数,使得之前定义的误差函数达到最小(只有误差最小才表面模型最好额)。敲入:fp1,residuals,rank,sv,rcond=sp.polyfit(x,y,1,full=True)

函数polyfit()返回拟合模型函数的参数fp1,并且通过把full设置成True,我们还能获得其他的相关信息,在这里只有residuals是我们感兴趣的,它是真的误差。打印参数:

打印误差:print(residuals)

这意味着:f(x)=2.59619213 * x +989.02487106

然后我们用函数poly1d()来创建模型函数:

注意这里是数字1不是字母l,不然就看到它报错了。现在我们用f1()去拟合数据,让我们看看拟合的效果:(由于画图需要之前的代码,所以写成一个脚本):

import sys

import scipy as sp

data=sp.genfromtxt("E:\python\data\ch01\data\web_traffic.tsv",delimiter="\t")

print(data[:10])

x=data[:,0]

y=data[:,1]

sp.sum(sp.isnan(y))

x=x[~sp.isnan(y)]

y=y[~sp.isnan(y)]

import matplotlib.pyplot as plt

plt.scatter(x,y)

plt.title("Web traffic over the last month")

plt.xlabel("Time")

plt.ylabel("Hits/hour")

plt.xticks([w*7*24 for w in range(10)],

['week %i'%w for w in range(10)])

plt.autoscale(tight=True)

plt.grid()

fp1,residuals,rank,sv,rcond=sp.polyfit(x,y,1,full=True)

f1=sp.poly1d(fp1)

fx=sp.linspace(0,x[-1],1000)

plt.plot(fx,f1(fx),linewidth=4)

plt.legend(["d=%i" %f1.order],loc="upper left")

plt.show()

input()

拟合效果显然不好,因为是一阶的直线。这个方法是可以用来学习机器学习各种算法的,而scikit-learn是提供了各种机器学习算法包,可供你直接调用。暂时就不介绍了,今天只写这么多。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 158,560评论 4 361
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 67,104评论 1 291
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 108,297评论 0 243
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 43,869评论 0 204
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 52,275评论 3 287
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 40,563评论 1 216
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 31,833评论 2 312
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 30,543评论 0 197
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 34,245评论 1 241
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 30,512评论 2 244
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 32,011评论 1 258
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 28,359评论 2 253
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 33,006评论 3 235
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 26,062评论 0 8
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 26,825评论 0 194
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 35,590评论 2 273
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 35,501评论 2 268

推荐阅读更多精彩内容