机器学习入门(一)kaggle中Digit Recognizer

数据读入及分析

打开数据

            data = pd.read_csv('train.csv')      
            data1=pd.read_csv('test.csv')
            train_data = data.values[0:,1:]#读入全部训练数据
            train_label = data.values[0:,0]
            test_data=data1.values[0:,0:]#测试全部测试个数据
            return train_data,train_label,test_data  ``
使用pandas库读入数据超级强大,直接可以把表格读成矩阵。pandas是基于numpy库,所以使用和numpy比较像。由于我们读入的数据太多,我们需要进行一些简单的处理
## 归一化数据
``` def nomalizing(array):#归一化数据
             m,n=shape(array)
             for i in range(m):
                  for j in range(n):
                       if array[i,j]!=0:
                          array[i,j]=1
             return array ```
##使用pvc进行降维处理
由于训练数据的特征值太多,而且一部分并不影响结果。我们将使用sklearn中自带的pvc主成元分析工具,进行降维处理。其中原理,大概是将数据向量投影到各个维度,某些维度投影较小,即没什么用。具体见斯坦福机器学习课程。
首先我们导入一个库``` from sklearn.decomposition import PCA ```
1.**类的原型说明 **
``` sklearn.decomposition.PCA(n_components=None, copy=True, whiten=False) ```
  > n_components:int 或者 string,缺省时默认为None,所有成分被保留。PCA算法中所要保留的主成分个数n,也即保留下来的特征个数n;赋值为string,比如n_components=’mle’,将自动选取特征个数n,使得满足所要求的方差百分比。
copy:True或者False,缺省时默认为True。表示是否在运行算法时,将原始训练数据复制一份。True 将保持原始数据不变,False 则直接在原始数据上进行计算
whiten:缺省时默认为False。白化,是否使得每个特征具有相同的方差。


2.**pvc对象的使用**
```fit(X,y=None) ```
> fit()可以说是scikit-learn中通用的方法,每个需要训练的算法都会有fit()方法,它其实就是算法中的“训练”这一步骤。因为PCA是无监督学习算法,此处y自然等于None。
fit(X),表示用数据X来训练PCA模型。


``` fit_transform(X) ```
用X来训练PCA模型,同时返回降维后的数据。
``` newX=pca.fit_transform(X) ```,newX就是降维后的数据。
#进行机器学习
1.**knn算法**
```def knnClassify(trainData,trainLabel,testData):
              knnClf=KNeighborsClassifier()#k=5   KNN中邻值为5,
              knnClf.fit(trainData,ravel(trainLabel))
              testLabel=knnClf.predict(testData)
              savetxt('sklearn_knn_Result.csv', testLabel, delimiter=',') ```
可以通过KNeighborsClassifier(n_neighbors=k)进行参数选择
这个算法因为每预测一个数据,就要反复大量运算,所以花费时间特别长。
> 花费时间 20分钟
   精度0.96400

以上默认参数情况如下,下面进行调参。
``` knn_clf=KNeighborsClassifier(n_neighbors=5, algorithm='kd_tree', weights='distance', p=3) ```
> 第一个参数为k值,第二个参数为搜索算法,默认暴力法,还有两种。 {‘auto’, ‘ball_tree’, ‘kd_tree’, ‘brute’},第三个参数为权重,第四个为norm选择,p=2为欧式,p=1为曼哈顿,p=3。
经过我的测试,k=5,alg=kd,weights='distance',p=3最准确

``` def knnClassify(trainData,trainLabel):
             t=time.time()#测试时间
             knnClf=KNeighborsClassifier(n_neighbors=5,algorithm='kd_tree', weights='distance', p=3)#调参
             score = cross_val_score(knnClf, trainData, trainLabel, cv=3)#用原始数据的划分,进行准确度测试
             print(score.mean())
             print('time use%f'%(time.time()-t)) ```
> 花费时间448.856398
    精度0.939898157339

完整的算法见github [kaggle_knn](https://github.com/00crazy00/kaggle_KNN.git)
> 花费时间1900s
   精度0.96443

2.**决策树算法**
``` def treeClassify(trainData,trainLabel,testData):
                  clf = tree.DecisionTreeClassifier()
                  b = clf.fit(trainData,trainLabel)
                  testLabel=clf.predict(testData)
                  savetxt('sklearn_TREE.csv', testLabel, delimiter=',') ```
> 决策树(Decision Tree)是一种简单但是广泛使用的分类器。通过训练数据构建决策树,可以高效的对未知的数据进行分类。决策数有两大优点:1)决策树模型可以读性好,具有描述性,有助于人工分析;2)效率高,决策树只需要一次构建,反复使用,每一次预测的最大计算次数不超过决策树的深度。决策树基于信息论中的信息嫡划分决策树。

> 时间20s
   精度0.87029

3.**逻辑回归**
``` def logClassify(trainData,trainLabel,testData):
            classifier = LogisticRegression()
            classifier.fit(trainData, trainLabel)
            x = classifier.predict(testData)
            savetxt('sklearn_log_Result.csv', x, delimiter=',') ```
具体算法参考《机器学习实战》和斯坦福课程。
> 时间80s
   精度0.90629

4.**支持向量机**
支持向量机效果很好,花费时间也不是太多。原理是基于选取空间的支持向量。深入的话需要大量数学,以后再探究
``` def svmClassify(trainData,trainLabel,testData):
             t = time.time()
             pca = PCA(n_components=0.8, whiten=True)
             train_x = pca.fit_transform(trainData)
             test_x = pca.transform(testData)
             svc = svm.SVC(kernel='rbf', C=10)
             svc.fit(train_x, trainLabel)
             h=time.time()
             print('time used:%f' % (h - t))
             test_y = svc.predict(test_x)
             k=time.time()
            print('time used:%f' % (k - h))
            savetxt('sklearn_svm_Result.csv', test_y, delimiter=',') ```
> 花费时间57s
    精度0.98529


5.**随机森林**
6.**深度学习**
(持续更)
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 158,736评论 4 362
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 67,167评论 1 291
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 108,442评论 0 243
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 43,902评论 0 204
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 52,302评论 3 287
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 40,573评论 1 216
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 31,847评论 2 312
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 30,562评论 0 197
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 34,260评论 1 241
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 30,531评论 2 245
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 32,021评论 1 258
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 28,367评论 2 253
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 33,016评论 3 235
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 26,068评论 0 8
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 26,827评论 0 194
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 35,610评论 2 274
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 35,514评论 2 269

推荐阅读更多精彩内容