机器学习入门（一）kaggle中Digit Recognizer

数据读入及分析

打开数据

            data = pd.read_csv('train.csv')      
            data1=pd.read_csv('test.csv')
            train_data = data.values[0:,1:]#读入全部训练数据
            train_label = data.values[0:,0]
            test_data=data1.values[0:,0:]#测试全部测试个数据
            return train_data,train_label,test_data  ``
使用pandas库读入数据超级强大，直接可以把表格读成矩阵。pandas是基于numpy库，所以使用和numpy比较像。由于我们读入的数据太多，我们需要进行一些简单的处理
## 归一化数据
``` def nomalizing(array):#归一化数据
             m,n=shape(array)
             for i in range(m):
                  for j in range(n):
                       if array[i,j]!=0:
                          array[i,j]=1
             return array ```
##使用pvc进行降维处理
由于训练数据的特征值太多，而且一部分并不影响结果。我们将使用sklearn中自带的pvc主成元分析工具，进行降维处理。其中原理，大概是将数据向量投影到各个维度，某些维度投影较小，即没什么用。具体见斯坦福机器学习课程。
首先我们导入一个库``` from sklearn.decomposition import PCA ```
1.**类的原型说明 **
``` sklearn.decomposition.PCA(n_components=None, copy=True, whiten=False) ```
  > n_components：int 或者 string，缺省时默认为None，所有成分被保留。PCA算法中所要保留的主成分个数n，也即保留下来的特征个数n；赋值为string，比如n_components=’mle’，将自动选取特征个数n，使得满足所要求的方差百分比。
copy：True或者False，缺省时默认为True。表示是否在运行算法时，将原始训练数据复制一份。True 将保持原始数据不变，False 则直接在原始数据上进行计算
whiten：缺省时默认为False。白化，是否使得每个特征具有相同的方差。


2.**pvc对象的使用**
```fit(X,y=None) ```
> fit()可以说是scikit-learn中通用的方法，每个需要训练的算法都会有fit()方法，它其实就是算法中的“训练”这一步骤。因为PCA是无监督学习算法，此处y自然等于None。
fit(X)，表示用数据X来训练PCA模型。


``` fit_transform(X) ```
用X来训练PCA模型，同时返回降维后的数据。
``` newX=pca.fit_transform(X) ```，newX就是降维后的数据。
#进行机器学习
1.**knn算法**
```def knnClassify(trainData,trainLabel,testData):
              knnClf=KNeighborsClassifier()#k=5   KNN中邻值为5，
              knnClf.fit(trainData,ravel(trainLabel))
              testLabel=knnClf.predict(testData)
              savetxt('sklearn_knn_Result.csv', testLabel, delimiter=',') ```
可以通过KNeighborsClassifier(n_neighbors=k)进行参数选择
这个算法因为每预测一个数据，就要反复大量运算，所以花费时间特别长。
> 花费时间 20分钟
   精度0.96400

以上默认参数情况如下，下面进行调参。
``` knn_clf=KNeighborsClassifier(n_neighbors=5, algorithm='kd_tree', weights='distance', p=3) ```
> 第一个参数为k值，第二个参数为搜索算法，默认暴力法，还有两种。 {‘auto’, ‘ball_tree’, ‘kd_tree’, ‘brute’}，第三个参数为权重，第四个为norm选择，p=2为欧式，p=1为曼哈顿,p=3。
经过我的测试，k=5,alg=kd,weights='distance',p=3最准确

``` def knnClassify(trainData,trainLabel):
             t=time.time()#测试时间
             knnClf=KNeighborsClassifier(n_neighbors=5,algorithm='kd_tree', weights='distance', p=3)#调参
             score = cross_val_score(knnClf, trainData, trainLabel, cv=3)#用原始数据的划分，进行准确度测试
             print(score.mean())
             print('time use%f'%(time.time()-t)) ```
> 花费时间448.856398
    精度0.939898157339

完整的算法见github [kaggle_knn](https://github.com/00crazy00/kaggle_KNN.git)
> 花费时间1900s
   精度0.96443

2.**决策树算法**
``` def treeClassify(trainData,trainLabel,testData):
                  clf = tree.DecisionTreeClassifier()
                  b = clf.fit(trainData,trainLabel)
                  testLabel=clf.predict(testData)
                  savetxt('sklearn_TREE.csv', testLabel, delimiter=',') ```
> 决策树（Decision Tree）是一种简单但是广泛使用的分类器。通过训练数据构建决策树，可以高效的对未知的数据进行分类。决策数有两大优点：1）决策树模型可以读性好，具有描述性，有助于人工分析；2）效率高，决策树只需要一次构建，反复使用，每一次预测的最大计算次数不超过决策树的深度。决策树基于信息论中的信息嫡划分决策树。

> 时间20s
   精度0.87029

3.**逻辑回归**
``` def logClassify(trainData,trainLabel,testData):
            classifier = LogisticRegression()
            classifier.fit(trainData, trainLabel)
            x = classifier.predict(testData)
            savetxt('sklearn_log_Result.csv', x, delimiter=',') ```
具体算法参考《机器学习实战》和斯坦福课程。
> 时间80s
   精度0.90629

4.**支持向量机**
支持向量机效果很好，花费时间也不是太多。原理是基于选取空间的支持向量。深入的话需要大量数学，以后再探究
``` def svmClassify(trainData,trainLabel,testData):
             t = time.time()
             pca = PCA(n_components=0.8, whiten=True)
             train_x = pca.fit_transform(trainData)
             test_x = pca.transform(testData)
             svc = svm.SVC(kernel='rbf', C=10)
             svc.fit(train_x, trainLabel)
             h=time.time()
             print('time used:%f' % (h - t))
             test_y = svc.predict(test_x)
             k=time.time()
            print('time used:%f' % (k - h))
            savetxt('sklearn_svm_Result.csv', test_y, delimiter=',') ```
> 花费时间57s
    精度0.98529


5.**随机森林**
6.**深度学习**
（持续更）

最后编辑于：2017.12.03 05:11:45

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 158,736评论 4赞 362
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 67,167评论 1赞 291
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 108,442评论 0赞 243
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 43,902评论 0赞 204
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 52,302评论 3赞 287
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 40,573评论 1赞 216
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 31,847评论 2赞 312
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 30,562评论 0赞 197
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 34,260评论 1赞 241
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 30,531评论 2赞 245
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 32,021评论 1赞 258
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 28,367评论 2赞 253
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 33,016评论 3赞 235
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 26,068评论 0赞 8
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 26,827评论 0赞 194
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 35,610评论 2赞 274
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 35,514评论 2赞 269

机器学习入门（一）kaggle中Digit Recognizer

数据读入及分析

打开数据

推荐阅读更多精彩内容