机器学习实战—MNIST手写体数字识别

主角多会嘴遁,反派死于话多。

扯了三篇咱们直接开始上手一个项目体验下机器学习的魅力,相关的理论知识,遇到了咱们再拎出来介绍。


什么是MNIST?

MNIST(官方网站)是非常有名的手写体数字识别数据集,在Tensorflow的官方网站里,第一个就拿它来做实战讲解,咱们也以此作为开始的项目。它由手写体数字的图片和相对应的标签组成,如:

image

MNIST数据集分为训练图像和测试图像。训练图像60000张,测试图像10000张,每一个图片代表0-9中的一个数字,且图片大小均为28*28的矩阵。

train-images-idx3-ubyte.gz: training set images (9912422 bytes) 训练图片

train-labels-idx1-ubyte.gz: training set labels (28881 bytes) 训练标签

t10k-images-idx3-ubyte.gz: test set images (1648877 bytes) 测试图片

t10k-labels-idx1-ubyte.gz: test set labels (4542 bytes) 测试标签


启动虚拟环境

source activate <virtual env> # virtual env是你的环境名字

打开Jupyter Notebook

jupyter notebook

加载Tensorflow,导入数据
我们使用被封装到tensorflow内部的MNIST数据

import tensorflow as tf

from tensorflow.examples.tutorials.mnist import input_data

mnist = input_data.read_data_sets("MNIST_data/", one_hot=True)

创建变量(varaible)和占位符(placeholder)
占位符类似一个函数,使用时传入参数值来使用。通俗来讲就好像我去教室里贴个纸条说这个位子被占了,但是我可以选择让谁去做。在这里None代表着可以是任何数值。

x = tf.placeholder(tf.float32, [None, 784])
y_ = tf.placeholder(tf.float32, [None, 10])

在TensorFlow中,变量的参数用tf.Variable表示

# W是模型的参数,是一个784*10的矩阵将一个784维的输入转换为一个10维的输出
W = tf.Variable(tf.zeros([784, 10]))
# b是偏置项(bias)。
b = tf.Variable(tf.zeros([10]))
# y=softmax(Wx + b),y表示模型的输出
y = tf.nn.softmax(tf.matmul(x, W) + b)

softmax是个简单的分类器,其结果是一个矩阵,分别代表着模型对于输入数据的预测属于各个分类的可能性。比如
[0.00, 0.01, 0.02, 0.01, 0.98, 0.01, 0.01, 0.00, 0.01, 0.02]
损失函数
损失函数是我们评价模型好坏的标准,我们优化模型的目标就是为了最小化损失函数,所以如何设定合理的损失函数是至关重要的。当然没有统一通用的损失函数,因为不同的模型可能是为了达到不同的效果,比如有的为了提高平均准确率,有的为了得出最小离散率等等。在这个基本款的模型里,我们暂时只使用交叉熵作为损失函数。为了方便理解,我们使用数学表达式。同学们也可以使用Tensorflow封装的函数:sparse_softmax_cross_entropy_with_logits

cross_entropy = tf.reduce_mean(-tf.reduce_sum(y_ * tf.log(y)))

参数优化
我们使用固定参数0.01,大家也可以试一试其他的参数值。我会在下一篇里提出这一步的优化方案以及解释。

train_step = tf.train.GradientDescentOptimizer(0.01).minimize(cross_entropy)

创建Session

sess = tf.InteractiveSession() # 创建一个Session
tf.global_variables_initializer().run() # 初始化所有变量,分配内存。

进行梯度下降训练,优化模型参数
我们每次取100个数据作为一个batch用来训练参数,然后再取100个,共训练1000次。将当前batch(100组数据)的图片矩阵和标签传入占位符,并通过session运行train_step

# 分1000步梯度下降
for _ in range(1000):
    batch_x, batch_y = mnist.train.next_batch(100)
    sess.run(train_step, feed_dict={x: batch_x, y_: batch_y})

结果检测

# 正确的预测结果
correct_prediction = tf.equal(tf.argmax(y, 1), tf.argmax(y_, 1))
# 计算预测准确率
accuracy = tf.reduce_mean(tf.cast(correct_prediction, tf.float32))
# 传入测试数据集,获取模型测试的正确率
print(sess.run(accuracy, feed_dict={x: mnist.test.images, y_: mnist.test.labels}))

对于模型的输出值,我们的到是一个关于各个分类的可能性预测,比如
[0.00, 0.01, 0.02, 0.01, 0.98, 0.01, 0.01, 0.00, 0.01, 0.02]。所以我们使用tf.argmax(y, 1)之后得到的是最有可能的那个值,即4。
tf.equal返回的是boolean值,所以我们使用tf.cast将其转换成float便于计算。
最终将测试数据集传入占位符进行计算,得到最终结果。

测试结果

我们以上就实现了最基本的数据手写体识别,但是准确率也正如大家所见并不高,可以提升的空间也非常多。我们在下面的文章里详细分析每个步骤的缺点和如何优化,会有很多的知识点补充,大家一定会有很大的收获并会对机器学习的基本流程有清楚的理解。


image
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 158,736评论 4 362
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 67,167评论 1 291
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 108,442评论 0 243
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 43,902评论 0 204
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 52,302评论 3 287
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 40,573评论 1 216
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 31,847评论 2 312
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 30,562评论 0 197
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 34,260评论 1 241
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 30,531评论 2 245
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 32,021评论 1 258
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 28,367评论 2 253
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 33,016评论 3 235
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 26,068评论 0 8
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 26,827评论 0 194
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 35,610评论 2 274
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 35,514评论 2 269

推荐阅读更多精彩内容