通过深度学习实现安全帽佩戴的检测

前一段时间做企业的智能安全项目，我们在面对一些问题时，大胆采用深度学习的方法，解决传统算法和统计学算法不好实现的问题，今天就和大家分享一下，如何解决通过视频监控检测工人是否佩戴安全帽的深度学习算法。

后记: 这个是2017年初的项目,目前做了很好的改进,可以参考我的这篇文章(https://www.jianshu.com/p/3e0016b951cb)

安全帽检测

企业安全智能监控画面

01. 概述

对于图像识别，采用传统的算法（opencv的一些算法），判断形状、颜色等等，我们在实验室和办公场所做测试，效果还不错，和容易识别出来。一旦到了工业现场，图像完全不行，连人和车都识别不出来。在不同光线下不论采用什么颜色空间（RGB、HSV什么）都无法分离出合理的色彩，更不要提判断和检测了。有感于实际的现场环境，决定放弃传统的算法，拿起深度学习的工具，来搞定这个项目。

02. 数据准备

高大上的人工智能背后，一定是苦逼的数据准备，深度学习的模型，需要成千上万的训练和测试数据，这些数据的采集和整理，还有数据的清洗都是体力活啊。
当然，我还是没傻到一张张去拍照片。我通过现场的摄像头做了视频采集，然后拿到录像，做了一个代码从录像中找到人，再把人的上半部分处理一下，变成标准格式的图片。这样子，2-3天的录像就可以产生几十万张图片了，看来训练集的问题解决了。

# -*- coding:utf-8 -*-
# 录像转换为图片
from time import gmtime, strftime
import cv2

videoFile = '/media/kingstar/kingstardata/safety_eyes/nohatdata/7.mp4'
cap = cv2.VideoCapture(videoFile)
cap.set(3,640)
cap.set(4,480)

while(True):
    ret, frame = cap.read()
    img = frame
    cv2.imshow('my', img)
    f = strftime("%Y%m%d%H%M%S.jpg", gmtime())
    cv2.imwrite('output/'+ f, img)

    if cv2.waitKey(1) & 0xFF == ord('q'):
        break
    if img.size == 0:
        break
cap.release
cv2.destroyAllWindows()

采用SSD的算法（用于物体检测的深度学习主流算法之一）检测出图片中的人。

# -*-coding: utf-8-*-
from keras.preprocessing import image
from keras.applications.imagenet_utils import preprocess_input
from scipy.misc import imread
import numpy as np

from ssd import SSD300
from ssd_utils import BBoxUtility

import matplotlib.pyplot as plt


import cv2
from os import listdir


voc_classes = ['Aeroplane', 'Bicycle', 'Bird', 'Boat', 'Bottle',
               'Bus', 'Car', 'Cat', 'Chair', 'Cow', 'Diningtable',
               'Dog', 'Horse','Motorbike', 'Person', 'Pottedplant',
               'Sheep', 'Sofa', 'Train', 'Tvmonitor']
NUM_CLASSES = len(voc_classes) + 1

input_shape=(300, 300, 3)
model = SSD300(input_shape, num_classes=NUM_CLASSES)
model.load_weights('weights_SSD300.hdf5', by_name=True)
bbox_util = BBoxUtility(NUM_CLASSES)

def ssd(img_path):
    global oPath


    inputs = []
    images = []
    #img_path = 'test02.jpg'

    img0 = cv2.imread(img_path)
    img = image.load_img(img_path, target_size=(300, 300))
    img = image.img_to_array(img)
    images.append(imread(img_path))
    inputs.append(img.copy())
    inputs = preprocess_input(np.array(inputs))

    preds = model.predict(inputs, batch_size=1, verbose=1)
    results = bbox_util.detection_out(preds)

    #print results

    # Parse the outputs.

    for i, img in enumerate(images):
        det_label = results[i][:, 0]
        det_conf = results[i][:, 1]
        det_xmin = results[i][:, 2]
        det_ymin = results[i][:, 3]
        det_xmax = results[i][:, 4]
        det_ymax = results[i][:, 5]
        #print i,det_label,det_conf
        # Get detections with confidence higher than 0.6.
        top_indices = [i for i, conf in enumerate(det_conf) if conf >= 0.5]


        top_conf = det_conf[top_indices]
        top_label_indices = det_label[top_indices].tolist()
        top_xmin = det_xmin[top_indices]
        top_ymin = det_ymin[top_indices]
        top_xmax = det_xmax[top_indices]
        top_ymax = det_ymax[top_indices]



        #colors = plt.cm.hsv(np.linspace(0, 1, 21)).tolist()
        #plt.imshow(img / 255.)
        #currentAxis = plt.gca()

        #print top_label_indices
        #print top_conf
        #print top_conf.shape[0]
        for i0 in range(top_conf.shape[0]):
            xmin = int(round(top_xmin[i0] * img.shape[1]))
            ymin = int(round(top_ymin[i0] * img.shape[0]))
            xmax = int(round(top_xmax[i0] * img.shape[1]))
            ymax = int(round(top_ymax[i0] * img.shape[0]))
            score = top_conf[i0]
            label = int(top_label_indices[i0])
            label_name = voc_classes[label - 1]
            #display_txt = '{:0.2f}, {}'.format(score, label_name)
            #coords = (xmin, ymin), xmax-xmin+1, ymax-ymin+1
            #color = colors[label]
            #currentAxis.add_patch(plt.Rectangle(*coords, fill=False, edgecolor=color, linewidth=2))
            #currentAxis.text(xmin, ymin, display_txt, bbox={'facecolor':color, 'alpha':0.5})
            print label_name,score,xmin,ymin,xmax,ymax
            fileStr0 = img_path.split('.')[-2]
            fileStr0 = fileStr0.split('/')[-1]
            if label_name == 'Person':
                fileStr = '%s/Person5/%s.%d.jpg' %(oPath,fileStr0,i0+1)
                im = img0[ymin:ymax,xmin:xmax]
                r = cv2.imwrite(fileStr,im)
                print 'Person0',fileStr

            if label_name == 'Car1' or label_name == 'Motorbike1':
                fileStr = '%s/Car/%s.%d.jpg' %(oPath,fileStr0,i0+1)
                im = img0[ymin:ymax,xmin:xmax]
                r = cv2.imwrite(fileStr,im)
                print 'Car0',fileStr


        #plt.show()
        #cv2.imshow('im', im)
        #cv2.waitKey(0)

if __name__ == "__main__":

    img_path = 'test02.jpg'

    mPath = '/media/kingstar/kingstardata/safety_eyes/baidu5'
    oPath = '/media/kingstar/kingstardata/safety_eyes/out'
    trainFileList = listdir(mPath)
    m =len(trainFileList)
    print m

    for i in range(m):
        fileNameStr = trainFileList[i]
        fileStr = fileNameStr.split('.')[-2]
        print i,fileNameStr,fileStr
        fileNameStr = '%s/%s' % (mPath,fileNameStr)
        print 'step:%d/%d' % (i,m)
        ssd(fileNameStr)

这样就可以建立自己的训练集：
train和test （带不带帽子的标注需要人工去做... 这个还是很苦逼）

训练集

03. 搭建模型

考虑到标准的图片只有128*128，特征不是很多，就动手搭建一个不算深的深度学习模型，采用卷积神经网络处理图形特征，搞过cnn的同学会觉得so easy。

model = Sequential()
model.add(Convolution2D(32, 3, 3, input_shape=( img_width, img_height, 3)))
model.add(Activation('relu'))
model.add(MaxPooling2D(pool_size=(2, 2)))

model.add(Convolution2D(64, 3, 3))
model.add(Activation('relu'))
model.add(MaxPooling2D(pool_size=(2, 2)))

model.add(Convolution2D(64, 3, 3))
model.add(Activation('relu'))
model.add(MaxPooling2D(pool_size=(2, 2)))

model.add(Flatten())
model.add(Dense(64))
model.add(Activation('relu'))
model.add(Dropout(0.5))
model.add(Dense(1))
model.add(Activation('sigmoid'))

model.compile(loss='binary_crossentropy',
              optimizer='rmsprop',
              metrics=['accuracy'])

这是个只有三层的卷积神经网络，我们就拿这个模型进行训练和学习吧。

04. 训练神经网络

深度学习的训练是极其需要强大的算力的，多亏我们的模型较小，另外我们还DIY了一台深度学习服务器，有了强大的GPU做运算。
经过了一晚上的训练，终于出了结果，数据上还不错，识别率竟然到了95%以上。

具体代码如下：

# -*-coding: utf-8-*-

from keras.preprocessing.image import ImageDataGenerator
from keras.models import Sequential
from keras.layers import Convolution2D, MaxPooling2D
from keras.layers import Activation, Dropout, Flatten, Dense


# dimensions of our images.
img_width, img_height = 128, 128

train_data_dir = '/media/kingstar/kingstardata/data/train'
validation_data_dir = '/media/kingstar/kingstardata/data/test'
nb_train_samples = 4000
nb_validation_samples = 800
nb_epoch = 60


model = Sequential()
model.add(Convolution2D(32, 3, 3, input_shape=( img_width, img_height, 3)))
model.add(Activation('relu'))
model.add(MaxPooling2D(pool_size=(2, 2)))

model.add(Convolution2D(64, 3, 3))
model.add(Activation('relu'))
model.add(MaxPooling2D(pool_size=(2, 2)))

model.add(Convolution2D(64, 3, 3))
model.add(Activation('relu'))
model.add(MaxPooling2D(pool_size=(2, 2)))

model.add(Flatten())
model.add(Dense(64))
model.add(Activation('relu'))
model.add(Dropout(0.5))
model.add(Dense(1))
model.add(Activation('sigmoid'))

model.compile(loss='binary_crossentropy',
              optimizer='rmsprop',
              metrics=['accuracy'])


train_datagen = ImageDataGenerator(
        rescale=1./255,
        shear_range=0.2,
        zoom_range=0.2,
        horizontal_flip=True)

test_datagen = ImageDataGenerator(rescale=1./255)

train_generator = train_datagen.flow_from_directory(
        train_data_dir,
        target_size=(img_width, img_height),
        batch_size=32,
        class_mode='binary')

validation_generator = test_datagen.flow_from_directory(
        validation_data_dir,
        target_size=(img_width, img_height),
        batch_size=32,
        class_mode='binary')

model.fit_generator(
        train_generator,
        samples_per_epoch=nb_train_samples,
        nb_epoch=nb_epoch,
        validation_data=validation_generator,
        nb_val_samples=nb_validation_samples)

model.save('trianHat12801.h5')

现场

05. 结论

通过简单的cnn模型和一个小规模的数据集的训练，基本上达到了目标。
不过在实际测试用的识别率还是比较低，感觉还是无法直接用于生产环境。
没关系，下一步我们会采用成熟的模型vgg或resnet，在这个模型后端做修改，进行调优和训练，另外提高训练集的数量和进一步做数据清洗，已达到可以直接在生产环境上使用的目标。

最后编辑于：2018.08.06 00:48:26

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 159,835评论 4赞 364
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 67,598评论 1赞 295
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 109,569评论 0赞 244
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 44,159评论 0赞 213
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 52,533评论 3赞 287
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 40,710评论 1赞 222
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 31,923评论 2赞 313
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 30,674评论 0赞 203
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 34,421评论 1赞 246
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 30,622评论 2赞 245
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 32,115评论 1赞 260
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 28,428评论 2赞 254
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 33,114评论 3赞 238
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 26,097评论 0赞 8
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 26,875评论 0赞 197
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 35,753评论 2赞 276
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 35,649评论 2赞 271