验证码去除干扰线

在邦购登陆时,选择了人工检验验证码,这次用机器检测试试。
先说基本逻辑:载入图像,转灰度,二值化,连通域检测,去除连通域小的,根据各连通域的范围切割图像。

先下载图片。

def getcaptcha():
    for i in range(1,10):
        with open('test1-{}.png'.format(i),'wb') as f:
            url ='https://passport.banggo.com/CASServer//custom/loginCode.do'
            res = requests.get(url,stream =True)
            f.write(res.content)

得到的验证码长这样:


可以看到验证码有干扰线,好在干扰线比较细,而且验证码之间没有粘连。看看别家怎么弄得,在python验证码识别
写到了一些验证码识别的方法,但是几乎都是针对像素级别,不过提供了一个思路叫连通域,就是一个笔画里含有的像素较多,删除那些小的联通域就能去除干扰线了。

我看到的大多是自己写的像素级别的函数,既然这是降噪领域的主要思想,就会有现成的轮子啊,直到我发现了scikit-image,有自己的文档,这篇文章进行了少量总结api总结,搬运如下

api

其中有专门针对连通域的api,
from skimage import measure
labels = measure.label(二值图像,connectivity=None)
通过label_att = measure.regionprops(labels)得到各连通域的属性如下。label_att是一个list,有几个连通域就有几项。


属性

更好的是skimage还提供了剔除较小连通域的函数,
from skimage import morphology
img1 = morphology.remove_small_objects(ar, min_size=要删除的连通域大小阈值, connectivity=1,in_place=False)
怎么知道连通域的大小呢,就是label属性里的area,第二个bbox用来切割图像简直不要太方便。
二者联合起来就是现成的去掉干扰线+切割图像的方法。

from skimage import io,filters,measure,morphology
import warnings
from matplotlib import pyplot as plt
def skim():
    img = io.imread('1.png',as_gray=True)  #变成灰度图
    thresh = filters.threshold_otsu(img) #自动确定二值化的阈值
    bwimg =(img<=thresh) #留下小于阈值的部分,及黑的部分
    b = morphology.remove_small_objects(bwimg, 40) #去掉小于40的连通域,可以先全局看看连通域的大小和位置后决定去掉的阈值
    labels = measure.label(b)  
    label_att = measure.regionprops(labels)
    arr =[]
    for la in label_att:
        (x,y,w,h) =la.bbox
        #print((x,y,w,h))
        bei = round((h-y)/15)
        if bei >1: #宽度超过30像素的,说明有粘连,从中切开
            for i in range(bei):
                arr.append((x, y+round((h-y)/2)*i, w, y+round((h-y)/2)*(i+1)))
        elif (y>10) and (h<100) :
            arr.append((x, y, w, h))

    b =b*img
    b[np.where(b != 0)] = 1
    with warnings.catch_warnings():
        warnings.simplefilter("ignore")
        fig = plt.figure()
        for id, (x, y, w, h) in enumerate(arr):
            roi = b[x:w,y:h]
            thr = roi.copy()
            # io.imsave('seg1-{}.jpg',thr)
            ax = fig.add_subplot(1,4,id+1)
            ax.imshow(thr)
    plt.show()

反思:
1.这个验证码相对规整,可以发现他家的验证码多是验证码本身是有色彩的,而干扰线一直是黑色的,可以直接将小于15的像素变成255,效果也不错,但是出现的问题是会把验证码本身连通域打断,需要再次填充。

def ty():
    # for i in range(1,10):
    img = io.imread('{}.png'.format(4))
    img[np.where(img>235)] =255
    img[np.where(img < 15)] = 255
    imgray = color.rgb2gray(img)
    thresh = filters.threshold_otsu(imgray)
    # bwimg =(imgray <= thresh)
    bwimg = morphology.closing(imgray <= thresh, morphology.square(3))
    b = morphology.remove_small_objects(bwimg, 20)
    labels = measure.label(b)
    label_att = measure.regionprops(labels)
    arr =[]

    for la in label_att:
        (x, y, w, h) = la.bbox
        bei = round((h - y) / 15)
        if bei > 1:
            for i in range(bei):
                arr.append((x, y + round((h - y) / 2) * i, w, y + round((h - y) / 2) * (i + 1)))
        elif (y > 10) and (h < 100) :
            arr.append((x, y, w, h))
            if (len(arr)>1) and (h-y)<12 and (arr[-2][3]-arr[-2][1] <12): #干扰线去狠了导致断开验证码断开了要拼接一下
                arr[-1] = ((x, arr[-2][1], w, h))
                del arr[-2]

    b = b * imgray
    b[np.where(b != 0)] = 1
    with warnings.catch_warnings():
        warnings.simplefilter("ignore")
        fig = plt.figure()
        for id, (x, y, w, h) in enumerate(arr):
            roi = b[x:w, y:h]
            thr = roi.copy()
            # io.imsave('new{}-{}.png'.format(1,id+1), thr)
            ax = fig.add_subplot(1, len(arr), id + 1)
            ax.imshow(thr)
        plt.show()

2.验证码相对规整,而且放置位置也相对固定,可以直接用经验值切割,但是有些比较胖就比较麻烦了。

3.在使用skimage时,确是遇到二值图直接转rgb会变成的黑图或者很灰的图,像这样。

b = b * imgray
b[np.where(b != 0)] = 1
就是把图调亮,因为float类型,[0,1]0是黑色,1是白色,这样存的图就是黑白的了。
另在float转rgb的时候会引发warnings说,向下保存会引起精度下降,用with就好了,官方文档推荐。

4.验证码需观察其特点对症下药比较快。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 158,425评论 4 361
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 67,058评论 1 291
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 108,186评论 0 243
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 43,848评论 0 204
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 52,249评论 3 286
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 40,554评论 1 216
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 31,830评论 2 312
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 30,536评论 0 197
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 34,239评论 1 241
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 30,505评论 2 244
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 32,004评论 1 258
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 28,346评论 2 253
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 32,999评论 3 235
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 26,060评论 0 8
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 26,821评论 0 194
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 35,574评论 2 271
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 35,480评论 2 267

推荐阅读更多精彩内容