Tess4.0中英文正体斜体混合训练

Tesseract中英文正体斜体混合训练

当我们识别数据中包含中文正体，英文斜体字符时，Tess4.0识别英文斜体的效果并不理想。因此，我们需要训练新的模型，以满足识别正体斜体混合文本图片的需求。

预言

在看本篇文章之前，推荐阅读本人之前写的一篇题库特殊字符语言包训练流程（新），这篇文章里提到了Tess4正常的训练的流程，可以快速理解Tess的训练过程。

Tess4正斜体混合训练分析

针对中文正体，英文斜体混合文本识别，一个简单的训练思路是，将中英文混合文本放在一起分别转化成正体和斜体两种形式的图片，然后输入Tess4一起训练。然而，
针对英文文本的训练，Tess4可以有效地应用相应的斜体字体将txt转化成斜体字符图片，从而进一步训练斜体字符；但对于中文，因为没有找到中文斜体的相应字体，所以针对中文斜体识别便一筹莫展。
所以，针对中英文(中文正体，英文斜体)混合文本，Tess4只能将中文正体和英文斜体分开转换图片，然后手工进行合并，最后导入Tess4中的神经网络进行训练。

中英文混合输入数据准备

中文正体输入数据准备

中文正体输入数据的改变比较简单：

将需要识别的数据拷贝到./langdata/chi_sim/chi_sim.training_text文件中；
输入以下命令：
training/tesstrain.sh --fonts_dir /usr/share/fonts --lang chi_sim --linedata_only
--noextract_font_properties --langdata_dir ../langdata
--fontlist "SIMSUN" --tessdata_dir ./tessdata --output_dir ~/tesstutorial/trainmerge

查看日志可以看到整个过程中执行了/usr/local/bin/text2image命令，此命令将txt文本数据转化成相应的chi_sim.SIMSUN.exp0.tif图片及其相应的chi_sim.SIMSUN.exp0.box文件，因此可以在/tmp/tmp.xxxxxxxxxx/chi_sim/文件夹下查看这两个文件。在后期合并数据时有用到这两个文件。

英文斜体输入数据准备

将需要识别的数据拷贝到./langdata/eng/eng.training_text文件中；
输入以下命令：
training/tesstrain.sh --fonts_dir /usr/share/fonts --lang eng --linedata_only
--noextract_font_properties --langdata_dir ../langdata
--fontlist "Arial Italic" --tessdata_dir ./tessdata --output_dir ~/tesstutorial/traineng

这里，针对英文斜体，这里主要用了Arial Italic字体进行图片转换，同样/tmp/tmp.xxxxxxxxxx/chi_sim/文件夹下可以看到eng.Arial_Italic.exp0.tif图片及相应的eng.Arial_Italic.exp0.box文件。

合并中英文数据

合并tif图片

下载安装jTessBoxEditor工具，具体的工具使用方法可以查看日志：android中tesseract-ocr自定义字库的介绍。这里不再赘述。

将chi_sim.SIMSUN.exp0.tif和eng.Arial_Italic.exp0.tif拷贝到同一目录下，先将两张图片分别split，并删除chi_sim.SIMSUN.exp0.tif和eng.Arial_Italic.exp0.tif图片，然后将split出来的图片一起merge，具体方法查看android中tesseract-ocr自定义字库的介绍日志。注意：将合并后的tif图片命名为：chi_sim.SIMSUN.exp0.tif即可。

合并box文件

box文件的合并，本人写了一段python代码：

box_file1 = open('E:/jTessBoxEditorFX/tesseract-ocr/temp_roman/chi_sim.SIMSUN.exp0.box', 'rb').read().decode('utf-8')
box_file2 = open('E:/jTessBoxEditorFX/tesseract-ocr/temp_roman/eng.Times_New_Roman.exp0.box', 'rb').read().decode('utf-8')

box_content = box_file1 + '\n'
box1_page_num = 0
for line in box_file1.split('\n'):
    if len(line) > 0:
        page_num = int(line.split(' ')[len(line.split(' '))-1])
    if page_num > box1_page_num:
        box1_page_num = page_num

box1_page_num += 1
for line in box_file2.split('\n'):
    if len(line) > 0:
        page_num1 = int(line.split(' ')[len(line.split(' '))-1])
        sub_line = ''
        for i in range(len(line.split(' '))-1):
            sub_line += line.split(' ')[i] + ' '
        box_content += sub_line + str(page_num1+box1_page_num) + '\n'

open('E:/jTessBoxEditorFX/tesseract-ocr/temp_roman/merge.box', 'bw').write(box_content.encode('utf-8'))

注：在运行代码之前，需要在chi_sim.SIMSUN.exp0.box文件末尾加入换行提示行，内容如下：
[tab] 1710 222 1755 187 2
注意部分坐标值需要根据现实情况作出相应修改，这个应该不难，稍微总结一下box文件中的规律即可明白。

神经网络输入数据准备

合并完tif和box文件后，将它们覆盖到/tmp/tmp.xxxxxxxxxx/chi_sim/文件夹下面，(中文正体输入数据准备生成的目录)，并将其他文件清空；
修改tesseract/training/tesstrain.sh文件内容:
- 将61行phase_I_generate_image 8内容注释；
- 将source "$(dirname $0)/tesstrain_utils.sh" 改为source "$(dirname $0)/tesstrain_utils1.sh";
修改tesseract/training/tesstrain_utils.sh文件内容，修改以下内容：
- WORKSPACE_DIR=$(mktemp -d) 改成WORKSPACE_DIR="/tmp/tmp.xxxxxxxxxx"(目录为中文正体输入数据准备生成的目录)
- export FONT_CONFIG_CACHE=$(mktemp -d --tmpdir font_tmp.XXXXXXXXXX)改成 export FONT_CONFIG_CACHE="/tmp/font_tmp.xxxxxxxxxx"(目录为中文正体输入数据准备生成的目录)
- 注释initialize_fontconfig方法下的run_command text2image命令
运行命令：
training/tesstrain.sh --fonts_dir /usr/share/fonts --lang chi_sim --linedata_only
--noextract_font_properties --langdata_dir ../langdata
--fontlist "SIMSUN" --tessdata_dir ./tessdata --output_dir ~/tesstutorial/trainchisim

训练数据

这里给出scratch训练方法：
training/lstmtraining --debug_interval 100
--traineddata ~/tesstutorial/trainmerge/chi_sim/chi_sim.traineddata
--net_spec '[1,0,0,1 Ct5,5,16 Mp3,3 Lfys64 Lfx128 Lrx128 Lfx512 O1c379]'
--model_output ~/tesstutorial/mergeoutput/base
--learning_rate 20e-4 --train_listfile ~/tesstutorial/trainmerge/chi_sim.training_files.txt
--eval_listfile ~/tesstutorial/evalmerge/chi_sim.training_files.txt
--max_iterations 3600 &>~/tesstutorial/mergeoutput/basetrain.log

更多训练教程可以查看：题库特殊字符语言包训练流程（新）

最后，合并模型，具体命令可以查看：题库特殊字符语言包训练流程（新）

最后编辑于：2017.12.10 18:24:58

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 157,298评论 4赞 360
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 66,701评论 1赞 290
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 107,078评论 0赞 237
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 43,687评论 0赞 202
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 52,018评论 3赞 286
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 40,410评论 1赞 211
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 31,729评论 2赞 310
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 30,412评论 0赞 194
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 34,124评论 1赞 239
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 30,379评论 2赞 242
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 31,903评论 1赞 257
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 28,268评论 2赞 251
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 32,894评论 3赞 233
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 26,014评论 0赞 8
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 26,770评论 0赞 192
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 35,435评论 2赞 269
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 35,312评论 2赞 260