Tess4.0中英文正体斜体混合训练

Tesseract中英文正体斜体混合训练

当我们识别数据中包含中文正体,英文斜体字符时,Tess4.0识别英文斜体的效果并不理想。因此,我们需要训练新的模型,以满足识别正体斜体混合文本图片的需求。

预言

在看本篇文章之前,推荐阅读本人之前写的一篇题库特殊字符语言包训练流程(新),这篇文章里提到了Tess4正常的训练的流程,可以快速理解Tess的训练过程。

Tess4正斜体混合训练分析

针对中文正体,英文斜体混合文本识别,一个简单的训练思路是,将中英文混合文本放在一起分别转化成正体和斜体两种形式的图片,然后输入Tess4一起训练。然而,
针对英文文本的训练,Tess4可以有效地应用相应的斜体字体将txt转化成斜体字符图片,从而进一步训练斜体字符;但对于中文,因为没有找到中文斜体的相应字体,所以针对中文斜体识别便一筹莫展。
所以,针对中英文(中文正体,英文斜体)混合文本,Tess4只能将中文正体和英文斜体分开转换图片,然后手工进行合并,最后导入Tess4中的神经网络进行训练。

中英文混合输入数据准备

中文正体输入数据准备

中文正体输入数据的改变比较简单:

  1. 将需要识别的数据拷贝到./langdata/chi_sim/chi_sim.training_text文件中;
  2. 输入以下命令:
    training/tesstrain.sh --fonts_dir /usr/share/fonts --lang chi_sim --linedata_only
    --noextract_font_properties --langdata_dir ../langdata
    --fontlist "SIMSUN" --tessdata_dir ./tessdata --output_dir ~/tesstutorial/trainmerge

查看日志可以看到整个过程中执行了/usr/local/bin/text2image命令,此命令将txt文本数据转化成相应的chi_sim.SIMSUN.exp0.tif图片及其相应的chi_sim.SIMSUN.exp0.box文件,因此可以在/tmp/tmp.xxxxxxxxxx/chi_sim/文件夹下查看这两个文件。在后期合并数据时有用到这两个文件。

英文斜体输入数据准备

  1. 将需要识别的数据拷贝到./langdata/eng/eng.training_text文件中;
  2. 输入以下命令:
    training/tesstrain.sh --fonts_dir /usr/share/fonts --lang eng --linedata_only
    --noextract_font_properties --langdata_dir ../langdata
    --fontlist "Arial Italic" --tessdata_dir ./tessdata --output_dir ~/tesstutorial/traineng

这里,针对英文斜体,这里主要用了Arial Italic字体进行图片转换,同样/tmp/tmp.xxxxxxxxxx/chi_sim/文件夹下可以看到eng.Arial_Italic.exp0.tif图片及相应的eng.Arial_Italic.exp0.box文件。

合并中英文数据

合并tif图片

下载安装jTessBoxEditor工具,具体的工具使用方法可以查看日志:android中tesseract-ocr自定义字库的介绍。这里不再赘述。

将chi_sim.SIMSUN.exp0.tif和eng.Arial_Italic.exp0.tif拷贝到同一目录下,先将两张图片分别split,并删除chi_sim.SIMSUN.exp0.tif和eng.Arial_Italic.exp0.tif图片,然后将split出来的图片一起merge,具体方法查看android中tesseract-ocr自定义字库的介绍日志。注意:将合并后的tif图片命名为:chi_sim.SIMSUN.exp0.tif即可。

合并box文件

box文件的合并,本人写了一段python代码:

box_file1 = open('E:/jTessBoxEditorFX/tesseract-ocr/temp_roman/chi_sim.SIMSUN.exp0.box', 'rb').read().decode('utf-8')
box_file2 = open('E:/jTessBoxEditorFX/tesseract-ocr/temp_roman/eng.Times_New_Roman.exp0.box', 'rb').read().decode('utf-8')

box_content = box_file1 + '\n'
box1_page_num = 0
for line in box_file1.split('\n'):
    if len(line) > 0:
        page_num = int(line.split(' ')[len(line.split(' '))-1])
    if page_num > box1_page_num:
        box1_page_num = page_num

box1_page_num += 1
for line in box_file2.split('\n'):
    if len(line) > 0:
        page_num1 = int(line.split(' ')[len(line.split(' '))-1])
        sub_line = ''
        for i in range(len(line.split(' '))-1):
            sub_line += line.split(' ')[i] + ' '
        box_content += sub_line + str(page_num1+box1_page_num) + '\n'

open('E:/jTessBoxEditorFX/tesseract-ocr/temp_roman/merge.box', 'bw').write(box_content.encode('utf-8'))

注:在运行代码之前,需要在chi_sim.SIMSUN.exp0.box文件末尾加入换行提示行,内容如下:
[tab] 1710 222 1755 187 2
注意部分坐标值需要根据现实情况作出相应修改,这个应该不难,稍微总结一下box文件中的规律即可明白。

神经网络输入数据准备

  1. 合并完tif和box文件后,将它们覆盖到/tmp/tmp.xxxxxxxxxx/chi_sim/文件夹下面,(中文正体输入数据准备生成的目录),并将其他文件清空;
  2. 修改tesseract/training/tesstrain.sh文件内容:
    - 将61行phase_I_generate_image 8内容注释;
    - 将source "$(dirname $0)/tesstrain_utils.sh" 改为source "$(dirname $0)/tesstrain_utils1.sh";
  3. 修改tesseract/training/tesstrain_utils.sh文件内容,修改以下内容:
    - WORKSPACE_DIR=$(mktemp -d) 改成WORKSPACE_DIR="/tmp/tmp.xxxxxxxxxx"(目录为中文正体输入数据准备生成的目录)
    - export FONT_CONFIG_CACHE=$(mktemp -d --tmpdir font_tmp.XXXXXXXXXX)改成 export FONT_CONFIG_CACHE="/tmp/font_tmp.xxxxxxxxxx"(目录为中文正体输入数据准备生成的目录)
    - 注释initialize_fontconfig方法下的run_command text2image命令
  4. 运行命令:
    training/tesstrain.sh --fonts_dir /usr/share/fonts --lang chi_sim --linedata_only
    --noextract_font_properties --langdata_dir ../langdata
    --fontlist "SIMSUN" --tessdata_dir ./tessdata --output_dir ~/tesstutorial/trainchisim

训练数据

这里给出scratch训练方法:
training/lstmtraining --debug_interval 100
--traineddata ~/tesstutorial/trainmerge/chi_sim/chi_sim.traineddata
--net_spec '[1,0,0,1 Ct5,5,16 Mp3,3 Lfys64 Lfx128 Lrx128 Lfx512 O1c379]'
--model_output ~/tesstutorial/mergeoutput/base
--learning_rate 20e-4 --train_listfile ~/tesstutorial/trainmerge/chi_sim.training_files.txt
--eval_listfile ~/tesstutorial/evalmerge/chi_sim.training_files.txt
--max_iterations 3600 &>~/tesstutorial/mergeoutput/basetrain.log

更多训练教程可以查看:题库特殊字符语言包训练流程(新)

最后,合并模型,具体命令可以查看:题库特殊字符语言包训练流程(新)

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 157,298评论 4 360
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 66,701评论 1 290
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 107,078评论 0 237
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 43,687评论 0 202
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 52,018评论 3 286
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 40,410评论 1 211
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 31,729评论 2 310
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 30,412评论 0 194
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 34,124评论 1 239
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 30,379评论 2 242
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 31,903评论 1 257
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 28,268评论 2 251
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 32,894评论 3 233
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 26,014评论 0 8
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 26,770评论 0 192
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 35,435评论 2 269
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 35,312评论 2 260

推荐阅读更多精彩内容