对TesseractOCR的学习

字数 265阅读 20

背景:最近公司想开发文档扫描类的应用,于是找到TesseractOCR进行探究。

对TesseractOCR使用遇到的问题

1,配置的时候出现挺多的问题,其中有chi_sim.traineddata文件的配置,比较麻烦,需要找到对应版本的chi_sim.traineddata才能运行,不然提示找不到对应的chi_sim,无法识别中文(提示找不到对应的chi_sim,或者翻译出来的是乱码都是因为这个原因)。chi_sim表示中文简体,GitHub上还有繁体中文的,需要的可以去看下。

2,运行的过程中,效果并不理想,其中很多的文字,显示不出来。

时间稍长一点了,没有配置截图了。

总结:

TesseractOCR针对数字,转换效果还是不错的,但是英文和中文稍差一些。

最后时限功能是用的百度的OCR,效果不错。

链接:https://cloud.baidu.com/product/ocr

推荐阅读更多精彩内容