https://github.com/tesseract-ocr/tesseract
下载路径:https://github.com/tesseract-ocr/tesseract/wiki
exe:http://digi.bib.uni-mannheim.de/tesseract/tesseract-ocr-setup-3.05.00dev.exe
tesseract训练
1.下载jTessBoxEditor(jre使用的是jre7),用TIFF/BoxGenerator添加常用的宋体中文,Output:zhong chi_sim.exp0.tif ->Generate,生成
zhong.chi_sim.exp0.tif和zhong.chi_sim.exp0.box2个文件
如果要合并tif文件,用jTessBoxEditor合并成单个tif,然后用命令转成box文件
tesseract.exe decs.exp0.tif decs.exp0 batch.nochop makebox
2.创建文件font_properties,内容:chi_sim 0 0 0 0 0
3.创建bat文件start.bat,内容:
rem 执行改批处理前先要目录下创建font_properties文件
echo Run Tesseract for Training..
D:\app\Tesseract-OCR\tesseract.exe zhong.chi_sim.exp0.tif zhong.chi_sim.exp0 nobatch box.train
echo Compute the Character Set..
D:\app\Tesseract-OCR\unicharset_extractor.exe zhong.chi_sim.exp0.box
D:\app\Tesseract-OCR\mftraining.exe -F font_properties -U unicharset -O zhong.unicharset zhong.chi_sim.exp0.tr
echo Clustering..
D:\app\Tesseract-OCR\cntraining.exe zhong.chi_sim.exp0.tr
echo Rename Files..
rename normproto zhong.normproto
rename inttemp zhong.inttemp
rename pffmtable zhong.pffmtable
rename shapetable zhong.shapetable
echo Create Tessdata..
D:\app\Tesseract-OCR\combine_tessdata.exe zhong.
pause
4.运行start.bat,等待命令行结果:1,3,4,5,13不为-1就是成功了!
TessdataManager combined tesseract data files.
Offset for type 0 is -1
Offset for type 1 is 140
Offset for type 2 is -1
Offset for type 3 is 509098
Offset for type 4 is 42657207
Offset for type 5 is 42726936
Offset for type 6 is -1
Offset for type 7 is -1
Offset for type 8 is -1
Offset for type 9 is -1
Offset for type 10 is -1
Offset for type 11 is -1
Offset for type 12 is -1
Offset for type 13 is 43579530
Offset for type 14 is -1
Offset for type 15 is -1
Offset for type 16 is -1
5.生成zhong.traineddata,copy到tesseract的tessdata文件夹下
6.运行命令tesseract.exe E:\temp\image\y.jpg E:\temp\image\y -l zhong,可以在y.txt中查看识别的结果
相关推荐
8. 持续改进:Tesseract训练并非一次性任务,随着新的样本和需求出现,可能需要对模型进行更新和微调。持续收集新的样本并定期进行训练,可以保持模型的识别性能处于最优状态。 总结,通过上述的训练过程,我们可以...
一个自制的tesseract训练脚本,可以批量生成box文件,批量修改box文件,批量训练tesseract.适合批量训练tesseract
这个压缩包提供的“Tesseract OCR 训练集”包含了不同语言和功能的数据文件,分别是 chi_sim.traineddata(简体中文训练数据)、eng.traineddata(英文训练数据)以及 osd.traineddata(页面布局分析数据)。...
《使用Tesseract训练MNIST数据集的实战指南》 在当今的数字时代,光学字符识别(OCR)技术已经成为处理图像中文字的关键工具。Tesseract,一个由Google维护的开源OCR引擎,因其强大的识别能力和可扩展性而备受青睐...
Tesseract中文训练库是专为Tesseract OCR(Optical Character Recognition,光学字符识别)引擎定制的一个数据集,用于提高Tesseract在识别中文字符时的准确性和效率。Tesseract是一款开源的OCR软件,由HP开发并在...
首先,我们需要了解Tesseract训练的基本概念。训练过程涉及几个关键步骤,包括创建字典、制作样本图像、训练数据集、生成配置文件以及编译和打包最终的OCR引擎。这个过程是为了让Tesseract学会识别特定字体或语言的...
这就是Tesseract训练工具的用武之地。 在给定的资源中,我们提到的"训练工具"主要是指`jTessBoxEditor`,这是一个用于Tesseract OCR字体库训练的图形界面工具。它使得用户能够更加直观和便捷地创建和编辑用于训练的...
Tesseract-OCR字库训练,其中包含三个部分: 1、jTessBoxEditor安装 2、字库训练 3、合并字库
**Tesseract OCR中文训练库详解** Tesseract OCR(Optical Character Recognition)是由Google维护的一款开源OCR引擎,它能够识别图像中的文本并将其转换为可编辑的格式。在处理中文文本时,Tesseract需要特定的...
### OCR文字识别与Tesseract训练工具安装指南 #### 一、引言 光学字符识别(Optical Character Recognition,简称OCR)技术是一种将图像中的文本自动转换成可编辑文本的技术,在数字化文档处理领域有着广泛的应用。...
本资源包括工具(zip)和训练好的模型以及一个java文件 工具:jTessBoxEditor工具用于调整图片上文字的内容和位置 训练好的模型在tessdata下面。注:在java代码下使用训练好的模型,训练后的模型必须放 到tessdata...
**Tesseract OCR训练库制作工具:jTessBoxEditor-1.7.3** Tesseract OCR(Optical Character Recognition)是一款强大的开源OCR引擎,由谷歌维护,能够识别图像中的文字并将其转换为可编辑文本。它支持多种语言,...
本工具用于训练新字体,自带官方提供的训练样本,可直接训练新字体,效果佳,效率高,参考文档:https://blog.csdn.net/baoolong/article/details/122231259
训练过程涉及制作训练数据集,创建训练文件,然后使用Tesseract的训练工具进行训练。这个教程可能会涵盖这些步骤,包括如何创建Ground Truth文件、使用Tesseract的`tesstrain.sh`脚本等。 在C#中,训练后的数据可以...
**Tesseract多样本合并训练测试**是针对OCR(光学字符识别)引擎Tesseract的一个关键步骤,特别是当你需要处理多种字体或样式时。Tesseract是一个开源的OCR软件,由Google维护,能够识别图像中的文本并将其转换为可...
4. 导入/导出:可以导入已有的Box文件进行编辑,或者将编辑好的Box文件导出,供Tesseract训练使用。 三、Tesseract训练流程 1. 准备样本图像:收集大量包含目标语言或特定字体的图像作为训练样本。 2. 创建Box...
公司项目要用到Tesseract 生成训练集的时候特别难受就写了个这个东西
chi_sim_vert.traineddata tesseract中文简体库 tesseract中文简体库
训练Tesseract的语言包涉及多个步骤,包括收集大量含有目标语言的图像样本、进行字符分割、创建字典和语言模型,以及进行大量的迭代训练以优化识别算法。这个经过多次训练的chi_sim语言包表明了开发者为提高中文识别...