`
itace
  • 浏览: 181460 次
  • 性别: Icon_minigender_1
  • 来自: 北京
文章分类
社区版块
存档分类
最新评论

tesseract训练

 
阅读更多

 https://github.com/tesseract-ocr/tesseract

下载路径:https://github.com/tesseract-ocr/tesseract/wiki

exe:http://digi.bib.uni-mannheim.de/tesseract/tesseract-ocr-setup-3.05.00dev.exe

tesseract训练

1.下载jTessBoxEditor(jre使用的是jre7),用TIFF/BoxGenerator添加常用的宋体中文,Output:zhong chi_sim.exp0.tif ->Generate,生成

zhong.chi_sim.exp0.tif和zhong.chi_sim.exp0.box2个文件

如果要合并tif文件,用jTessBoxEditor合并成单个tif,然后用命令转成box文件

tesseract.exe decs.exp0.tif decs.exp0 batch.nochop makebox  

2.创建文件font_properties,内容:chi_sim 0 0 0 0 0

3.创建bat文件start.bat,内容:

rem 执行改批处理前先要目录下创建font_properties文件  

  

echo Run Tesseract for Training..  

D:\app\Tesseract-OCR\tesseract.exe zhong.chi_sim.exp0.tif zhong.chi_sim.exp0 nobatch box.train  

  

echo Compute the Character Set..  

D:\app\Tesseract-OCR\unicharset_extractor.exe zhong.chi_sim.exp0.box  

D:\app\Tesseract-OCR\mftraining.exe -F font_properties -U unicharset -O zhong.unicharset zhong.chi_sim.exp0.tr  

  

echo Clustering..  

D:\app\Tesseract-OCR\cntraining.exe zhong.chi_sim.exp0.tr  

 

echo Rename Files..  

rename normproto zhong.normproto  

rename inttemp zhong.inttemp  

rename pffmtable zhong.pffmtable  

rename shapetable zhong.shapetable   

  

echo Create Tessdata..  

D:\app\Tesseract-OCR\combine_tessdata.exe zhong.

pause

 

4.运行start.bat,等待命令行结果:1,3,4,5,13不为-1就是成功了!

TessdataManager combined tesseract data files.

Offset for type 0 is -1

Offset for type 1 is 140

Offset for type 2 is -1

Offset for type 3 is 509098

Offset for type 4 is 42657207

Offset for type 5 is 42726936

Offset for type 6 is -1

Offset for type 7 is -1

Offset for type 8 is -1

Offset for type 9 is -1

Offset for type 10 is -1

Offset for type 11 is -1

Offset for type 12 is -1

Offset for type 13 is 43579530

Offset for type 14 is -1

Offset for type 15 is -1

Offset for type 16 is -1



 

 

 

5.生成zhong.traineddata,copy到tesseract的tessdata文件夹下



 

6.运行命令tesseract.exe E:\temp\image\y.jpg E:\temp\image\y -l zhong,可以在y.txt中查看识别的结果

 

  • 大小: 279.7 KB
  • 大小: 244.3 KB
  • 大小: 24.8 KB
  • 大小: 86.5 KB
分享到:
评论

相关推荐

    tesseract训练图片

    8. 持续改进:Tesseract训练并非一次性任务,随着新的样本和需求出现,可能需要对模型进行更新和微调。持续收集新的样本并定期进行训练,可以保持模型的识别性能处于最优状态。 总结,通过上述的训练过程,我们可以...

    tesseract训练脚本linux版

    一个自制的tesseract训练脚本,可以批量生成box文件,批量修改box文件,批量训练tesseract.适合批量训练tesseract

    TesseractOCR 训练集

    这个压缩包提供的“Tesseract OCR 训练集”包含了不同语言和功能的数据文件,分别是 chi_sim.traineddata(简体中文训练数据)、eng.traineddata(英文训练数据)以及 osd.traineddata(页面布局分析数据)。...

    tesseract训练mnist-by juzicode.com-vx桔子code

    《使用Tesseract训练MNIST数据集的实战指南》 在当今的数字时代,光学字符识别(OCR)技术已经成为处理图像中文字的关键工具。Tesseract,一个由Google维护的开源OCR引擎,因其强大的识别能力和可扩展性而备受青睐...

    Tesseract中文训练库

    Tesseract中文训练库是专为Tesseract OCR(Optical Character Recognition,光学字符识别)引擎定制的一个数据集,用于提高Tesseract在识别中文字符时的准确性和效率。Tesseract是一款开源的OCR软件,由HP开发并在...

    训练tesseractV5.0整合包.rar

    首先,我们需要了解Tesseract训练的基本概念。训练过程涉及几个关键步骤,包括创建字典、制作样本图像、训练数据集、生成配置文件以及编译和打包最终的OCR引擎。这个过程是为了让Tesseract学会识别特定字体或语言的...

    Tesseract-OCR 训练工具

    这就是Tesseract训练工具的用武之地。 在给定的资源中,我们提到的"训练工具"主要是指`jTessBoxEditor`,这是一个用于Tesseract OCR字体库训练的图形界面工具。它使得用户能够更加直观和便捷地创建和编辑用于训练的...

    tesseract ocr字库训练 (包含字库合并)

    Tesseract-OCR字库训练,其中包含三个部分: 1、jTessBoxEditor安装 2、字库训练 3、合并字库

    Tesseract-OCR中文训练库

    **Tesseract OCR中文训练库详解** Tesseract OCR(Optical Character Recognition)是由Google维护的一款开源OCR引擎,它能够识别图像中的文本并将其转换为可编辑的格式。在处理中文文本时,Tesseract需要特定的...

    最近在做ocr文字识别,记录下安装tesseract训练工具过程(csdn)————程序.pdf

    ### OCR文字识别与Tesseract训练工具安装指南 #### 一、引言 光学字符识别(Optical Character Recognition,简称OCR)技术是一种将图像中的文本自动转换成可编辑文本的技术,在数字化文档处理领域有着广泛的应用。...

    Java使用Tesseract4.0训练字库并且识别训练后的图片

    本资源包括工具(zip)和训练好的模型以及一个java文件 工具:jTessBoxEditor工具用于调整图片上文字的内容和位置 训练好的模型在tessdata下面。注:在java代码下使用训练好的模型,训练后的模型必须放 到tessdata...

    tesseract-ocr训练库制作工具 jTessBoxEditor-1.7.3.zip

    **Tesseract OCR训练库制作工具:jTessBoxEditor-1.7.3** Tesseract OCR(Optical Character Recognition)是一款强大的开源OCR引擎,由谷歌维护,能够识别图像中的文字并将其转换为可编辑文本。它支持多种语言,...

    tesseract训练工具.rar

    本工具用于训练新字体,自带官方提供的训练样本,可直接训练新字体,效果佳,效率高,参考文档:https://blog.csdn.net/baoolong/article/details/122231259

    C#Tesseract.3.0.2.0 完整实例以及训练教程

    训练过程涉及制作训练数据集,创建训练文件,然后使用Tesseract的训练工具进行训练。这个教程可能会涵盖这些步骤,包括如何创建Ground Truth文件、使用Tesseract的`tesstrain.sh`脚本等。 在C#中,训练后的数据可以...

    Tesseract多样本合并训练测试

    **Tesseract多样本合并训练测试**是针对OCR(光学字符识别)引擎Tesseract的一个关键步骤,特别是当你需要处理多种字体或样式时。Tesseract是一个开源的OCR软件,由Google维护,能够识别图像中的文本并将其转换为可...

    tesseract样本训练工具-jTessBoxEditor2.2.zip

    4. 导入/导出:可以导入已有的Box文件进行编辑,或者将编辑好的Box文件导出,供Tesseract训练使用。 三、Tesseract训练流程 1. 准备样本图像:收集大量包含目标语言或特定字体的图像作为训练样本。 2. 创建Box...

    Tesseract 生成训练集

    公司项目要用到Tesseract 生成训练集的时候特别难受就写了个这个东西

    Tesseract中文语言包chi_sim(经过多次训练)

    训练Tesseract的语言包涉及多个步骤,包括收集大量含有目标语言的图像样本、进行字符分割、创建字典和语言模型,以及进行大量的迭代训练以优化识别算法。这个经过多次训练的chi_sim语言包表明了开发者为提高中文识别...

    Tesseract 数字识别库

    训练过程是OCR技术的关键环节,通过大量的样本图片进行训练,让Tesseract学习并理解数字的特征,从而提高识别准确率。作者在个人博客中分享了训练所用的图片以及识别结果,这为开发者提供了直观的学习和参考资源。 ...

Global site tag (gtag.js) - Google Analytics