`
djun100
  • 浏览: 181164 次
  • 性别: Icon_minigender_1
  • 来自: 大连
文章分类
社区版块
存档分类
最新评论

android中tesseract-ocr的介绍

 
阅读更多

最近在做身份证号码识别,在网上搜索的一番后发现目前开源的OCR中tesseract-ocr算是比较强大的了,它由HP于1985年到1995年间开发,后来由google直接负责,经过谷歌进一步开发后,目前的tesseract-ocr有了显著的改进。

tesseract-ocr和Leptonica图像库一起工作,它可以读取多种图像格式,并将其转换成超过60种语言的文本。可以工作在Linux,Windows,Mac OSX等系统上,并且可以在android和iphone平台上编译。

目前android版本在这个地址:https://code.google.com/p/tesseract-android-tools/, 这个版本需要自己下载很多关联的库文件,我在编译的时候出了很多问题,后来没办法又在网上找到了这个项目:https://github.com/rmtheis/tess-two,说是tesseract-ocr-tool的一个分支,这个版本的好处是很多相关的库都已经为我们配置好了,我们只要git clone下来编译下就行了,github上相关介绍说的很详细,编译的过程这里就不做介绍了,我在编译的时候出现了permission权限的问题,文件的权限用chmod 777 ./ 这个命令修改下就Ok了。最后编译好的在libs下的so文件就是我们开发所需要的库文件。

android中tesseract-ocr的使用在tess-two这个项目中有例子程序,不过写的都比较简单,这里有个开源的识别项目,做的很好:https://github.com/rmtheis/android-ocr, 我借鉴的就是这个项目来开发的,但是用过后发现,对于身份证识别的效果并不好,识别率不是很高,而且经常识别不出来。OCR用到的识别库:https://code.google.com/p/tesseract-ocr/downloads/list,其实我们可以根据自己的需求来训练一套自己的识别库的,比方说我们要识别验证码,识别身份证号码等,我们就可以用下面的方法来训练一套识别库。

网上关于OCR训练的方法很多,http://my.oschina.net/lixinspace/blog/60124http://blog.wudilabs.org/entry/f25efc5f/这两篇文章都是比较好的教程,我也是参照这两篇文章来训练的,下面结合我的操作经验来说下训练的过程。

首先我们需要下面几个工具:

tesseract-ocr-3.01, 最新版的3.02我在我机器上用了有点问题

jTessBoxEditor, 该工具是用java写的box编辑器

1、先新建一个trainocr文件夹,将上面两个文件拷贝进来,然后解压这两个文件,我们进入Tesseract-ocr文件夹下新建一个temp文件夹

2、接下来我们准备好我们需要训练的素材如下图

要想提高识别率,我们需要提供多张像上面这样的图片,我训练身份证号码识别库是用了50多张图片,等训练完了我眼睛也花了,图片格式需要为tiff格式的,可以通过windows自带的画图工具来另存为tiff格式,准备好多张图tiff图片后,打开jTessBoxEditor.jar,如下图

在此之前我们需要在第1步建立的temp文件夹下新建一个custom.tif的文件,接下来我们选择tool–>Merge TIFF 然后选择准备好的多张tiff图片,注意这里是全部选中,然后点击打开,然后选中我们刚刚建立的custom.tif文件,点击保存,这样我们就将多张tiff图片merge到了一个文件里面了。

3、接下来我们开始生成box文件了,cmd命令行进入temp文件夹下,然后输入如下命令

D:\Trainocr\Tesseract-ocr\temp>..\tesseract.exe custom.tif custom batch.nochop makebox

输入完后会在temp文件夹下多了个custom.box文件,该文件记录了识别出来的每个字和它对应的位置坐标。

4、接下来就开始矫正了,同样使用jTessBoxEditor工具,我们切换到Box Editor,然后open打开custom.tif,如图

通过右上角的X,Y,W,H对每个需要改正的字符进行调整,注意调整好后别忘记保存。

5、接下来是计算字符集,输入如下命令

D:\Trainocr\Tesseract-ocr\temp>..\unicharset_extractor.exe custom.box

6、接下来我们需要在temp文件夹下建一个font_properties文件,3.01版本的OCR需要这个文件,该文件的目的是提供输出时识别出来的字体样式信息,文件的格式为

<fontname> <italic> <bold> <fixed> <serif> <fraktur>

timesitalic 1 0 0 1 0

我们可以根据实际情况新建font_properties,我写的是

custom 0 0 0 0 0

意思是普通字体,没有任何格式。

然后执行以下命令

D:\Trainocr\Tesseract-ocr\temp>..\mftraining.exe -F font_properties -U unicharset custom.tr

7、Clustering,输入命令

D:\Trainocr\Tesseract-ocr\temp>..\cntraining.exe custom.tr

8、此时在temp文件夹下已经有很多文件了,需要把inttemp,Microfeat,normproto,pffmtable,unicharset这几个文件加上前缀custom. (注意有个点号),然后输入以下命令

D:\Trainocr\Tesseract-ocr\temp>..\combine_tessdata.exe custom.

出来的结果中我们需要确定type 1,type3, type4, type5对应的后面数据不能为-1,这样我们就可以用这个新字典来识别了,将生成的custom.traineddata文件拷贝到tessdata文件夹下,然后

tesseract test.jpg result | custom

就可以通过新的字典来识别,测试结果表明,识别率确实提高了。现实应用中我们需要使用多张图片来通过上面的步骤来生成我们需要的识别库,这样识别率才能提高。

转自:http://www.longdw.com/android-tesseract-ocr/

分享到:
评论

相关推荐

    tesseract-ocr-3.02.chi_sim.zip

    "tesseract-ocr-3.02.chi_sim.zip"是一个特定版本的Tesseract OCR,支持简体中文识别,特别适用于需要在Android应用中进行中文文字提取的场景。 1. **OCR技术基础** - OCR是一种计算机技术,通过分析图像中的字符...

    tesseract-ocr-setup-3.05.01_leq.rar

    在【标题】"tesseract-ocr-setup-3.05.01_leq.rar"中,"tesseract-ocr-setup"表明这是Tesseract OCR的安装程序,版本号为3.05.01,"leq"可能代表某种特定的构建或语言包。 **OCR技术** OCR技术是一种计算机视觉...

    Tesseract-OCR4.0版本+vs2015编译

    3. **bin**:这里包含的是可执行文件,例如tesseract.exe,它是Tesseract OCR的命令行工具,可以直接用于识别图像或PDF中的文本。 4. **include**:这个目录包含了Tesseract的头文件,开发者在编写与Tesseract交互...

    Android 基于Tesseract-OCR实现自动扫描识别手机号.zip

    在Android平台上,利用Tesseract-OCR(Optical Character Recognition,光学字符识别)技术来自动扫描并识别手机号是一项常见的任务,特别是在开发智能应用如名片管理、验证码识别等场景中。本项目"Android 基于...

    android Tesseract-OCR 样本训练

    在Android项目中集成Tesseract-OCR,首先你需要下载Tesseract-OCR 的Android库,这通常是一个AAR或者JAR文件,包含必要的库和资源。在本文中,我们将关注如何进行样本训练,以提高识别准确率。 样本训练是Tesseract...

    tesseract-ocr.rar android-ocr

    当前语言包的存放路径为/mnt/sdcard/tesseract/tessdata/。引擎为第三版本,可识别第三版本的语言包,支持中文识别。语言包需自行下载,中文包(chi_sim.traineddata.gz),英文包(eng.traineddata.gz)

    react-native-tesseract-ocr:用于React Native的Tesseract OCR包装器

    React本色 :eyes: react-native-tesseract-ocr是的react-native包装器 该项目使用: for Android 于iOS的 iOS :warning_selector: (尚未实现) :warning_selector: 注意:建议使用本机&gt; = 0.60.0入门$ npm i react-...

    tesseract-ocr

    在Android平台上,开发者可以利用Tesseract OCR库来实现图片中的文字识别功能。通过集成Tesseract,Android应用能够读取图像文件或捕获的屏幕快照,从中提取出文本内容。这在例如文档扫描、翻译应用、验证码识别或者...

    android-tesseract-ocr-master.rar_android tess_android tesseract_

    Android Tesseract OCR是一个基于Android平台的开源光学字符识别(OCR)工具,用于将图像中的文本转换为可编辑的机器文本。这个项目源自Google的Tesseract OCR引擎,它本身是一个非常强大的OCR软件,最初由HP开发,...

    react-native-tesseract-ocr:Tesseract-OCR的React型包装纸

    在`react-native-tesseract-ocr-master`这个压缩包中,可能包含了以下内容: 1. `package.json`:定义了库的依赖和版本信息。 2. `README.md`:提供了库的安装指南、使用示例和贡献说明。 3. `src`目录:包含了库的...

    基于OpenCV+tesseract-ocr实现身份证识别.zip

    以下是关于OpenCV的详细介绍: 历史与发展 起源:OpenCV于1999年由英特尔公司发起,旨在促进计算机视觉技术的普及和商业化应用。该项目旨在创建一个易于使用、高效且跨平台的库,为开发者提供实现计算机视觉算法所...

    文字识别用到了Tesseract-ocr,另外一个用到了图片处理函数bitmap包括灰度化

    Tesseract OCR(Optical Character Recognition)是一款由Google维护的开源文字识别引擎,它能够将图像中的字符转换为可编辑和可搜索的文本。Tesseract以其强大的识别能力、丰富的语言支持以及高度可定制性而受到...

    Tesseract-OCR

    Tesseract-OCR,语言识别,训练字库

    基于Tesseract-OCR实现自动扫描识别手机号

    支持androidx。旧版在1.0分支。 训练数据放在res/raw目录下,需要识别其他语言可另行下载替换。本项目使用的为英文识别训练包。 数字识别时,框小一点会好识别。(可以手动调节大小的扫描框) 数字识别对于手写体...

    Tesseract-OCR-Scanner-master.7z

    本资源是一个基于Android平台的光学字符识别(OCR)应用的源代码,名为"Tesseract-OCR-Scanner-master",它使用了开源的Tesseract OCR引擎来实现对图像中的文字进行识别。这个项目是开发者Tobey_r1在CSDN上分享的一...

    ocr识别训练工具

    1.安装tesseract-ocr-setup-4.0.0-alpha.20180109.exe 一直next ,出现Android选项点击“+”展开勾选语言包 math chinal english 然后下一步,直到结束。 2. ...

    Android-tesseract-ocr-:Android-tesseract(ocr) 实现项目和语言包

    Android-tesseract-ocr- #Android-tesseract(ocr) 实现项目和语言包。 #tess 是android-project #tessdata 是语言包。 #更多信息

    基于Tesseract-OCR实现自动扫描识别手机号.zip

    项目文件"**Tesseract-OCR-Scanner-master**"很可能包含了以下组件: 1. **源代码**:实现OCR处理和手机号码识别的核心算法。 2. **训练数据**:用于训练OCR模型的样本图像和对应的手机号码标注。 3. **配置文件**:...

    OCR-Tesseract5.0编译后完整版本

    **OCR-Tesseract 5.0 编译后完整版本** OCR(Optical Character Recognition,光学字符识别)是一种技术,能够将扫描的文档、图片或PDF中的文本自动转换为可编辑和搜索的形式。Tesseract是一个开源OCR引擎,由...

    delphi 源码Tesseract3.0 ocr

    4. `TesseractOCR.pas`:很可能是 Tesseract OCR 在 Delphi 中的封装类或组件,包含与 OCR 相关的函数和方法。 5. `OCR_Testmain.pas`:这个文件可能是主程序或测试程序的源代码,包含了调用 Tesseract OCR 功能的...

Global site tag (gtag.js) - Google Analytics