`
haoran_10
  • 浏览: 444301 次
  • 性别: Icon_minigender_1
  • 来自: 上海
社区版块
存档分类
最新评论

tesseract 识别中文字符

    博客分类:
  • java
 
阅读更多

tesseract是谷歌的一个对图片进行识别的开源框架,免费使用,现在已经支持中文,而且识别率非常高,这里简要来个helloworld级别的认识

下载地址:http://code.google.com/p/tesseract-ocr/downloads/detail?name=tesseract-ocr-setup-3.01-1.exe&can=2&q=

下载之后进行安装,不再演示。

在tesseract目录下,有个tesseract.exe文件,主要调用这个执行文件,用cmd运行到这个目录下,在这个目录下同时放置一张需要识别的图片,这里是123.jpg

然后运行:tesseract 123.jpg result

会把123.jpg自动识别并转换为txt文件到result.txt

但是此时中文识别不好,要下载一个中文包:http://code.google.com/p/tesseract-ocr/downloads/detail?name=chi_sim.traineddata.gz&can=2&q=

然后找到tessdata目录,把eng.traineddata替换为chi_sim.traineddata,并且把chi_sim.traineddata重命名为eng.traineddata

ok,现在中文识别基本达到90%以上了

测试下:

源文件(图片):此开卷第一回也。作者自云曾历过一番梦幻之后,故将真事隐去,

而借“通灵”说此《石头记》一书也,故曰“甄士隐”云云。但书中所记何事何人?

Tesseract release notes August 27 2007 - V2.01

Fixed UTF8 input problems with box file reader.

4-834578457384578-871238917238912739823749834789

 

输入:tesseract 123.jpg result

 

测试结果为:

 

此开卷第一回也. 作者酝曾历过一番梦幻之后, 故将真事隐去, 

而借 “通灵" 说此 «石头记» 一书也, 故日 “甄士隐" 云云,但书中所记何事何人7

Tesseract re1ease notes August Z7 Z007 7 \「Z.O1

Fixed [二TFS input prob1ems \vit11 box fi1e reader.

4783457845738457S7871Z38917Z38912739S23749834789

 

识别率还是蛮高的,,,更详细的需要自己去钻研了。

 

 

0
0
分享到:
评论

相关推荐

    基于模板匹配和谷歌开源TESSERACT库的字符识别,包含数字,字母和汉字的识别

    压缩包里有两个工程文件,一个是基于模板匹配的字符识别(标准模板库已经做好放进去了,不需要自己在做,直接运行就可以了),另一个是使用谷歌开源TESSERACT库的字符识别,可以实现手写字母(大小写均可)识别,...

    Tesseract 图像智能字符识别技术,可识别中文

    在Java环境中,通过集成Tesseract库,开发者可以构建应用程序来实现图像中的中文字符识别。 **集成Tesseract到Eclipse项目** 在Eclipse平台上,将Tesseract集成到Java项目中需要以下步骤: 1. **下载和安装...

    Tesseract 数字识别库

    Tesseract OCR(光学字符识别)是一款强大的开源OCR引擎,最初由HP开发,后来由Google维护。它主要用于从图像中提取文本,转换为可编辑和搜索的形式。在这个特定的场景中,我们关注的是一个特别定制的Tesseract库,...

    tesseract-ocr 字符识别总结

    tesseract-ocr 字符识别总结 Tesseract-OCR 是一个开源的光学字符识别(OCR)引擎,由Google 开发和维护。它支持多种语言,包括中文、英文、法语、德语、意大利语等。Tesseract-OCR 可以在 Linux 和 Windows 平台上...

    tesseract识别中文的com.sun.media.imageio.plugins.tiff.TIFFImageWriteParam.rar

    这些数据文件包含了Tesseract识别中文字符所需的模型和字典信息。 压缩包内的四个文件如下: 1. **tesseract-ocr-setup-3.01-1.exe**:这是一款安装程序,用于在Windows系统上安装Tesseract OCR的3.01版本。用户...

    Tesseract 金额数字识别库

    **Tesseract 金额数字识别库**是一个专门针对中文金额数字识别的轻量级工具,它的设计目的是为了在处理大量文本数据时,特别是涉及到金融、会计等领域时,提供高效的数字识别能力。相较于完整的英文和中文识别包,这...

    Tesseract_OCR字符识别模块_

    **Tesseract OCR字符识别模块详解** Tesseract OCR(Optical Character Recognition,光学字符识别)是一种开源的、强大的字符识别引擎,由HP公司在1985年开发,后由Google维护和改进。它能够从图像中识别出文本,...

    tesseract OCR 字符识别,中英文都有库,C#封装,有例子

    **Tesseract OCR 知识点详解** ...总之,这个项目为C#开发者提供了一种便捷的方式来集成和使用Tesseract OCR,通过封装后的接口可以轻松实现对图像中的文字识别,无论是中文还是英文,极大地提升了开发效率和应用效果。

    tesseract工具,进行orc光学字符,识别文字及登陆验证码

    **Tesseract工具:OCR光学字符识别的利器** 光学字符识别(OCR,Optical Character Recognition)是一种技术,可以将扫描的图像或照片中的印刷体或手写文字转换为可编辑、可搜索的文本。在众多OCR工具中,Tesseract...

    最新tesseract中文包,包含繁体简体(2020-2-25)

    它让Tesseract能够识别并理解简体中文字符,适用于中国大陆和新加坡等地区广泛使用的简体字。 3. **chi_sim_vert.traineddata**:此文件用于识别简体中文的垂直排版文本。在古代和某些特定的现代出版物中,中文常以...

    C# TesseractOCR识别身份证号

    Tesseract OCR是由Google维护的一个开源OCR引擎,它能够识别多种语言的文本,包括身份证上的数字和汉字。在C#编程环境下,我们可以利用Tesseract OCR库来实现身份证号的自动识别。下面我们将详细探讨如何在C#中实现...

    Tesseract数字识别库

    Tesseract是一个开源的OCR(光学字符识别)引擎,最初由HP公司开发,后来被Google接手并维护。这个强大的工具主要用于自动识别图像中的文本,包括数字、字母、符号等,并将其转换为可编辑的文本格式。在金融、会计等...

    采用tesseract3.02+mfc+opencv提取中文、英文、数字字符

    本文将详细探讨如何结合Tesseract 3.02、MFC(Microsoft Foundation Classes)和OpenCV来实现对中文、英文和数字字符的识别。 Tesseract OCR是一个开源的OCR引擎,最初由HP开发,后来被Google维护。Tesseract 3.02...

    tesseract识别中文的jar-jai_imageio-1.1-alpha.jar和swingx-1.0.jar

    本篇文章将重点探讨如何使用Tesseract识别中文,并结合`jai_imageio-1.1-alpha.jar`和`swingx-1.0.jar`这两个Java库来增强其功能。 首先,让我们了解Tesseract的基本工作原理。Tesseract采用了一种基于深度学习的...

    tesseract 识别语言库文件

    2. **字符集**: Tesseract支持多种字符集,包括拉丁文、希腊文、西里尔文、汉字、阿拉伯文等多种语言的字符。每个`.traineddata`文件会包含特定语言的字符集及其变体。 3. **语言模型**: 这部分模型帮助Tesseract...

    Tesseract-OCR 字符识别库 已编译好

    Tesseract OCR(Optical Character Recognition,光学字符识别)是一个开源的字符识别库,它能够将图像中的文字转换成可编辑的文本格式。Tesseract-OCR 4.1.0-rc1是该库的一个更新版本,它引入了深度学习技术以提高...

    ubuntu下安装tesseract 简体 中文chi_sim.traineddata.gz下载

    这是一个训练数据文件,其中包含了Tesseract识别简体中文所需的语言模型和字符集。`chi_sim`是简体中文的标识符,`traineddata`表示这是训练好的数据,而`.gz`是gzip压缩格式。在使用前,我们需要先将其解压缩。 ...

    ocr谷歌识别(Tesseract库)+百度识别法双识别.rar

    在本资源中,我们主要探讨的是OCR(Optical Character Recognition,光学字符识别)技术的应用,具体涉及了两个不同的实现方式:谷歌的Tesseract库和百度的OCR服务。这两种方法都是为了将图像中的文本转换为可编辑和...

    基于OpenCV/Tesseract的光学字符识别测试项目

    基于OpenCV/Tesseract的光学字符识别测试项目

Global site tag (gtag.js) - Google Analytics