tesseract是谷歌的一个对图片进行识别的开源框架,免费使用,现在已经支持中文,而且识别率非常高,这里简要来个helloworld级别的认识
下载地址:http://code.google.com/p/tesseract-ocr/downloads/detail?name=tesseract-ocr-setup-3.01-1.exe&can=2&q=
下载之后进行安装,不再演示。
在tesseract目录下,有个tesseract.exe文件,主要调用这个执行文件,用cmd运行到这个目录下,在这个目录下同时放置一张需要识别的图片,这里是123.jpg
然后运行:tesseract 123.jpg result
会把123.jpg自动识别并转换为txt文件到result.txt
但是此时中文识别不好,要下载一个中文包:http://code.google.com/p/tesseract-ocr/downloads/detail?name=chi_sim.traineddata.gz&can=2&q=
然后找到tessdata目录,把eng.traineddata替换为chi_sim.traineddata,并且把chi_sim.traineddata重命名为eng.traineddata
ok,现在中文识别基本达到90%以上了
测试下:
源文件(图片):此开卷第一回也。作者自云曾历过一番梦幻之后,故将真事隐去,
而借“通灵”说此《石头记》一书也,故曰“甄士隐”云云。但书中所记何事何人?
Tesseract release notes August 27 2007 - V2.01
Fixed UTF8 input problems with box file reader.
4-834578457384578-871238917238912739823749834789
输入:tesseract 123.jpg result
测试结果为:
此开卷第一回也. 作者酝曾历过一番梦幻之后, 故将真事隐去,
而借 “通灵" 说此 «石头记» 一书也, 故日 “甄士隐" 云云,但书中所记何事何人7
Tesseract re1ease notes August Z7 Z007 7 \「Z.O1
Fixed [二TFS input prob1ems \vit11 box fi1e reader.
4783457845738457S7871Z38917Z38912739S23749834789
识别率还是蛮高的,,,更详细的需要自己去钻研了。
相关推荐
压缩包里有两个工程文件,一个是基于模板匹配的字符识别(标准模板库已经做好放进去了,不需要自己在做,直接运行就可以了),另一个是使用谷歌开源TESSERACT库的字符识别,可以实现手写字母(大小写均可)识别,...
在Java环境中,通过集成Tesseract库,开发者可以构建应用程序来实现图像中的中文字符识别。 **集成Tesseract到Eclipse项目** 在Eclipse平台上,将Tesseract集成到Java项目中需要以下步骤: 1. **下载和安装...
Tesseract OCR(光学字符识别)是一款强大的开源OCR引擎,最初由HP开发,后来由Google维护。它主要用于从图像中提取文本,转换为可编辑和搜索的形式。在这个特定的场景中,我们关注的是一个特别定制的Tesseract库,...
tesseract-ocr 字符识别总结 Tesseract-OCR 是一个开源的光学字符识别(OCR)引擎,由Google 开发和维护。它支持多种语言,包括中文、英文、法语、德语、意大利语等。Tesseract-OCR 可以在 Linux 和 Windows 平台上...
这些数据文件包含了Tesseract识别中文字符所需的模型和字典信息。 压缩包内的四个文件如下: 1. **tesseract-ocr-setup-3.01-1.exe**:这是一款安装程序,用于在Windows系统上安装Tesseract OCR的3.01版本。用户...
**Tesseract 金额数字识别库**是一个专门针对中文金额数字识别的轻量级工具,它的设计目的是为了在处理大量文本数据时,特别是涉及到金融、会计等领域时,提供高效的数字识别能力。相较于完整的英文和中文识别包,这...
**Tesseract OCR字符识别模块详解** Tesseract OCR(Optical Character Recognition,光学字符识别)是一种开源的、强大的字符识别引擎,由HP公司在1985年开发,后由Google维护和改进。它能够从图像中识别出文本,...
**Tesseract OCR 知识点详解** ...总之,这个项目为C#开发者提供了一种便捷的方式来集成和使用Tesseract OCR,通过封装后的接口可以轻松实现对图像中的文字识别,无论是中文还是英文,极大地提升了开发效率和应用效果。
**Tesseract工具:OCR光学字符识别的利器** 光学字符识别(OCR,Optical Character Recognition)是一种技术,可以将扫描的图像或照片中的印刷体或手写文字转换为可编辑、可搜索的文本。在众多OCR工具中,Tesseract...
它让Tesseract能够识别并理解简体中文字符,适用于中国大陆和新加坡等地区广泛使用的简体字。 3. **chi_sim_vert.traineddata**:此文件用于识别简体中文的垂直排版文本。在古代和某些特定的现代出版物中,中文常以...
Tesseract OCR是由Google维护的一个开源OCR引擎,它能够识别多种语言的文本,包括身份证上的数字和汉字。在C#编程环境下,我们可以利用Tesseract OCR库来实现身份证号的自动识别。下面我们将详细探讨如何在C#中实现...
Tesseract是一个开源的OCR(光学字符识别)引擎,最初由HP公司开发,后来被Google接手并维护。这个强大的工具主要用于自动识别图像中的文本,包括数字、字母、符号等,并将其转换为可编辑的文本格式。在金融、会计等...
本文将详细探讨如何结合Tesseract 3.02、MFC(Microsoft Foundation Classes)和OpenCV来实现对中文、英文和数字字符的识别。 Tesseract OCR是一个开源的OCR引擎,最初由HP开发,后来被Google维护。Tesseract 3.02...
本篇文章将重点探讨如何使用Tesseract识别中文,并结合`jai_imageio-1.1-alpha.jar`和`swingx-1.0.jar`这两个Java库来增强其功能。 首先,让我们了解Tesseract的基本工作原理。Tesseract采用了一种基于深度学习的...
2. **字符集**: Tesseract支持多种字符集,包括拉丁文、希腊文、西里尔文、汉字、阿拉伯文等多种语言的字符。每个`.traineddata`文件会包含特定语言的字符集及其变体。 3. **语言模型**: 这部分模型帮助Tesseract...
Tesseract OCR(Optical Character Recognition,光学字符识别)是一个开源的字符识别库,它能够将图像中的文字转换成可编辑的文本格式。Tesseract-OCR 4.1.0-rc1是该库的一个更新版本,它引入了深度学习技术以提高...
这是一个训练数据文件,其中包含了Tesseract识别简体中文所需的语言模型和字符集。`chi_sim`是简体中文的标识符,`traineddata`表示这是训练好的数据,而`.gz`是gzip压缩格式。在使用前,我们需要先将其解压缩。 ...
在本资源中,我们主要探讨的是OCR(Optical Character Recognition,光学字符识别)技术的应用,具体涉及了两个不同的实现方式:谷歌的Tesseract库和百度的OCR服务。这两种方法都是为了将图像中的文本转换为可编辑和...
基于OpenCV/Tesseract的光学字符识别测试项目