`
KPTu
  • 浏览: 23161 次
  • 性别: Icon_minigender_1
  • 来自: 苏州
文章分类
社区版块
存档分类
最新评论

开源的OCR库

阅读更多

开源的OCR库

 

 

OCRE, OCR Easy,    http://lem.eui.upm.es/ocre.html

Clara OCR,              http://directory.fsf.org/claraocr.html

Ocrad, based on a feature extraction, http://directory.fsf.org/ocrad.html

GOCR,                     http://sourceforge.net/projects/jocr

OCRchie: Modular Optical Character Recognition Software, http://http.cs.berkeley.edu/~fateman/kathey/ocrchie.html

http://code.google.com/p/tesseract-ocr/

gocr和ocrad稍作修改可在Windows下编译运行。gocr用vc6, ocrad用gcc。

 

OCRE,OCRchie和clara OCR需要X window或gtk不太好编译。

 

tesseract 用VC ,10年前的东西,太老, 里面很多代码是STL的原型

 

 

 

 

  Tesseract是一个开源OCR程序

 

  之前就有看见有人在说,tesseract是10好几年前的东西,太老了。但是就在9个小时前,Tesseract OCR的开发人员用事实告诉世人,Tesseract OCR不但活着,还在不断地自我完善中。

 

  2010年9月30日,Tesseract 正式发布了它的3.0版本(http://code.google.com/p/tesseract-ocr/)。

 

  这次更新主要做了以下工作:

  1. 为线程安全做了一些筹备工作:更改TessBaseAPI方法被非静态;为目录创建类的层次结构,以容纳实例数据,并开始移植代码到类当中;移动阈值代码到一个单独的类。

  2. 增加了新的页面布局分析模块。

  3. 新增HOCR输出。

  4.添加Leptonica作为主要的图像输入输出及处理模块。现在,是否使用Leptonica是可选的,但是在未来的版本中,Leptonica是必须使用的模块。  http://www.leptonica.org/index.html

  5. 重写歧义表(模糊表?),允许在fix_quotes中定义替换方式。

  6. 新增TessdataManager,它可以将多个Tesseract特征数据文件合并成一个单一的文件。

  7. 删除一些无用的代码。

  8. 因为VC++ 6不能很好地应付模板的使用,它不再被Tesseract支持。

  9. 对大部分的函数头注释进行了修改。

 

  还有一点没有写在官方的release notes里面,但是我个人觉得是非常非常好的改进:支持识别更多的语言,其中就包括简体中文和繁体中文。

 

 

利用开源程序(ImageMagick+tesseract-ocr)实现图像验证码识别

分享到:
评论

相关推荐

    QT+OpenCV+OCR库识别图像中汉字Demo

    虽然具体使用的是哪个OCR库没有明确指出,但常见的开源OCR库有Tesseract和EasyOCR,它们都能有效地识别汉字。这些库通常包含训练好的模型,能够处理多种字体和书写风格的文字。 在提供的文件列表中,可以看到几个...

    C++ OCR图片识别文字

    总结来说,C++ OCR图片识别文字是一个涉及图像处理和机器学习的复杂任务,包括霍夫变换、图像校正和使用开源OCR库等关键技术。通过这些技术的综合运用,可以有效地从名片或者其他含有文本的图像中提取并识别文字。在...

    证件识别_ocr_代码_Android_Java_Demo

    2. OCR引擎选择:有很多开源的OCR引擎可供选择,如Tesseract OCR,它是一个强大的开源OCR库,支持多种语言。开发者需要根据项目需求集成相应的引擎,并配置识别参数。 3. 接口设计:在Android应用中,开发者需要...

    识别度较高的ocr文字识别软件源码

    在Java中实现OCR功能,通常会借助一些开源库,例如Tesseract OCR,它是一个由Google维护的开源OCR引擎,具有强大的文字识别能力。这款OCR软件源码可能就是基于Tesseract或其他类似库进行了封装和优化,以提高识别...

    OCR识别开源库tesseract-3.00

    在众多的OCR软件中,Tesseract是一个非常著名且广泛使用的开源库。本文将详细介绍Tesseract-3.00版本的相关知识点,包括其功能、特性、安装与使用以及在ARM平台和Linux环境下的应用。 **Tesseract OCR介绍** ...

    Emgu_CV_OCR.zip_C# Emgu_OCR_emgu cv_emgucv中文论坛_tessnet3

    3. **Tessnet3**:Tessnet3是Tesseract OCR引擎的.NET版本,是一个强大的开源OCR库,由谷歌维护。Emgu CV可以与Tessnet3结合使用,提供更强大的OCR功能,如多国语言支持、自定义训练等。 4. **C#编程**:这个示例...

    OCR.rar_C 图片中文字_OCR_OCR T图像处理_OCR-Java_图像处理 ocr

    Java中的开源OCR库如Tesseract OCR,可以方便地集成到Java项目中,进行文本识别。 6. 图像处理 OCR: 图像处理是OCR的基础,包括滤波、直方图均衡化、边缘检测等,用于改善图像质量,使OCR算法能更准确地识别字符。...

    android-ocr-master.zip

    "android-ocr-master"项目很可能使用了Tesseract OCR引擎,这是Google维护的一个开源OCR库。Tesseract具有高准确度和广泛的语言支持,对于开发者来说是实现Android OCR的一个理想选择。 3. **Android Studio集成**...

    ocr 智能识别程序,智能识别

    开发人员可能使用开源OCR库如Tesseract、EasyOCR或者自定义的解决方案来构建这个案例。这些库通常提供API,方便开发者集成到自己的应用程序中。 总的来说,OCR智能识别是一个复杂但强大的工具,它的准确性和效率...

    Python OCR 使用easyocr库将图片中的文章提取出来

    EasyOCR是一个基于深度学习的开源OCR库,由Python编写,支持超过70种语言的文本检测和识别。它依赖于强大的预训练模型,如CRNN和LSTM,这些模型经过大量训练,能够识别各种字体和排版的文本。 安装easyocr非常简单...

    ocr 训练工具源码

    Tesseract OCR是一个强大的开源OCR库,最初由HP公司开发,后来被Google接手并持续更新。它支持多种语言,并且可以通过训练来提高对特定字体和风格的文字识别能力。Tesseract的核心在于其分词算法,能够将图像中的...

    java 验证码识别 ocr

    在实际项目中,可能会使用开源OCR库,如Tesseract OCR,但Tesseract主要针对英文,对于中文验证码可能需要额外的训练和调整。 此外,工具的选择也是关键。开发者可能需要使用图像编辑软件来创建和标注验证码样本,...

    OCR 文字 和字母识别matlab程序

    - 除了内置函数,还可能使用到开源OCR库,如Tesseract OCR的MATLAB接口,用于增强OCR功能。 3. **图像预处理** - 图像预处理是提高OCR准确性的关键步骤,可能包括图像去噪(使用滤波器如中值滤波或高斯滤波)、二...

    AndroidOCR源码.zip

    这个"AndroidOCR源码"项目很可能是基于开源OCR库,如Tesseract或者自定义的解决方案。开发者可以研究源码来了解如何将这些技术实际应用到Android平台上,包括如何优化性能、减少内存消耗以及提高识别率等。同时,这...

    ocr识别MATLAB - 副本.zip

    5. **文字识别**:可以使用训练好的模型(如SVM、神经网络)进行文字识别,或者利用开源OCR库如Tesseract与MATLAB集成。 6. **代码优化**:描述中提到识别率不高,可能需要优化代码,如改进特征提取算法、增加训练...

    Tess4J-3.4.8-src.rar OCR图片识别

    Tess4J,作为一个基于Java的开源OCR库,提供了对Tesseract OCR引擎的访问接口,是开发者们进行OCR应用开发的得力助手。本篇文章将深入探讨OCR技术以及Tess4J的具体应用和实现。 一、OCR技术简介 OCR技术的核心是...

    Android-ocr源码

    Android 平台上的 OCR 实现主要依赖于开源库,如 Tesseract OCR 和 Google Mobile Vision API 等。在你提供的"Android-ocr源码"中,我们可能会看到如何在 Android Studio 项目中集成这些库,以及如何处理图像预处理...

    验证码识别开源OCR

    Tesseract是一个由谷歌维护的开源OCR引擎,最初由HP开发。它具有强大的字符识别能力,支持多种语言,并且可以通过训练来适应特定的验证码样式。在.NET环境中,tessnet2_32.dll允许开发者轻松地集成OCR功能到他们的...

    Java识别图片文字相关jar包 jai_imageio-1.1.1+swingx-1.6.1+ocr-1.11

    这个jar包很可能是某种特定的OCR引擎实现,比如Tesseract OCR或者其他开源OCR库的Java封装。OCR引擎的主要任务是识别图像中的文本,将图像转换成可编辑的文本。OCR技术通常包括字符分割、特征提取、分类和校正等...

Global site tag (gtag.js) - Google Analytics