`
ljl_xyf
  • 浏览: 636014 次
  • 性别: Icon_minigender_1
  • 来自: 北京
社区版块
存档分类
最新评论

C#关于OCR识别

    博客分类:
  • c#
阅读更多

      这阵子在搞OCR识别,又在百度上Google了两天,发现OCR识别这个东东已经比较成熟了,在别人邀请我一起参加比赛的时候,我开始怀疑技术还不是 很成熟,不查不知道,一查还发现,我们国内在这领域的技术还是相当的领先的,国家早在很久以前就投了很多钱在这上面,而且孵化出了TH-OCR这个公司。 没想到微软居然早在2003年就公布了一个很好的组件---Microsoft
Office Document Imaging;这样就方便的做OCR识别了。


首先用office安装盘安装这个组件,默认安装office的时候是不会安装的,只要添加这个组件功能就好了。
然后新建的项目里添加组件Microsoft Office
Document Imaging 12.0 Type Library(office07)或者Microsoft Office Document
Imaging 11.0 Type Library(office03)
核心代码如下:
MODI.Document doc = new
MODI.Document();
doc.Create("picPath");
MODI.Image image;
MODI.Layout layout;
string ret = null;
//doc.OCR(MODI.MiLANGUAGES.miLANG_ENGLISH, true, true);识别英文
doc.OCR(MODI.MiLANGUAGES.miLANG_CHINESE_SIMPLIFIED, true,
true);//识别中文
for (int i = 0; i < doc.Images.Count; i++)
{
image = (MODI.Image)doc.Images[i];
layout = image.Layout;
ret += layout.Text;
}
return ret;
其中主要几点,第一,关于语言的选择如果文档图片为中英文混合,则最好选中文,如果是纯英文那么就选英文
第二,电脑因素,不知道为什么,我开始在win7物理机上跑,总是出现OCR
running error,但是我把他放在虚拟机里跑就OK了,而放到别人的电脑上也没问题,可能是RP问题吧,我无语了两天。。。。

在用微软的技术的时候,关键是创意,微软这个平台给我们提供了很多很强大的技术,我们可以在这个平台上充分发挥想象力,做一些有意思的东西。还有就是要积
极关注技术领域,哪些技术是新的,哪些是成熟的,有哪些开源项目等等,都对我们以后做一个什么东西有帮助的。




无论什么样的识别程序,大致都是这么5个步骤。
(1)图像提取
(2)图像预处理、清洗
(3)分块切割
(4)分类识别
(5) 得出结果
分享到:
评论

相关推荐

    C# TesseractOCR识别身份证号

    至此,我们就完成了C#环境下使用Tesseract OCR识别身份证号的过程。值得注意的是,实际应用中可能需要对图像进行预处理(如去噪、二值化等),以提高识别率。同时,由于身份证图像的复杂性,识别结果可能会有误,...

    C# OCR识别 图片文字识别

    【C# OCR识别 图片文字识别】是一种技术,它允许开发者使用C#编程语言来从图像中提取并识别文本。这种技术在许多场景下都非常有用,例如文档数字化、自动填写表单、屏幕阅读器等。在C#中实现OCR识别,通常会依赖于第...

    C# winform OCR文字识别

    4. **执行OCR识别**: 使用Tesseract提供的API进行文字识别。调用`engine.Recognize(image)`方法进行识别,其中`engine`是Tesseract的实例,`image`是待识别的图像。 5. **处理识别结果**: 识别的结果会以`...

    C# OCR识别,准确率高达99%

    本项目以"C# OCR识别,准确率高达99%"为主题,展示了如何在C#环境中实现高效且精确的OCR识别。 C#作为.NET框架的主要开发语言,提供了丰富的库和工具来支持OCR功能的开发。常见的OCR库有Tesseract OCR,这是一个...

    C# OCR识别数字.rar

    【C# OCR识别数字】项目是一个使用C#编程语言实现的光学字符识别(OCR)应用程序,专门用于识别0到9的数字以及小数点。这个程序适用于自动化处理含有数字的图像,例如从扫描文档或屏幕截图中提取数字,提高工作效率...

    Halcon联合C#的OCR字符识别系统

    《Halcon联合C#的OCR字符识别系统详解》 在当今信息化时代,光学字符识别(OCR)技术在各个领域中发挥着重要的作用,特别是在文档处理、自动化检测和图像处理方面。本文将深入探讨一个基于Halcon与C#的OCR字符识别...

    C# 中文文字识别OCR

    在这个场景中,我们关注的是C#语言下的中文文字识别OCR。C#作为一个强大且灵活的编程语言,提供了多种库和框架来实现OCR功能,特别适合于构建Windows桌面应用程序或服务。 首先,我们要理解OCR的基本工作原理。OCR...

    C#OCR图像识别技术.rar

    **C# OCR图像识别技术详解** OCR(Optical Character Recognition,光学字符识别)是一种计算机技术,用于将图像中的打印或手写文本转换为机器可编辑的文本格式。在C#编程环境中,我们可以利用各种库和工具来实现...

    C# 离线式,OCR识别、提取图片中文字内容。附源码

    本教程聚焦于使用C#进行离线式的OCR处理,这意味着我们不需要依赖在线服务,而是通过本地库或API来实现文字识别。以下是对这个主题的详细探讨: 首先,C#是微软开发的一种面向对象的编程语言,广泛用于Windows应用...

    c#实现基于tesseract的ocr识别

    本教程将详细讲解如何使用C#语言结合Tesseract OCR库来实现这一功能,特别是在二值化图片处理方面,以提高识别效果。 Tesseract OCR是一个开源的OCR引擎,最初由HP开发,后来被Google维护。它具有强大的文字识别...

    C#调用OneNote进行OCR识别 源码

    C# 调用OneNote进行批量文字识别,源码 功能:把input中的图片批量识别,输出到output。 所用环境:VS2010 C# office套件中的OneNote2013 说明:bin/Debug/temPath中有个noenote文件,可以打开看。 运行的时候...

    C#实现OCR手写数字识别

    2. 图像处理库:为了处理图像并进行OCR识别,通常会使用第三方库,如AForge.NET或OpenCV。这些库提供了丰富的函数来读取、操作和分析图像,例如灰度化、二值化、滤波、边缘检测等预处理步骤。 3. 数字模板匹配:...

    OCR服务.rar C# 通用OCR识别

    OCR服务 C# 通用OCR识别 可以一键开启服务; 自带模型,可离线部署; 自带C++相关动态库; 软件介绍 https://blog.csdn.net/lw112190/article/details/129127930

    c# 验证码识别 OCR图片识别 准确率非常高

    在本项目中,我们关注的是使用C#编程语言实现的OCR(Optical Character Recognition,光学字符识别)技术来识别验证码。C#是一种广泛应用于Windows平台的面向对象的编程语言,它拥有丰富的类库和强大的.NET ...

    c# ocr 识别图片中的文字(包含中文)

    这段代码展示了如何使用Tesseract.NET库在C#中进行基本的中文OCR识别。 通过以上介绍,我们了解到在C#环境中,利用OCR技术特别是Tesseract OCR来识别含中文的图片文字的基本步骤和注意事项,以及如何进行批量处理...

    c#操作摄像头拍照并OCR识别文字

    总结一下,C#操作摄像头拍照并OCR识别文字涉及以下关键技术点: 1. 使用Media Foundation或AForge.NET访问和控制摄像头。 2. 使用`CameraCaptureUI`类进行用户交互,捕获图像。 3. 对图像进行处理,如调整分辨率、...

    C#百度OCR-身份证图片识别源码-付费版.rar

    【标题】"C#百度OCR-身份证图片识别源码-付费版.rar" 涉及的知识点主要集中在C#编程语言、百度OCR API以及身份证图像处理技术上。这个压缩包文件可能包含了一个C#项目,该项目实现了利用百度的OCR(Optical ...

    C# PaddleInference.OCRService 通用OCR识别 文字识别 中文识别 服务

    C# PaddleInference.OCRService 通用OCR识别 文字识别 中文识别 服务 基于以下开源项目,做了再次封装: https://github.com/sdcb/PaddleSharp 可直接运行,自带模型,可离线部署; 技术路线:VS2022+Sdcb....

    C#-Tesseract-OCR识别.rar

    C#与Tesseract OCR识别技术详解 Tesseract OCR(Optical Character Recognition,光学字符识别)是一种开源的文本识别引擎,最初由HP开发,后来由Google维护。它具有强大的文字识别能力,可以将图像中的文本转换...

    C# OCR条形码识别

    而在C#编程环境中,我们可以利用各种库和框架来实现OCR功能,尤其是对条形码的识别。条形码是一种通用的商品标识符,它通过不同宽度的黑色和白色条纹来表示数字或字母,方便快速扫描和读取。本篇文章将深入探讨如何...

Global site tag (gtag.js) - Google Analytics