`
explorer
  • 浏览: 95651 次
  • 性别: Icon_minigender_1
  • 来自: 南京
社区版块
存档分类
最新评论

Office MODI进行OCR

阅读更多

转载,原文出处: http://www.comicer.com/stronghorse/water/software/officeocr.htm

 

 

 

  • 支持多页TIFF。某些OCR只支持单页TIFF,OCR以后还需要对结果进行合并。当然MODI支持的TIFF页数也不是无限 的,我个人的经验是不要超过300页。单页TIFF文件可以用免费的TiffToy合并成多页TIFF,然后再用MODI进行OCR。TiffToy合并 时可以选择每合并多少个文件生成一个新文件。
  • 中文标点、文本段落保持得比较好,后期校对省了很多事。
  • 支 持的语言比较多,Office支持的语言基本都支持。但是这一点对大多数用户来说无法体会,因为正常情况下,MODI只支持英文和当前Office语言 (如简体中文)的OCR,要想支持更多的语言,需要进行一些设置,这就是本文所要讨论的内容。当然我并非语言天才,对于亚洲主要语言(中、日、韩)还算有 所了解,其他语言一概无知,所以本文的讨论也仅限于这三国语言。
  • 提供开放的编程接口。对于软件开发人员来说,到微软网站下载一份MODI编程手册,即可开发出基于MODI的、具有多国语言OCR功能的软件。

 

  • MODI所使用的中、日、韩OCR引擎,均为清华文通的OCR引擎。
  • 由于简体中文平台的GBK字符集 完全覆盖繁体中文、日文,因此繁体中文、日文的OCR结果在简体中文Office环境下均为GBK编码,可以在支持GBK编码的中文平台下正常显示、编 辑。当然如果觉得繁体中文看起来比较麻烦,也可以用Word的繁简转换功能,或TextForever的编码转换功能,将GBK繁体转换成GB编码的简 体。但是对于韩文来说就没有这么美好了,因为目前GBK还不兼容韩文,所以韩文的OCR结果如果想在简体Office下编辑,大概只能存为HTML或 doc文件,然后用Word编辑。
  • MODI编程手册可以到这里下载:
    http://www.microsoft.com/downloads/details.aspx?FamilyId=8F93E445-B1CF-4477-A373-E17417D616BC&displaylang=en

 

  • 安装相关语言的OCR模块。MODI本身可以看作一个外壳,真正的OCR功能需要靠不同语言的模块实现。每个语言模块包括相关DLL文件和数据文件,需要复制到MODI的安装文件夹下。
  • 告诉MODI,目前有哪些语言的OCR模块可以使用。这个需要更改注册表,更改后在MODI的OCR选项里即可选择对应的语言。
分享到:
评论

相关推荐

    MODI OCR安装包

    MODI OCR作为一款独立的OCR软件,相比其他依赖Office的解决方案,其优势在于兼容性更强,占用系统资源较少,同时提供了多语言支持,包括21种非中文语言,满足了不同用户的需求。对于需要处理大量文字资料的个人和...

    MODI.2007.21种语言OCR识别补丁

    安装说明 将下面的12.0文件夹里面的文件全部复制...双击CHT-OCR.REG文件导入注册表后,在MODI的OCR选项卡里,“OCR语言”即可看到“中文(繁体)”。 注意导入注册表时必须先关闭所有MODI窗口,导入后再打开。 需要

    简体中文Office2003 MODI繁体中文OCR识别补丁

    安装说明 将下面的文件复制到安装了简体中文Office ...双击MODI-CHT-OCR.REG文件导入注册表后,在MODI的OCR选项卡里,“OCR语言”即可看到“中文(繁体)”。 注意导入注册表时必须先关闭所有MODI窗口,导入后再打开。

    OCR.rar_modi_modi ocr _ocr modi_office ocr _光学

    在这个“OCR.rar_modi_modi ocr _ocr modi_office ocr _光学”压缩包中,我们主要讨论MODI如何实现OCR以及其在办公环境中的应用。 MODI是微软Office组件的一部分,它提供了强大的文档扫描、编辑和OCR功能。用户可以...

    MODI繁体中文OCR识别补丁

    C:\Program Files\Common Files\Microsoft Shared\MODI\11.0 (32位系统 Office 2003) C:\Program Files (x86)\Common Files\microsoft shared\MODI\11.0 (64位系统 Office 2003) C:\Program Files\Common Files\...

    调用modi进行ocr的源码

    微软MODI(Microsoft Office Document Imaging)是微软早期提供的一款OCR引擎,它集成在Office套件中,用于处理和识别图像中的文字。 标题"调用modi进行ocr的源码"表明我们要讨论的是如何通过编程方式调用MODI库来...

    使用modi方案实现中文ocr识别

    在本文中,我们将深入探讨如何使用MODI(Microsoft Office Document Imaging)方案来实现中文OCR(Optical Character Recognition)识别。MODI是微软提供的一种用于处理和识别图像中文字的组件,它内置于早期版本的...

    微软 OCR 引擎 MODI 组件安装包及安装方法。及其DELPHI源代码

    微软的MODI(Microsoft Office Document Imaging)组件是其早期提供的一种OCR引擎,它集成在Office套件中,主要用于扫描文档的图像处理和文字识别。 **MODI组件详解** MODI(Microsoft Office Document Imaging)...

    MODI日语OCR补丁

    MODI(Microsoft Office Document Imaging)是微软Office套件中的一部分,主要用于图像文件的扫描、编辑和光学字符识别(OCR)。OCR技术允许将扫描的纸质文档或图像中的文本转换为可编辑和可搜索的数据。这个“MODI...

    MODI_OCR_CHN.rar

    用途:在未安装Office 2003/2007的机器上安装MODl的OCR接口,供第三方软件的OCR功能调用。内含简体中文、英文OCR模块, 只能用于简体中文Windows XP/Vista/Win7。其中注册表项用的是SharePoint Designer 2007的,...

    脱离office单独安装MODI工具

    然而,随着技术的发展,MODI在较新的Office版本中已被淘汰,被更先进的OCR技术所取代。 这篇内容将详细介绍如何在不安装完整版Office的情况下,单独安装和使用MODI工具,以及如何在第三方开发平台上调用它。 首先...

    win10不安装office也可用的光学扫描中文简繁体的MODI OCR安装包(内共有21语言插件都可扫描)

    MODI独立安装包,用于64位系统的OCR MODI组件 支持win7sp1/win8.1/win10系统 亚洲语言包括简繁中文、日文、朝鲜语。 欧洲语言包括东欧3国(捷、波、匈),及希腊、俄国、土耳其3国。西欧包括丹麦语、荷兰语、英语...

    Office 2007 MODI OCR 解决多次调用挂死问题

    Office 2007 MODI OCR 解决多次调用挂死问题,含参考VB代码。 VB调用MODI Office 2007版本,多次调用后,出现系统停止工作,报MSO.DLL错误。 2007 MODI 和VB存在兼容性问题,如果多次打开MODI,则会出现内存泄露导致...

    微软OCR控件 VB中调用 modi

    要使用MODI进行OCR操作,首先需要确保安装了Office 2003或更高版本。如果没有安装Office 2003,则可以手动安装MODI所需的相关文件。具体步骤如下: 1. **获取MODI文件**:可以从已安装Office 2003的计算机上复制所...

    MODI 选取图片并ocr

    标题中的“MODI 选取图片并ocr”是指利用Microsoft Office Document Imaging (MODI)模块进行图像选择,并通过OCR(Optical Character Recognition,光学字符识别)技术来识别图像中的文本。MODI是微软早期提供的一种...

    java调用office的MODI识别中文

    然而,MODI已在Office 2013中被移除,因此使用MODI进行OCR可能只适用于较旧的系统。 3. **Jacob**:Jacob(Java COM Bridge)是一个开源的Java库,用于在Java应用程序中调用COM(Component Object Model)组件。它...

    微软OCR控件 vb 调用 modi

    下面是一段示例代码,演示如何使用MODI控件进行OCR识别: ```vb Option Explicit ' OCR识别函数 Private Function OCRImageFile(ByVal strName As String) As Boolean Dim modiDocument As New MODI.Document ...

    Microsoft.office2003中的OCR组件.

    在更现代的Office版本中,如Office 2007及更高版本,微软用Microsoft Office SharePoint Server的OCR服务替代了MODI。用户可以直接在Word中使用“插入” -> “在线图片”功能,并选择“来自扫描仪或照相机”选项,...

    MODI实现OCR的基本操作

    虽然MODI在较新的Office版本中已被淘汰,但在旧版Office(如Office 2003)中,它是进行OCR操作的一个便捷工具。MODI提供了COM接口,使得开发者可以利用C++等编程语言进行程序化操作。 **C++与MODI结合** 在C++中...

Global site tag (gtag.js) - Google Analytics