`

pdf

    博客分类:
  • C#
 
阅读更多

http://www.cnblogs.com/q149072205/archive/2011/05/20/2051708.html

 

http://www.cnblogs.com/blodfox777/archive/2009/03/11/1408568.html

 

http://www.51aspx.com/SMore/%E5%85%B3%E9%94%AE%E8%AF%8D%E6%8F%90%E5%8F%96.html

 

 Aspose.OCR for .NET实现从PDF文件中提取文本和图片(2011-07-21 11:29:00)

 

的PDF文件中提取文字,但是它也有不完善之处。唯一的限制就是,不能从PDF文件中的图像提取文字。

  然而,Aspose.OCR for .NET的出现消除了该限制。在这篇文章中,通过分享一些细节来阐述如何一起使用Aspose.OCR for .NET和Aspose.Pdf for .NET这两款组件,以提取PDF文件中的所有文字。

  目前, Aspose.OCR for .NET允许你提取TIFF和BMP图像中的文字。它支持Arial和Times New Roman字体,以及16pt/32pt号字体。在Aspose.OCR for .NET以后的版本中,会不断添加新字体和其他属性的支持。

  为了从PDF文件和图像中完整地提取文字,你必须要经过以下三个步骤:

* Extract Text from the PDF File
* Extract Images from the PDF File
* Extract Text from the Images

  使用Facades中的PdfExtractor或者DOM API,可将文字从PDF文件中提取出来。请参阅以下题目中的代码示例,以便了解从PDF文件中提取文字的相关操作:

*

  提取图像也有两种方法: Facades or DOM API. 查看下列题目中的内容可进一步了解详情

*

  一旦使用上述两种方法之一成功提取图像,接下来就应该从这些图像中提取文字。下面的代码片断可以帮助您从图像中提取文字:

  //initialize OcrEngine
OcrEngine ocrEngine = new OcrEngine();
//set the image
ocrEngine.Image = ImageStream.FromFile(“image.bmp”);

  //add language and other attributes
ocrEngine.Languages.AddLanguage(Language.Load(“english”));
ocrEngine.Config.NeedRotationCorrection = false;
ocrEngine.Config.UseDefaultDictionaries = true;

  //load the resource file
ocrEngine.Resource = new FileStream(“2011.07.02 v1.0 Aspose.OCR.Resouces.zip”, FileMode.Open);

  //process the whole image
if (ocrEngine.Process())
{
Console.WriteLine(“Text :{0}”,ocrEngine.Text);
}

  有关从图像中提取文字和以上示例所涉及的源文件的更多详情,请参考:

--------------------------------------------------------------------------------------------------------
 从PDF文件中提取文字是开发人员对PDF文件最常见、最普通的需求。Aspose.Pdf for .NET虽然允许你从.net程序的PDF文件中提取文字,但是它也有不完善之处。唯一的限制就是,不能从PDF文件中的图像提取文字。
  然而,Aspose.OCR for .NET的出现消除了该限制。在这篇文章中,通过分享一些细节来阐述如何一起使用Aspose.OCR for .NET和Aspose.Pdf for .NET这两款组件,以提取PDF文件中的所有文字。
  目前, Aspose.OCR for .NET允许你提取TIFF和BMP图像中的文字。它支持Arial和Times New Roman字体,以及16pt/32pt号字体。在Aspose.OCR for .NET以后的版本中,会不断添加新字体和其他属性的支持。
  为了从PDF文件和图像中完整地提取文字,你必须要经过以下三个步骤:
* Extract Text from the PDF File
* Extract Images from the PDF File
* Extract Text from the Images
  使用Facades中的PdfExtractor或者DOM API,可将文字从PDF文件中提取出来。请参阅以下题目中的代码示例,以便了解从PDF文件中提取文字的相关操作:
* Extract Text from PDF using DOM API
* Extract Text from PDF using Facades
  提取图像也有两种方法: Facades or DOM API. 查看下列题目中的内容可进一步了解详情
* Extract Images from PDF using DOM API
* Extract Images from PDF using Facades
  一旦使用上述两种方法之一成功提取图像,接下来就应该从这些图像中提取文字。下面的代码片断可以帮助您从图像中提取文字:
  //initialize OcrEngine
OcrEngine ocrEngine = new OcrEngine();
//set the image
ocrEngine.Image = ImageStream.FromFile(“image.bmp”);
  //add language and other attributes
ocrEngine.Languages.AddLanguage(Language.Load(“english”));
ocrEngine.Config.NeedRotationCorrection = false;
ocrEngine.Config.UseDefaultDictionaries = true;
  //load the resource file
ocrEngine.Resource = new FileStream(“2011.07.02 v1.0 Aspose.OCR.Resouces.zip”, FileMode.Open);
  //process the whole image
if (ocrEngine.Process())
{
Console.WriteLine(“Text :{0}”,ocrEngine.Text);
}

  有关从图像中提取文字和以上示例所涉及的源文件的更多详情,请参考:Perform OCR on Image
分享到:
评论

相关推荐

    PDFView显示pdf文件

    PDFView是Android开发中用于显示PDF文件的一种工具,它允许开发者在应用程序中集成PDF阅读功能。这个工具包可能包括源代码和预编译的jar包,使得开发者可以直接将PDF查看功能整合到自己的应用中,无需依赖其他大型库...

    Spire.Pdf C# PDF合并,PDF拆分

    对于开发人员来说,处理PDF文件是常见的需求,包括合并PDF、拆分PDF以及将图片转换为PDF。本文将详细讨论使用Spire.Pdf库在C#环境下进行这些操作的知识点。 Spire.Pdf是一款强大的.NET PDF组件,它提供了无限制且...

    PDF24工具箱pdf24 tools.rar

    pdf24 tools是由德国Geek Software公司开发的一款优秀实用且完全免费的PDF工具箱软件,PDF24工具箱包含PDF分割/合并、PDF压缩、PDF编辑器、PDF加密/解密、PDF页面/图像提取、PDF比较、PDF转换、添加PDF水印等多种...

    pdf24 tools(PDF24工具箱)官方中文版V10.7.1 | pdf24tools下载

    ​pdf24 tools是由德国Geek Software公司开发的一款优秀实用且完全免费的PDF工具箱软件,PDF24工具箱包含PDF分割/合并、PDF压缩、PDF编辑器、PDF加密/解密、PDF页面/图像提取、PDF比较、PDF转换、添加PDF水印等多种...

    PDF24 Creator(PDF工具箱) v11.1.0一款万能的PDF处理工具.rar

    使用在线PDF转换工具于线上转换文件,通过电子邮件转换工具以电子邮件转换PDF,或直接使用免费的桌面应用程式PDF24 Creator。 2、大家都可使用的免费PDF软件 从PDF24的软件免费和轻易地创建PDF文件。PDF软件包含了一...

    PDF Fixer Pro(pdf文件修复工具)官方中文版V1.3 | pdf文件损坏了怎么修复

    PDF Fixer 是一个效果相当卓越的实用智能型专业pdf文件修复工具,拥有简洁大方的用户界面和极其强悍的pdf文件修复能力,通过重构损坏的PDF数据、重建XREF 表然后将这些损坏的PDF文档恢复为可读的PDF文件来修复损坏的...

    pdf文件修复工具PDF Fixer Pro.rar

    众所周知PDF文档是大家工作学习中非常常用的一种文档格式,pdf文件是通过虚拟打印各种文件生成的二进制编码格式,由于大部分PDF数据是经过压缩的,使用文本编辑器编辑PDF文件会导致文件损坏或数据偏移,或者在网络...

    PDF Fixer Pro Portable(pdf文件修复工具)绿色便携版V1.3 | pdf文件损坏了怎么修复

    PDF Fixer 是一个效果相当卓越的实用智能型专业pdf文件修复工具,拥有简洁大方的用户界面和极其强悍的pdf文件修复能力,通过重构损坏的PDF数据、重建XREF 表然后将这些损坏的PDF文档恢复为可读的PDF文件来修复损坏的...

    非常好用的PDF工具,PDF合并,自动生成PDF书签

    PDF工具在现代数字化办公环境中扮演着重要角色,尤其对于处理PDF文档的各种需求,如合并、编辑、注释等。本文将详细介绍"非常好用的PDF工具",重点讨论PDF合并功能以及自动生成PDF书签的功能。 PDF合并是将多个PDF...

    vue-pdf预览pdf文件流

    在Vue.js应用中,预览PDF文件流是一个常见的需求,特别是在处理在线文档或者需要展示PDF内容的场景下。`vue-pdf`是一个强大的插件,它允许我们在Vue组件中轻松地集成PDF预览功能。这个插件是基于PDF.js库构建的,PDF...

    PB数据窗口导出PDF并且合并到一个PDF文件中

    标题 "PB数据窗口导出PDF并且合并到一个PDF文件中" 涉及的主要知识点是使用PowerBuilder(PB)这个编程工具,对数据窗口对象进行操作,并将结果以PDF格式导出,最后实现多个PDF文件的合并。在这个过程中,我们不仅...

    使用PDFLIB库创建PDF c++

    PDFLIB库是一个强大的C++库,专为生成高质量的PDF文档而设计。它提供了一组丰富的API函数,允许程序员在C++应用程序中直接创建、修改和处理PDF文档。本篇文章将深入探讨如何利用PDFLIB库在C++环境中构建PDF文件。 ...

    PDF pdfview.ocx 无水印

    PDF文件格式在IT行业中广泛应用,尤其在文档分享和电子出版领域。`pdfview.ocx`控件是专门用于处理PDF文件的一种组件,它允许开发者在应用程序中集成PDF阅读和操作功能,比如在C#和Wpf这样的环境中。在这个场景中,`...

    Image2Pdf_4.3-批量生成PDF,双层PDF转换工具.rar

    Image2Pdf_4.3是一款专门用于批量生成PDF文件并支持双层PDF转换的实用工具。这个工具的主要功能是将图像文件转化为PDF文档,同时它还具有创建双层PDF的能力,使得用户在处理扫描文档或者图片时能进行更深度的文字...

    使用PDFLIB库实现对pdf文件的读取

    PDFLIB库是一个强大的PDF处理库,它为程序员提供了在各种编程环境中创建、修改和读取PDF文件的功能。在这个场景中,我们关注的是如何在Visual Studio 2010(VS2010)中利用PDFLIB TET库来读取PDF文件。TET是PDFLIB的...

    pdfview打开pdf文件,避免android无法通过webview打开pdf文件

    在Android开发中,有时我们需要在应用中展示PDF文件,但默认的WebView组件并不支持直接打开PDF,这使得开发者需要寻找其他解决方案。"pdfview打开pdf文件,避免android无法通过webview打开pdf文件"这个主题正是关注...

    java spire.pdf 使用 对 pdf文件的相关操作

    自己写的 spire.pdf 简单的demo ,有一些基础的使用方法,对刚接触的小伙伴会非常友善; 里面主要包含: 1.去除水印; 2.获取每页pdf的图片; 3.获取书签; 4.读取pdf将pdf转化为文字,最后由txt文件保存; 5....

    Quick PDF Library(PDF编程控件)

    从文档属性的基本操作到创建您自己的 PDF 查看器和 PDF 编辑器,这款软件满足您的所有需求。 Quick PDF Library 是一款供 PDF 开发人员使用的 SDK,功能强大、无需版税,其中包括超过500个函数,可用于 Delphi、C、...

    Unity读取PDF插件PDFRenderer

    在这些应用中,有时我们需要集成PDF阅读功能,以便用户能够查看或交互与PDF文档。这就是“Unity读取PDF插件PDFRenderer”发挥作用的地方。 PDFRenderer插件是一个专门针对Unity开发的工具,它允许开发者在Unity环境...

    java根据PDF模板自动生成PDF文件

    用途:根据PDF模板生成PDF文件,将数据库查询的数据插入到模板指定未知,然后生成新的PDF文件 原理: 代码说明:exprotPDF_Main 为主文件。调用了outpdf1的两个文件的方法。outpdf1里的方法,是通过outpdf2345678这...

Global site tag (gtag.js) - Google Analytics