`

pdf

    博客分类:
  • C#
 
阅读更多

http://www.cnblogs.com/q149072205/archive/2011/05/20/2051708.html

 

http://www.cnblogs.com/blodfox777/archive/2009/03/11/1408568.html

 

http://www.51aspx.com/SMore/%E5%85%B3%E9%94%AE%E8%AF%8D%E6%8F%90%E5%8F%96.html

 

 Aspose.OCR for .NET实现从PDF文件中提取文本和图片(2011-07-21 11:29:00)

 

的PDF文件中提取文字,但是它也有不完善之处。唯一的限制就是,不能从PDF文件中的图像提取文字。

  然而,Aspose.OCR for .NET的出现消除了该限制。在这篇文章中,通过分享一些细节来阐述如何一起使用Aspose.OCR for .NET和Aspose.Pdf for .NET这两款组件,以提取PDF文件中的所有文字。

  目前, Aspose.OCR for .NET允许你提取TIFF和BMP图像中的文字。它支持Arial和Times New Roman字体,以及16pt/32pt号字体。在Aspose.OCR for .NET以后的版本中,会不断添加新字体和其他属性的支持。

  为了从PDF文件和图像中完整地提取文字,你必须要经过以下三个步骤:

* Extract Text from the PDF File
* Extract Images from the PDF File
* Extract Text from the Images

  使用Facades中的PdfExtractor或者DOM API,可将文字从PDF文件中提取出来。请参阅以下题目中的代码示例,以便了解从PDF文件中提取文字的相关操作:

*

  提取图像也有两种方法: Facades or DOM API. 查看下列题目中的内容可进一步了解详情

*

  一旦使用上述两种方法之一成功提取图像,接下来就应该从这些图像中提取文字。下面的代码片断可以帮助您从图像中提取文字:

  //initialize OcrEngine
OcrEngine ocrEngine = new OcrEngine();
//set the image
ocrEngine.Image = ImageStream.FromFile(“image.bmp”);

  //add language and other attributes
ocrEngine.Languages.AddLanguage(Language.Load(“english”));
ocrEngine.Config.NeedRotationCorrection = false;
ocrEngine.Config.UseDefaultDictionaries = true;

  //load the resource file
ocrEngine.Resource = new FileStream(“2011.07.02 v1.0 Aspose.OCR.Resouces.zip”, FileMode.Open);

  //process the whole image
if (ocrEngine.Process())
{
Console.WriteLine(“Text :{0}”,ocrEngine.Text);
}

  有关从图像中提取文字和以上示例所涉及的源文件的更多详情,请参考:

--------------------------------------------------------------------------------------------------------
 从PDF文件中提取文字是开发人员对PDF文件最常见、最普通的需求。Aspose.Pdf for .NET虽然允许你从.net程序的PDF文件中提取文字,但是它也有不完善之处。唯一的限制就是,不能从PDF文件中的图像提取文字。
  然而,Aspose.OCR for .NET的出现消除了该限制。在这篇文章中,通过分享一些细节来阐述如何一起使用Aspose.OCR for .NET和Aspose.Pdf for .NET这两款组件,以提取PDF文件中的所有文字。
  目前, Aspose.OCR for .NET允许你提取TIFF和BMP图像中的文字。它支持Arial和Times New Roman字体,以及16pt/32pt号字体。在Aspose.OCR for .NET以后的版本中,会不断添加新字体和其他属性的支持。
  为了从PDF文件和图像中完整地提取文字,你必须要经过以下三个步骤:
* Extract Text from the PDF File
* Extract Images from the PDF File
* Extract Text from the Images
  使用Facades中的PdfExtractor或者DOM API,可将文字从PDF文件中提取出来。请参阅以下题目中的代码示例,以便了解从PDF文件中提取文字的相关操作:
* Extract Text from PDF using DOM API
* Extract Text from PDF using Facades
  提取图像也有两种方法: Facades or DOM API. 查看下列题目中的内容可进一步了解详情
* Extract Images from PDF using DOM API
* Extract Images from PDF using Facades
  一旦使用上述两种方法之一成功提取图像,接下来就应该从这些图像中提取文字。下面的代码片断可以帮助您从图像中提取文字:
  //initialize OcrEngine
OcrEngine ocrEngine = new OcrEngine();
//set the image
ocrEngine.Image = ImageStream.FromFile(“image.bmp”);
  //add language and other attributes
ocrEngine.Languages.AddLanguage(Language.Load(“english”));
ocrEngine.Config.NeedRotationCorrection = false;
ocrEngine.Config.UseDefaultDictionaries = true;
  //load the resource file
ocrEngine.Resource = new FileStream(“2011.07.02 v1.0 Aspose.OCR.Resouces.zip”, FileMode.Open);
  //process the whole image
if (ocrEngine.Process())
{
Console.WriteLine(“Text :{0}”,ocrEngine.Text);
}

  有关从图像中提取文字和以上示例所涉及的源文件的更多详情,请参考:Perform OCR on Image
分享到:
评论

相关推荐

    pdf24 tools(PDF24工具箱)官方中文版V10.7.1 | pdf24tools下载

    ​pdf24 tools是由德国Geek Software公司开发的一款优秀实用且完全免费的PDF工具箱软件,PDF24工具箱包含PDF分割/合并、PDF压缩、PDF编辑器、PDF加密/解密、PDF页面/图像提取、PDF比较、PDF转换、添加PDF水印等多种...

    pdf文件修复工具PDF Fixer Pro.rar

    众所周知PDF文档是大家工作学习中非常常用的一种文档格式,pdf文件是通过虚拟打印各种文件生成的二进制编码格式,由于大部分PDF数据是经过压缩的,使用文本编辑器编辑PDF文件会导致文件损坏或数据偏移,或者在网络...

    C++ PDFLib PDF解析器

    PDFLib 是一个强大的库,专为开发者设计,用于在各种应用程序中生成、修改和操作PDF文档。这个压缩包包含了一些关键组件,使C++程序员能够轻松地集成PDF处理功能到他们的项目中。以下是对这些组件的详细解释: 1. `...

    PDF Fixer Pro Portable(pdf文件修复工具)绿色便携版V1.3 | pdf文件损坏了怎么修复

    PDF Fixer 是一个效果相当卓越的实用智能型专业pdf文件修复工具,拥有简洁大方的用户界面和极其强悍的pdf文件修复能力,通过重构损坏的PDF数据、重建XREF 表然后将这些损坏的PDF文档恢复为可读的PDF文件来修复损坏的...

    PDF Fixer Pro(pdf文件修复工具)官方中文版V1.3 | pdf文件损坏了怎么修复

    PDF Fixer 是一个效果相当卓越的实用智能型专业pdf文件修复工具,拥有简洁大方的用户界面和极其强悍的pdf文件修复能力,通过重构损坏的PDF数据、重建XREF 表然后将这些损坏的PDF文档恢复为可读的PDF文件来修复损坏的...

    PDF-Tools 超强PDF工具合集 免安装 绿色版 分割 合并 编辑 PDF

    PDF-Tools是一款强大的PDF处理工具,它以小巧的体积(仅4.2M)和全面的功能赢得了用户的青睐。作为一款绿色版软件,它无需安装,这意味着你可以直接运行,不占用系统资源,也不在电脑上留下任何冗余文件,对系统的...

    vue-pdf预览pdf文件流

    在Vue.js应用中,预览PDF文件流是一个常见的需求,特别是在处理在线文档或者需要展示PDF内容的场景下。`vue-pdf`是一个强大的插件,它允许我们在Vue组件中轻松地集成PDF预览功能。这个插件是基于PDF.js库构建的,PDF...

    免费PDF控件Spire.PDF

    免费Spire.PDF for .NET 是一款由e-iceblue公司开发的专业性的PDF文档创建组件。它能够使用户在不用Adobe Acrobat和其他外部控件的情况下,运用.NET 应用程序阅读,编写和操纵PDF 文档。Spire.PDF for .NET不仅可以...

    PB数据窗口导出PDF并且合并到一个PDF文件中

    标题 "PB数据窗口导出PDF并且合并到一个PDF文件中" 涉及的主要知识点是使用PowerBuilder(PB)这个编程工具,对数据窗口对象进行操作,并将结果以PDF格式导出,最后实现多个PDF文件的合并。在这个过程中,我们不仅...

    JSP页面显示PDF,根据PDF路径在JSP页面显示PDF

    在IT行业中,尤其是在Web开发领域,有时我们需要在网页上展示PDF文档,以便用户可以在线预览,而无需下载。在本场景中,我们将探讨如何利用Java的JSP(JavaServer Pages)技术来实现这一功能。JSP是一种动态网页技术...

    com.sun.pdfview.PDFRenderer

    import com.sun.pdfview.FullScreenWindow;import com.sun.pdfview.OutlineNode;import com.sun.pdfview.PDFDestination;import com.sun.pdfview.PDFFile;import com.sun.pdfview.PDFObject;import ...

    Image2Pdf_4.3-批量生成PDF,双层PDF转换工具.rar

    Image2Pdf_4.3是一款专门用于批量生成PDF文件并支持双层PDF转换的实用工具。这个工具的主要功能是将图像文件转化为PDF文档,同时它还具有创建双层PDF的能力,使得用户在处理扫描文档或者图片时能进行更深度的文字...

    pdfview打开pdf文件,避免android无法通过webview打开pdf文件

    在Android开发中,有时我们需要在应用中展示PDF文件,但默认的WebView组件并不支持直接打开PDF,这使得开发者需要寻找其他解决方案。"pdfview打开pdf文件,避免android无法通过webview打开pdf文件"这个主题正是关注...

    java PDF文件处理库 aspose-pdf-17.8.jar ,好用

    Java PDF文件处理是一个重要的领域,尤其在开发企业级应用时,常常需要对PDF文档进行创建、编辑、转换或渲染等操作。Aspose.PDF是一款强大的Java库,它为开发者提供了全面的API,使得处理PDF文档变得简单高效。在这...

    安装WPS PDF虚拟打印机 打印机添加导出WPS PDF或导出金山 PDF

    安装完成后,重新启动电脑,打印机中就有导出WPS PDF虚拟打印机了。 自解压文件里面只有7个文件。文件大小1.62MB,不到2M的大小。 其中6个是C:\Windows\system32\spool\DRIVERS\x64\3文件夹中的必要系统文件, 主要...

    pdf.js和pdf.worker.js html打开pdf所需要的js

    PDF.js和PDF.Worker.js是Mozilla开发的开源库,用于在Web浏览器中渲染PDF文档,无需依赖任何插件。这两个JavaScript文件是实现HTML页面加载和显示PDF的关键组件,提供了纯JavaScript解决方案来处理PDF文档。 PDF.js...

    利用poi+itextpdf进行word转pdf.rar

    在IT行业中,转换文档格式是一项常见的任务,例如将Word文档转换为PDF。在这个场景中,我们看到一个关于如何使用Java编程语言实现此功能的资源包:“利用poi+itextpdf进行word转pdf.rar”。这个压缩包包含源码、依赖...

    调用PDFlib导入pdf书签文件(src)

    PDFlib是一个强大的库,用于创建、编辑和处理PDF(Portable Document Format)文件。在这个场景中,我们关注的是如何使用PDFlib_com,一个基于VB(Visual Basic)的接口,来导入PDF书签文件并修改PDF文档的属性信息...

    html在线预览pdf(pdf.js)

    PDF.js 是一个由 Mozilla 维护的开源库,专门用于在 Web 浏览器中显示 PDF 文档。这个库利用 JavaScript 实现了 PDF 文件的解析和渲染,使得开发者能够在 HTML 页面上实现 PDF 的在线预览功能,而无需依赖任何插件。...

    C#生成PDF 读取PDF文本内容 获取PDF内图片完整源码(调用第三方DLL)

    在.NET环境中,C#开发人员经常需要处理PDF文档,包括生成PDF、读取PDF文本以及提取PDF中的图像。为了实现这些功能,通常会借助于第三方库或DLL,因为.NET框架本身并不内置完整的PDF处理能力。本教程将详细介绍如何...

Global site tag (gtag.js) - Google Analytics