`

pdf

    博客分类:
  • C#
 
阅读更多

http://www.cnblogs.com/q149072205/archive/2011/05/20/2051708.html

 

http://www.cnblogs.com/blodfox777/archive/2009/03/11/1408568.html

 

http://www.51aspx.com/SMore/%E5%85%B3%E9%94%AE%E8%AF%8D%E6%8F%90%E5%8F%96.html

 

 Aspose.OCR for .NET实现从PDF文件中提取文本和图片(2011-07-21 11:29:00)

 

的PDF文件中提取文字,但是它也有不完善之处。唯一的限制就是,不能从PDF文件中的图像提取文字。

  然而,Aspose.OCR for .NET的出现消除了该限制。在这篇文章中,通过分享一些细节来阐述如何一起使用Aspose.OCR for .NET和Aspose.Pdf for .NET这两款组件,以提取PDF文件中的所有文字。

  目前, Aspose.OCR for .NET允许你提取TIFF和BMP图像中的文字。它支持Arial和Times New Roman字体,以及16pt/32pt号字体。在Aspose.OCR for .NET以后的版本中,会不断添加新字体和其他属性的支持。

  为了从PDF文件和图像中完整地提取文字,你必须要经过以下三个步骤:

* Extract Text from the PDF File
* Extract Images from the PDF File
* Extract Text from the Images

  使用Facades中的PdfExtractor或者DOM API,可将文字从PDF文件中提取出来。请参阅以下题目中的代码示例,以便了解从PDF文件中提取文字的相关操作:

*

  提取图像也有两种方法: Facades or DOM API. 查看下列题目中的内容可进一步了解详情

*

  一旦使用上述两种方法之一成功提取图像,接下来就应该从这些图像中提取文字。下面的代码片断可以帮助您从图像中提取文字:

  //initialize OcrEngine
OcrEngine ocrEngine = new OcrEngine();
//set the image
ocrEngine.Image = ImageStream.FromFile(“image.bmp”);

  //add language and other attributes
ocrEngine.Languages.AddLanguage(Language.Load(“english”));
ocrEngine.Config.NeedRotationCorrection = false;
ocrEngine.Config.UseDefaultDictionaries = true;

  //load the resource file
ocrEngine.Resource = new FileStream(“2011.07.02 v1.0 Aspose.OCR.Resouces.zip”, FileMode.Open);

  //process the whole image
if (ocrEngine.Process())
{
Console.WriteLine(“Text :{0}”,ocrEngine.Text);
}

  有关从图像中提取文字和以上示例所涉及的源文件的更多详情,请参考:

--------------------------------------------------------------------------------------------------------
 从PDF文件中提取文字是开发人员对PDF文件最常见、最普通的需求。Aspose.Pdf for .NET虽然允许你从.net程序的PDF文件中提取文字,但是它也有不完善之处。唯一的限制就是,不能从PDF文件中的图像提取文字。
  然而,Aspose.OCR for .NET的出现消除了该限制。在这篇文章中,通过分享一些细节来阐述如何一起使用Aspose.OCR for .NET和Aspose.Pdf for .NET这两款组件,以提取PDF文件中的所有文字。
  目前, Aspose.OCR for .NET允许你提取TIFF和BMP图像中的文字。它支持Arial和Times New Roman字体,以及16pt/32pt号字体。在Aspose.OCR for .NET以后的版本中,会不断添加新字体和其他属性的支持。
  为了从PDF文件和图像中完整地提取文字,你必须要经过以下三个步骤:
* Extract Text from the PDF File
* Extract Images from the PDF File
* Extract Text from the Images
  使用Facades中的PdfExtractor或者DOM API,可将文字从PDF文件中提取出来。请参阅以下题目中的代码示例,以便了解从PDF文件中提取文字的相关操作:
* Extract Text from PDF using DOM API
* Extract Text from PDF using Facades
  提取图像也有两种方法: Facades or DOM API. 查看下列题目中的内容可进一步了解详情
* Extract Images from PDF using DOM API
* Extract Images from PDF using Facades
  一旦使用上述两种方法之一成功提取图像,接下来就应该从这些图像中提取文字。下面的代码片断可以帮助您从图像中提取文字:
  //initialize OcrEngine
OcrEngine ocrEngine = new OcrEngine();
//set the image
ocrEngine.Image = ImageStream.FromFile(“image.bmp”);
  //add language and other attributes
ocrEngine.Languages.AddLanguage(Language.Load(“english”));
ocrEngine.Config.NeedRotationCorrection = false;
ocrEngine.Config.UseDefaultDictionaries = true;
  //load the resource file
ocrEngine.Resource = new FileStream(“2011.07.02 v1.0 Aspose.OCR.Resouces.zip”, FileMode.Open);
  //process the whole image
if (ocrEngine.Process())
{
Console.WriteLine(“Text :{0}”,ocrEngine.Text);
}

  有关从图像中提取文字和以上示例所涉及的源文件的更多详情,请参考:Perform OCR on Image
分享到:
评论

相关推荐

    PDFView显示pdf文件

    PDFView是Android开发中用于显示PDF文件的一种工具,它允许开发者在应用程序中集成PDF阅读功能。这个工具包可能包括源代码和预编译的jar包,使得开发者可以直接将PDF查看功能整合到自己的应用中,无需依赖其他大型库...

    Spire.Pdf C# PDF合并,PDF拆分

    对于开发人员来说,处理PDF文件是常见的需求,包括合并PDF、拆分PDF以及将图片转换为PDF。本文将详细讨论使用Spire.Pdf库在C#环境下进行这些操作的知识点。 Spire.Pdf是一款强大的.NET PDF组件,它提供了无限制且...

    PDF24工具箱pdf24 tools.rar

    pdf24 tools是由德国Geek Software公司开发的一款优秀实用且完全免费的PDF工具箱软件,PDF24工具箱包含PDF分割/合并、PDF压缩、PDF编辑器、PDF加密/解密、PDF页面/图像提取、PDF比较、PDF转换、添加PDF水印等多种...

    pdf24 tools(PDF24工具箱)官方中文版V10.7.1 | pdf24tools下载

    ​pdf24 tools是由德国Geek Software公司开发的一款优秀实用且完全免费的PDF工具箱软件,PDF24工具箱包含PDF分割/合并、PDF压缩、PDF编辑器、PDF加密/解密、PDF页面/图像提取、PDF比较、PDF转换、添加PDF水印等多种...

    PDF24 Creator(PDF工具箱) v11.1.0一款万能的PDF处理工具.rar

    使用在线PDF转换工具于线上转换文件,通过电子邮件转换工具以电子邮件转换PDF,或直接使用免费的桌面应用程式PDF24 Creator。 2、大家都可使用的免费PDF软件 从PDF24的软件免费和轻易地创建PDF文件。PDF软件包含了一...

    PDFRenderer显示PDF文档

    PDFRenderer是一种Java库,用于将PDF文档渲染成位图图像,以便在应用程序中显示或处理。这个技术在Java Swing环境中特别有用,因为它允许开发者在GUI组件,如JFrame,中展示PDF内容。以下是对“PDFRenderer显示PDF...

    pdf文件修复工具PDF Fixer Pro.rar

    众所周知PDF文档是大家工作学习中非常常用的一种文档格式,pdf文件是通过虚拟打印各种文件生成的二进制编码格式,由于大部分PDF数据是经过压缩的,使用文本编辑器编辑PDF文件会导致文件损坏或数据偏移,或者在网络...

    C++ PDFLib PDF解析器

    PDFLib 是一个强大的库,专为开发者设计,用于在各种应用程序中生成、修改和操作PDF文档。这个压缩包包含了一些关键组件,使C++程序员能够轻松地集成PDF处理功能到他们的项目中。以下是对这些组件的详细解释: 1. `...

    vue-pdf预览pdf文件流

    在Vue.js应用中,预览PDF文件流是一个常见的需求,特别是在处理在线文档或者需要展示PDF内容的场景下。`vue-pdf`是一个强大的插件,它允许我们在Vue组件中轻松地集成PDF预览功能。这个插件是基于PDF.js库构建的,PDF...

    PB数据窗口导出PDF并且合并到一个PDF文件中

    标题 "PB数据窗口导出PDF并且合并到一个PDF文件中" 涉及的主要知识点是使用PowerBuilder(PB)这个编程工具,对数据窗口对象进行操作,并将结果以PDF格式导出,最后实现多个PDF文件的合并。在这个过程中,我们不仅...

    使用PDFLIB库创建PDF c++

    PDFLIB库是一个强大的C++库,专为生成高质量的PDF文档而设计。它提供了一组丰富的API函数,允许程序员在C++应用程序中直接创建、修改和处理PDF文档。本篇文章将深入探讨如何利用PDFLIB库在C++环境中构建PDF文件。 ...

    pdfview打开pdf文件,避免android无法通过webview打开pdf文件

    在Android开发中,有时我们需要在应用中展示PDF文件,但默认的WebView组件并不支持直接打开PDF,这使得开发者需要寻找其他解决方案。"pdfview打开pdf文件,避免android无法通过webview打开pdf文件"这个主题正是关注...

    PDF pdfview.ocx 无水印

    PDF文件格式在IT行业中广泛应用,尤其在文档分享和电子出版领域。`pdfview.ocx`控件是专门用于处理PDF文件的一种组件,它允许开发者在应用程序中集成PDF阅读和操作功能,比如在C#和Wpf这样的环境中。在这个场景中,`...

    Quick PDF Library(PDF编程控件)

    从文档属性的基本操作到创建您自己的 PDF 查看器和 PDF 编辑器,这款软件满足您的所有需求。 Quick PDF Library 是一款供 PDF 开发人员使用的 SDK,功能强大、无需版税,其中包括超过500个函数,可用于 Delphi、C、...

    Unity读取PDF插件PDFRenderer

    在这些应用中,有时我们需要集成PDF阅读功能,以便用户能够查看或交互与PDF文档。这就是“Unity读取PDF插件PDFRenderer”发挥作用的地方。 PDFRenderer插件是一个专门针对Unity开发的工具,它允许开发者在Unity环境...

    java根据PDF模板自动生成PDF文件

    用途:根据PDF模板生成PDF文件,将数据库查询的数据插入到模板指定未知,然后生成新的PDF文件 原理: 代码说明:exprotPDF_Main 为主文件。调用了outpdf1的两个文件的方法。outpdf1里的方法,是通过outpdf2345678这...

    pdf.js和pdf.worker.js html打开pdf所需要的js

    PDF.js和PDF.Worker.js是Mozilla开发的开源库,用于在Web浏览器中渲染PDF文档,无需依赖任何插件。这两个JavaScript文件是实现HTML页面加载和显示PDF的关键组件,提供了纯JavaScript解决方案来处理PDF文档。 PDF.js...

    pdf.js使用文件流预览pdf

    PDF.js是一个开源JavaScript库,由Mozilla开发,用于在Web浏览器中渲染PDF文档,无需依赖任何插件。这个库的目标是提供一个与平台和浏览器无关的解决方案,使得用户可以在任何支持HTML5的浏览器上查看PDF文件。本文...

    调用PDFlib导入pdf书签文件(src)

    PDFlib是一个强大的库,用于创建、编辑和处理PDF(Portable Document Format)文件。在这个场景中,我们关注的是如何使用PDFlib_com,一个基于VB(Visual Basic)的接口,来导入PDF书签文件并修改PDF文档的属性信息...

    利用poi+itextpdf进行word转pdf.rar

    在IT行业中,转换文档格式是一项常见的任务,例如将Word文档转换为PDF。在这个场景中,我们看到一个关于如何使用Java编程语言实现此功能的资源包:“利用poi+itextpdf进行word转pdf.rar”。这个压缩包包含源码、依赖...

Global site tag (gtag.js) - Google Analytics