- 浏览: 786765 次
- 性别:
- 来自: 大连
文章分类
- 全部博客 (417)
- ASP.NET MVC (18)
- WEB基础 (24)
- 数据库 (69)
- iPhone (20)
- JQuery (3)
- Android (21)
- UML (8)
- C# (32)
- 移动技术 (19)
- 条码/RFID (6)
- MAC (8)
- VSS/SVN (6)
- 开卷有益 (4)
- 应用软件 (1)
- 软件工程 (1)
- java/Eclipse/tomcat (61)
- 英语学习 (2)
- 综合 (16)
- SharePoint (7)
- linux (42)
- Solaris/Unix (38)
- weblogic (12)
- c/c++ (42)
- 云 (1)
- sqlite (1)
- FTp (2)
- 项目管理 (2)
- webservice (1)
- apache (4)
- javascript (3)
- Spring/Struts/Mybatis/Hibernate (4)
- 航空业务 (1)
- 测试 (6)
- BPM (1)
最新评论
-
dashengkeji:
1a64f39292ebf4b4bed41d9d6b21ee7 ...
使用POI生成Excel文件,可以自动调整excel列宽等(转) -
zi_wu_xian:
PageOffice操作excel也可以设置表格的行高列宽,并 ...
使用POI生成Excel文件,可以自动调整excel列宽等(转) -
wanggang0321:
亲,我在pptx(office2007以上版本)转pdf的时候 ...
JODConverter]word转pdf心得分享(转) -
xiejanee:
楼主:你好!我想请问下 你在代码中用DOMDocument* ...
Xerces-C++学习之——查询修改XML文档 (转)
http://www.cnblogs.com/q149072205/archive/2011/05/20/2051708.html
http://www.cnblogs.com/blodfox777/archive/2009/03/11/1408568.html
http://www.51aspx.com/SMore/%E5%85%B3%E9%94%AE%E8%AF%8D%E6%8F%90%E5%8F%96.html
Aspose.OCR for .NET实现从PDF文件中提取文本和图片(2011-07-21 11:29:00)
然而,Aspose.OCR for .NET的出现消除了该限制。在这篇文章中,通过分享一些细节来阐述如何一起使用Aspose.OCR for .NET和Aspose.Pdf for .NET这两款组件,以提取PDF文件中的所有文字。
目前, Aspose.OCR for .NET允许你提取TIFF和BMP图像中的文字。它支持Arial和Times New Roman字体,以及16pt/32pt号字体。在Aspose.OCR for .NET以后的版本中,会不断添加新字体和其他属性的支持。
为了从PDF文件和图像中完整地提取文字,你必须要经过以下三个步骤:
* Extract Text from the PDF File
* Extract Images from the PDF File
* Extract Text from the Images
使用Facades中的PdfExtractor或者DOM API,可将文字从PDF文件中提取出来。请参阅以下题目中的代码示例,以便了解从PDF文件中提取文字的相关操作:
*
提取图像也有两种方法: Facades or DOM API. 查看下列题目中的内容可进一步了解详情
:
*
一旦使用上述两种方法之一成功提取图像,接下来就应该从这些图像中提取文字。下面的代码片断可以帮助您从图像中提取文字:
//initialize OcrEngine
OcrEngine ocrEngine = new OcrEngine();
//set the image
ocrEngine.Image = ImageStream.FromFile(“image.bmp”);
//add language and other attributes
ocrEngine.Languages.AddLanguage(Language.Load(“english”));
ocrEngine.Config.NeedRotationCorrection = false;
ocrEngine.Config.UseDefaultDictionaries = true;
//load the resource file
ocrEngine.Resource = new FileStream(“2011.07.02 v1.0 Aspose.OCR.Resouces.zip”, FileMode.Open);
//process the whole image
if (ocrEngine.Process())
{
Console.WriteLine(“Text :{0}”,ocrEngine.Text);
}
有关从图像中提取文字和以上示例所涉及的源文件的更多详情,请参考:
* Extract Text from PDF using FacadesExtract Images from PDF using DOM API
* Extract Images from PDF using FacadesPerform OCR on Image
* Extract Images from the PDF File
* Extract Text from the Images
* Extract Text from PDF using Facades
:
* Extract Images from PDF using Facades
OcrEngine ocrEngine = new OcrEngine();
//set the image
ocrEngine.Image = ImageStream.FromFile(“image.bmp”);
ocrEngine.Languages.AddLanguage(Language.Load(“english”));
ocrEngine.Config.NeedRotationCorrection = false;
ocrEngine.Config.UseDefaultDictionaries = true;
ocrEngine.Resource = new FileStream(“2011.07.02 v1.0 Aspose.OCR.Resouces.zip”, FileMode.Open);
if (ocrEngine.Process())
{
Console.WriteLine(“Text :{0}”,ocrEngine.Text);
}
有关从图像中提取文字和以上示例所涉及的源文件的更多详情,请参考:Perform OCR on Image
发表评论
-
invoke
2013-03-15 15:53 0object Object.Invoke(Delegate ... -
JQuery的WebServices调用
2013-03-14 14:12 0http://blog.sina.com.cn/s/blog_ ... -
c# list和string
2012-10-26 15:16 978C# List和String互相转换 (2011-06- ... -
.net mysql-connector-net
2012-10-19 11:10 1011引用DLL引用 mysql-connector-net包中的M ... -
c# 操作mysql
2012-10-19 10:21 931using System;using System.Confi ... -
c# DataTable.copy .clone
2012-10-17 18:17 4129C# DataTable.Copy()和.Clone()的使用 ... -
C#中避免相同MDI子窗口重复打开的方法(转)
2012-10-17 13:40 1147方法一: 直接检测 ... -
C# 中使用JSON - DataContractJsonSerializer
2012-10-11 14:47 690http://www.cnblogs.com/coderzh/ ... -
.NET WHERE子句用途
2012-05-04 14:52 1522where 子句用于指定类型约束,这些约束可以作为泛型声明 ... -
c#泛型
2012-05-04 14:51 1061http://hjf1223.cnblogs.com/arch ... -
汉字转换成拼音的类(转)
2012-02-27 16:41 63844引用地址: http://blog.csdn.net/huig ... -
ASP.NET内置对象(转)
2011-12-08 13:53 3152http://www.cnblogs. ... -
asp.net webservice
2011-12-04 15:22 1839asp.net webservice 概述与 ... -
iis发布asp.net网站(转)
2011-11-23 10:32 3357iis发布asp.net 网站 ... -
win7 里配置iis 和asp.net步骤,及发布asp.net网站全程(转)
2011-11-23 10:15 5505分享 win7 里配置 iis 和a ... -
类似Windows Search的文件搜索系统
2011-11-23 09:42 1316转自:http://www.cnblogs.com/wu ... -
操作PDF文档功能的相关开源项目探索—iTextSharp 和PDFBox
2011-11-23 09:40 1975转自www.th7.cn第七城市 操作 PDF 文档功 ... -
iis asp.net安装顺序
2011-11-17 13:47 946如果先安装IIS再安装 .Net Framework。一切OK ... -
IIS配置
2011-11-17 13:18 820http://bbs.51cto.com/thread-488 ... -
[转发贴] .NET WAP开发-WAP2.0篇
2011-11-15 17:39 1933WAP1.1时代是否结束这个不可下定论。但WAP2.0的大面积 ...
相关推荐
pdf24 tools是由德国Geek Software公司开发的一款优秀实用且完全免费的PDF工具箱软件,PDF24工具箱包含PDF分割/合并、PDF压缩、PDF编辑器、PDF加密/解密、PDF页面/图像提取、PDF比较、PDF转换、添加PDF水印等多种...
众所周知PDF文档是大家工作学习中非常常用的一种文档格式,pdf文件是通过虚拟打印各种文件生成的二进制编码格式,由于大部分PDF数据是经过压缩的,使用文本编辑器编辑PDF文件会导致文件损坏或数据偏移,或者在网络...
PDFLib 是一个强大的库,专为开发者设计,用于在各种应用程序中生成、修改和操作PDF文档。这个压缩包包含了一些关键组件,使C++程序员能够轻松地集成PDF处理功能到他们的项目中。以下是对这些组件的详细解释: 1. `...
PDF Fixer 是一个效果相当卓越的实用智能型专业pdf文件修复工具,拥有简洁大方的用户界面和极其强悍的pdf文件修复能力,通过重构损坏的PDF数据、重建XREF 表然后将这些损坏的PDF文档恢复为可读的PDF文件来修复损坏的...
PDF Fixer 是一个效果相当卓越的实用智能型专业pdf文件修复工具,拥有简洁大方的用户界面和极其强悍的pdf文件修复能力,通过重构损坏的PDF数据、重建XREF 表然后将这些损坏的PDF文档恢复为可读的PDF文件来修复损坏的...
PDF-Tools是一款强大的PDF处理工具,它以小巧的体积(仅4.2M)和全面的功能赢得了用户的青睐。作为一款绿色版软件,它无需安装,这意味着你可以直接运行,不占用系统资源,也不在电脑上留下任何冗余文件,对系统的...
在Vue.js应用中,预览PDF文件流是一个常见的需求,特别是在处理在线文档或者需要展示PDF内容的场景下。`vue-pdf`是一个强大的插件,它允许我们在Vue组件中轻松地集成PDF预览功能。这个插件是基于PDF.js库构建的,PDF...
免费Spire.PDF for .NET 是一款由e-iceblue公司开发的专业性的PDF文档创建组件。它能够使用户在不用Adobe Acrobat和其他外部控件的情况下,运用.NET 应用程序阅读,编写和操纵PDF 文档。Spire.PDF for .NET不仅可以...
标题 "PB数据窗口导出PDF并且合并到一个PDF文件中" 涉及的主要知识点是使用PowerBuilder(PB)这个编程工具,对数据窗口对象进行操作,并将结果以PDF格式导出,最后实现多个PDF文件的合并。在这个过程中,我们不仅...
在IT行业中,尤其是在Web开发领域,有时我们需要在网页上展示PDF文档,以便用户可以在线预览,而无需下载。在本场景中,我们将探讨如何利用Java的JSP(JavaServer Pages)技术来实现这一功能。JSP是一种动态网页技术...
import com.sun.pdfview.FullScreenWindow;import com.sun.pdfview.OutlineNode;import com.sun.pdfview.PDFDestination;import com.sun.pdfview.PDFFile;import com.sun.pdfview.PDFObject;import ...
Image2Pdf_4.3是一款专门用于批量生成PDF文件并支持双层PDF转换的实用工具。这个工具的主要功能是将图像文件转化为PDF文档,同时它还具有创建双层PDF的能力,使得用户在处理扫描文档或者图片时能进行更深度的文字...
在Android开发中,有时我们需要在应用中展示PDF文件,但默认的WebView组件并不支持直接打开PDF,这使得开发者需要寻找其他解决方案。"pdfview打开pdf文件,避免android无法通过webview打开pdf文件"这个主题正是关注...
Java PDF文件处理是一个重要的领域,尤其在开发企业级应用时,常常需要对PDF文档进行创建、编辑、转换或渲染等操作。Aspose.PDF是一款强大的Java库,它为开发者提供了全面的API,使得处理PDF文档变得简单高效。在这...
安装完成后,重新启动电脑,打印机中就有导出WPS PDF虚拟打印机了。 自解压文件里面只有7个文件。文件大小1.62MB,不到2M的大小。 其中6个是C:\Windows\system32\spool\DRIVERS\x64\3文件夹中的必要系统文件, 主要...
PDF.js和PDF.Worker.js是Mozilla开发的开源库,用于在Web浏览器中渲染PDF文档,无需依赖任何插件。这两个JavaScript文件是实现HTML页面加载和显示PDF的关键组件,提供了纯JavaScript解决方案来处理PDF文档。 PDF.js...
在IT行业中,转换文档格式是一项常见的任务,例如将Word文档转换为PDF。在这个场景中,我们看到一个关于如何使用Java编程语言实现此功能的资源包:“利用poi+itextpdf进行word转pdf.rar”。这个压缩包包含源码、依赖...
PDFlib是一个强大的库,用于创建、编辑和处理PDF(Portable Document Format)文件。在这个场景中,我们关注的是如何使用PDFlib_com,一个基于VB(Visual Basic)的接口,来导入PDF书签文件并修改PDF文档的属性信息...
PDF.js 是一个由 Mozilla 维护的开源库,专门用于在 Web 浏览器中显示 PDF 文档。这个库利用 JavaScript 实现了 PDF 文件的解析和渲染,使得开发者能够在 HTML 页面上实现 PDF 的在线预览功能,而无需依赖任何插件。...
在.NET环境中,C#开发人员经常需要处理PDF文档,包括生成PDF、读取PDF文本以及提取PDF中的图像。为了实现这些功能,通常会借助于第三方库或DLL,因为.NET框架本身并不内置完整的PDF处理能力。本教程将详细介绍如何...