- 浏览: 793867 次
- 性别:
- 来自: 大连
文章分类
- 全部博客 (417)
- ASP.NET MVC (18)
- WEB基础 (24)
- 数据库 (69)
- iPhone (20)
- JQuery (3)
- Android (21)
- UML (8)
- C# (32)
- 移动技术 (19)
- 条码/RFID (6)
- MAC (8)
- VSS/SVN (6)
- 开卷有益 (4)
- 应用软件 (1)
- 软件工程 (1)
- java/Eclipse/tomcat (61)
- 英语学习 (2)
- 综合 (16)
- SharePoint (7)
- linux (42)
- Solaris/Unix (38)
- weblogic (12)
- c/c++ (42)
- 云 (1)
- sqlite (1)
- FTp (2)
- 项目管理 (2)
- webservice (1)
- apache (4)
- javascript (3)
- Spring/Struts/Mybatis/Hibernate (4)
- 航空业务 (1)
- 测试 (6)
- BPM (1)
最新评论
-
dashengkeji:
1a64f39292ebf4b4bed41d9d6b21ee7 ...
使用POI生成Excel文件,可以自动调整excel列宽等(转) -
zi_wu_xian:
PageOffice操作excel也可以设置表格的行高列宽,并 ...
使用POI生成Excel文件,可以自动调整excel列宽等(转) -
wanggang0321:
亲,我在pptx(office2007以上版本)转pdf的时候 ...
JODConverter]word转pdf心得分享(转) -
xiejanee:
楼主:你好!我想请问下 你在代码中用DOMDocument* ...
Xerces-C++学习之——查询修改XML文档 (转)
http://www.cnblogs.com/q149072205/archive/2011/05/20/2051708.html
http://www.cnblogs.com/blodfox777/archive/2009/03/11/1408568.html
http://www.51aspx.com/SMore/%E5%85%B3%E9%94%AE%E8%AF%8D%E6%8F%90%E5%8F%96.html
Aspose.OCR for .NET实现从PDF文件中提取文本和图片(2011-07-21 11:29:00)
然而,Aspose.OCR for .NET的出现消除了该限制。在这篇文章中,通过分享一些细节来阐述如何一起使用Aspose.OCR for .NET和Aspose.Pdf for .NET这两款组件,以提取PDF文件中的所有文字。
目前, Aspose.OCR for .NET允许你提取TIFF和BMP图像中的文字。它支持Arial和Times New Roman字体,以及16pt/32pt号字体。在Aspose.OCR for .NET以后的版本中,会不断添加新字体和其他属性的支持。
为了从PDF文件和图像中完整地提取文字,你必须要经过以下三个步骤:
* Extract Text from the PDF File
* Extract Images from the PDF File
* Extract Text from the Images
使用Facades中的PdfExtractor或者DOM API,可将文字从PDF文件中提取出来。请参阅以下题目中的代码示例,以便了解从PDF文件中提取文字的相关操作:
*
提取图像也有两种方法: Facades or DOM API. 查看下列题目中的内容可进一步了解详情
:
*
一旦使用上述两种方法之一成功提取图像,接下来就应该从这些图像中提取文字。下面的代码片断可以帮助您从图像中提取文字:
//initialize OcrEngine
OcrEngine ocrEngine = new OcrEngine();
//set the image
ocrEngine.Image = ImageStream.FromFile(“image.bmp”);
//add language and other attributes
ocrEngine.Languages.AddLanguage(Language.Load(“english”));
ocrEngine.Config.NeedRotationCorrection = false;
ocrEngine.Config.UseDefaultDictionaries = true;
//load the resource file
ocrEngine.Resource = new FileStream(“2011.07.02 v1.0 Aspose.OCR.Resouces.zip”, FileMode.Open);
//process the whole image
if (ocrEngine.Process())
{
Console.WriteLine(“Text :{0}”,ocrEngine.Text);
}
有关从图像中提取文字和以上示例所涉及的源文件的更多详情,请参考:
* Extract Text from PDF using FacadesExtract Images from PDF using DOM API
* Extract Images from PDF using FacadesPerform OCR on Image
* Extract Images from the PDF File
* Extract Text from the Images
* Extract Text from PDF using Facades
:
* Extract Images from PDF using Facades
OcrEngine ocrEngine = new OcrEngine();
//set the image
ocrEngine.Image = ImageStream.FromFile(“image.bmp”);
ocrEngine.Languages.AddLanguage(Language.Load(“english”));
ocrEngine.Config.NeedRotationCorrection = false;
ocrEngine.Config.UseDefaultDictionaries = true;
ocrEngine.Resource = new FileStream(“2011.07.02 v1.0 Aspose.OCR.Resouces.zip”, FileMode.Open);
if (ocrEngine.Process())
{
Console.WriteLine(“Text :{0}”,ocrEngine.Text);
}
有关从图像中提取文字和以上示例所涉及的源文件的更多详情,请参考:Perform OCR on Image
发表评论
-
invoke
2013-03-15 15:53 0object Object.Invoke(Delegate ... -
JQuery的WebServices调用
2013-03-14 14:12 0http://blog.sina.com.cn/s/blog_ ... -
c# list和string
2012-10-26 15:16 989C# List和String互相转换 (2011-06- ... -
.net mysql-connector-net
2012-10-19 11:10 1026引用DLL引用 mysql-connector-net包中的M ... -
c# 操作mysql
2012-10-19 10:21 945using System;using System.Confi ... -
c# DataTable.copy .clone
2012-10-17 18:17 4144C# DataTable.Copy()和.Clone()的使用 ... -
C#中避免相同MDI子窗口重复打开的方法(转)
2012-10-17 13:40 1160方法一: 直接检测 ... -
C# 中使用JSON - DataContractJsonSerializer
2012-10-11 14:47 730http://www.cnblogs.com/coderzh/ ... -
.NET WHERE子句用途
2012-05-04 14:52 1532where 子句用于指定类型约束,这些约束可以作为泛型声明 ... -
c#泛型
2012-05-04 14:51 1069http://hjf1223.cnblogs.com/arch ... -
汉字转换成拼音的类(转)
2012-02-27 16:41 64504引用地址: http://blog.csdn.net/huig ... -
ASP.NET内置对象(转)
2011-12-08 13:53 3166http://www.cnblogs. ... -
asp.net webservice
2011-12-04 15:22 1845asp.net webservice 概述与 ... -
iis发布asp.net网站(转)
2011-11-23 10:32 3369iis发布asp.net 网站 ... -
win7 里配置iis 和asp.net步骤,及发布asp.net网站全程(转)
2011-11-23 10:15 5520分享 win7 里配置 iis 和a ... -
类似Windows Search的文件搜索系统
2011-11-23 09:42 1332转自:http://www.cnblogs.com/wu ... -
操作PDF文档功能的相关开源项目探索—iTextSharp 和PDFBox
2011-11-23 09:40 1993转自www.th7.cn第七城市 操作 PDF 文档功 ... -
iis asp.net安装顺序
2011-11-17 13:47 973如果先安装IIS再安装 .Net Framework。一切OK ... -
IIS配置
2011-11-17 13:18 847http://bbs.51cto.com/thread-488 ... -
[转发贴] .NET WAP开发-WAP2.0篇
2011-11-15 17:39 1950WAP1.1时代是否结束这个不可下定论。但WAP2.0的大面积 ...
相关推荐
PDFView是Android开发中用于显示PDF文件的一种工具,它允许开发者在应用程序中集成PDF阅读功能。这个工具包可能包括源代码和预编译的jar包,使得开发者可以直接将PDF查看功能整合到自己的应用中,无需依赖其他大型库...
对于开发人员来说,处理PDF文件是常见的需求,包括合并PDF、拆分PDF以及将图片转换为PDF。本文将详细讨论使用Spire.Pdf库在C#环境下进行这些操作的知识点。 Spire.Pdf是一款强大的.NET PDF组件,它提供了无限制且...
pdf24 tools是由德国Geek Software公司开发的一款优秀实用且完全免费的PDF工具箱软件,PDF24工具箱包含PDF分割/合并、PDF压缩、PDF编辑器、PDF加密/解密、PDF页面/图像提取、PDF比较、PDF转换、添加PDF水印等多种...
pdf24 tools是由德国Geek Software公司开发的一款优秀实用且完全免费的PDF工具箱软件,PDF24工具箱包含PDF分割/合并、PDF压缩、PDF编辑器、PDF加密/解密、PDF页面/图像提取、PDF比较、PDF转换、添加PDF水印等多种...
使用在线PDF转换工具于线上转换文件,通过电子邮件转换工具以电子邮件转换PDF,或直接使用免费的桌面应用程式PDF24 Creator。 2、大家都可使用的免费PDF软件 从PDF24的软件免费和轻易地创建PDF文件。PDF软件包含了一...
PDFRenderer是一种Java库,用于将PDF文档渲染成位图图像,以便在应用程序中显示或处理。这个技术在Java Swing环境中特别有用,因为它允许开发者在GUI组件,如JFrame,中展示PDF内容。以下是对“PDFRenderer显示PDF...
众所周知PDF文档是大家工作学习中非常常用的一种文档格式,pdf文件是通过虚拟打印各种文件生成的二进制编码格式,由于大部分PDF数据是经过压缩的,使用文本编辑器编辑PDF文件会导致文件损坏或数据偏移,或者在网络...
PDFLib 是一个强大的库,专为开发者设计,用于在各种应用程序中生成、修改和操作PDF文档。这个压缩包包含了一些关键组件,使C++程序员能够轻松地集成PDF处理功能到他们的项目中。以下是对这些组件的详细解释: 1. `...
在Vue.js应用中,预览PDF文件流是一个常见的需求,特别是在处理在线文档或者需要展示PDF内容的场景下。`vue-pdf`是一个强大的插件,它允许我们在Vue组件中轻松地集成PDF预览功能。这个插件是基于PDF.js库构建的,PDF...
标题 "PB数据窗口导出PDF并且合并到一个PDF文件中" 涉及的主要知识点是使用PowerBuilder(PB)这个编程工具,对数据窗口对象进行操作,并将结果以PDF格式导出,最后实现多个PDF文件的合并。在这个过程中,我们不仅...
PDFLIB库是一个强大的C++库,专为生成高质量的PDF文档而设计。它提供了一组丰富的API函数,允许程序员在C++应用程序中直接创建、修改和处理PDF文档。本篇文章将深入探讨如何利用PDFLIB库在C++环境中构建PDF文件。 ...
在Android开发中,有时我们需要在应用中展示PDF文件,但默认的WebView组件并不支持直接打开PDF,这使得开发者需要寻找其他解决方案。"pdfview打开pdf文件,避免android无法通过webview打开pdf文件"这个主题正是关注...
PDF文件格式在IT行业中广泛应用,尤其在文档分享和电子出版领域。`pdfview.ocx`控件是专门用于处理PDF文件的一种组件,它允许开发者在应用程序中集成PDF阅读和操作功能,比如在C#和Wpf这样的环境中。在这个场景中,`...
从文档属性的基本操作到创建您自己的 PDF 查看器和 PDF 编辑器,这款软件满足您的所有需求。 Quick PDF Library 是一款供 PDF 开发人员使用的 SDK,功能强大、无需版税,其中包括超过500个函数,可用于 Delphi、C、...
在这些应用中,有时我们需要集成PDF阅读功能,以便用户能够查看或交互与PDF文档。这就是“Unity读取PDF插件PDFRenderer”发挥作用的地方。 PDFRenderer插件是一个专门针对Unity开发的工具,它允许开发者在Unity环境...
用途:根据PDF模板生成PDF文件,将数据库查询的数据插入到模板指定未知,然后生成新的PDF文件 原理: 代码说明:exprotPDF_Main 为主文件。调用了outpdf1的两个文件的方法。outpdf1里的方法,是通过outpdf2345678这...
PDF.js和PDF.Worker.js是Mozilla开发的开源库,用于在Web浏览器中渲染PDF文档,无需依赖任何插件。这两个JavaScript文件是实现HTML页面加载和显示PDF的关键组件,提供了纯JavaScript解决方案来处理PDF文档。 PDF.js...
PDF.js是一个开源JavaScript库,由Mozilla开发,用于在Web浏览器中渲染PDF文档,无需依赖任何插件。这个库的目标是提供一个与平台和浏览器无关的解决方案,使得用户可以在任何支持HTML5的浏览器上查看PDF文件。本文...
PDFlib是一个强大的库,用于创建、编辑和处理PDF(Portable Document Format)文件。在这个场景中,我们关注的是如何使用PDFlib_com,一个基于VB(Visual Basic)的接口,来导入PDF书签文件并修改PDF文档的属性信息...
在IT行业中,转换文档格式是一项常见的任务,例如将Word文档转换为PDF。在这个场景中,我们看到一个关于如何使用Java编程语言实现此功能的资源包:“利用poi+itextpdf进行word转pdf.rar”。这个压缩包包含源码、依赖...