-
pdfbox25
各位好:
我需要实现的功能如下:
获取pdf文件中的图片,然后根据这个图片,获取图片上下两行的文本数据。
目前可以提取,每一页的图片,和他的文本信息。但是无法定位到 上下两行。
有没有大虾做过的,或者给他建议。
我找api 找了很久, 但是由于英文很烂,pdfbox的对象模型太多了。也没找到一个从上到下遍历一个页面 的方法。2013年7月23日 22:49
1个答案 按时间排序 按投票排序
-
采纳的答案
pdfbox没有获取行号的api,所以你所说的功能无法实现,但是有个替代的方法,你翻下http://wenku.baidu.com/view/6e39e18783d049649b66582f.html,第17页,org.apache.pdfbox.examples.util.PrintImageLocations这个类会告诉你如何获取一个图片的位置,org.apache.pdfbox.examples.util.ExtractTextByArea告诉你如何获取一个区域的文字,你先获取图片位置,根据字体大小估算上两行的text位置,然后计算出上两行text所在的区域,获取该区域的text,同理,可以获取图片下两行text的位置。
2013年7月24日 17:33
相关推荐
pdfbox for .Net目前的最新版PDFBox-2.0.19 用法: 将压缩包内所有dll拷贝到项目编译目录, 在项目中引用 IKVM.OpenJDK.Core.dll IKVM.OpenJDK.SwingAWT.dll pdfbox-app-2.0.19.dll 在代码中引入命名空间using org....
PDFBox是Apache软件基金会的一个开源项目,主要用于处理PDF(Portable Document Format)文档。在这个特定的版本,即PDFBox-1.2.1,用户可以获取到项目的源代码,这对于开发者来说是一个宝贵的资源,因为它提供了...
PDFBox是Apache软件基金会的一个开源项目,主要用于处理PDF(Portable Document Format)文档。这个库提供了丰富的API,使得开发者能够创建、编辑、阅读和打印PDF文件。在这个场景中,提到的"pdfbox使用jar包"指的是...
PDFBox是Apache软件基金会开发的一个开源Java库,用于处理PDF(Portable Document Format)文档。这个库提供了丰富的API,使得开发者可以方便地创建、修改、读取和操作PDF文档。在这个压缩包中,我们找到了三个核心...
PDFBox是Apache软件基金会开发的一个开源Java库,用于处理PDF(Portable Document Format)文档。它提供了许多功能,包括创建、编辑、阅读、提取文本和图像,以及签署PDF文档。在这个场景中,"pdfbox所需jar包"指的...
PDFBox是Apache软件基金会的一个开源项目,专门用于处理PDF(Portable Document Format)文档的Java库。这个库提供了广泛的API,让开发者能够创建、修改、提取和显示PDF文档内容。PDFBox 1.6.0是该库的一个版本,...
PDFBox是Apache软件基金会开发的一个开源Java库,用于处理PDF(Portable Document Format)文档。`pdfbox-1.8.2.jar`是该库的一个版本,主要用于在Java应用程序中进行PDF文档的创建、读取、修改和转换。下面将详细...
PDFBox是一个开源的Java库,主要用于处理PDF文档,但也可以通过.NET平台的Java interop技术在C#中使用。本篇文章将详细介绍如何在C#环境中利用PDFBox库来读取PDF文件的内容,并将其转换为TXT格式进行保存。 首先,...
PDFBox是Apache软件基金会的一个开源项目,主要用于处理PDF文档。在C#环境下,开发者通常需要借助第三方库来处理PDF文件,因为.NET Framework原生并不支持PDF操作。在本例中,我们关注的是一个名为"pdfbox1.8.3.dll...
为了解决这个问题,我们可以借助开源库如PDFBox。在这个场景中,我们使用的PDFBox版本是2.0.8,它是一个强大的工具,能够帮助开发者读取、创建、编辑PDF文档,并且提供了打印功能。 PDFBox是由Apache软件基金会开发...
PDFBox是Apache软件基金会开发的一个开源Java库,用于处理PDF(Portable Document Format)文档。它提供了丰富的API,允许开发者在应用程序中创建、编辑、读取和转换PDF文档。在这个特定的场景中,我们关注的是使用...
PDFBox是Apache软件基金会的一个开源项目,主要用于处理PDF(Portable Document Format)文档。这个压缩包“PDFBox-0.7.3.rar”包含了版本0.7.3的PDFBox库,该版本可能发布于若干年前,因为当前的PDFBox版本已经更新...
PDFBox是Apache软件基金会开发的一个开源Java库,用于处理PDF(Portable Document Format)文档。它提供了许多功能,包括创建、编辑、阅读、提取文本、图像以及签署PDF文档。在这个特定的压缩包中,包含了PDFBox的...
PDFBox是Apache软件基金会开发的一个Java库,用于处理PDF文档。在使用PDFBox将PDF转换为图片的过程中,可能会遇到一个问题,即转换后的图片显示的文字不完整或者丢失。这通常是由于PDF文档中使用的某些字体在目标...
Apache PDFBox是一款开源的Java库,专用于处理PDF(Portable Document Format)文件。这个1.8版本的PDFBox包含了所有必要的组件,可以帮助开发者解析PDF文档并将其转换为文本格式,如TXT。PDFBox的主要功能包括读取...
PDFBox是Apache软件基金会的一个开源项目,用于处理PDF文档。这个压缩包包含了PDFBox的全部扩展JAR包,专门用于解决在PDF转图片过程中可能出现的字体、图形和其他复杂元素的处理问题。PDFBox的核心功能包括读取、...
PDFBox是Apache软件基金会的一个开源项目,专门用于处理PDF文档的Java库。它提供了一系列强大的API,使得开发者能够轻松地读取、创建、修改和显示PDF文档中的内容。在这个场景中,我们将关注如何使用PDFBox解析PDF...
PDFBox是Apache软件基金会的一个开源项目,专门用于处理PDF文档的Java库。它提供了一系列API,使得开发人员能够创建、编辑、读取和转换PDF文件。在这个特定的场景中,我们关注的是PDFBox如何被用来将PDF转换为HTML...
PDFBox是Apache软件基金会的一个开源项目,专门用于处理PDF(Portable Document Format)文档的Java类库。这个压缩包“PDFBox PDF处理类库 v3.0.0 alpha2.zip”包含的是PDFBox的最新预发布版本,即v3.0.0的alpha2...
PDFBox是Apache软件基金会的一个开源库,主要用于处理PDF(Portable Document Format)文件。在C#环境中,虽然PDFBox原生是Java库,但通过PInvoke或.NET封裝,可以将其功能引入到C#项目中。本篇文章将详细介绍如何...