0 0

pdfbox25

各位好:
   我需要实现的功能如下:
       获取pdf文件中的图片,然后根据这个图片,获取图片上下两行的文本数据。
   
   目前可以提取,每一页的图片,和他的文本信息。但是无法定位到  上下两行。
  
    有没有大虾做过的,或者给他建议。

我找api 找了很久, 但是由于英文很烂,pdfbox的对象模型太多了。也没找到一个从上到下遍历一个页面 的方法。
2013年7月23日 22:49

1个答案 按时间排序 按投票排序

0 0

采纳的答案

pdfbox没有获取行号的api,所以你所说的功能无法实现,但是有个替代的方法,你翻下http://wenku.baidu.com/view/6e39e18783d049649b66582f.html,第17页,org.apache.pdfbox.examples.util.PrintImageLocations这个类会告诉你如何获取一个图片的位置,org.apache.pdfbox.examples.util.ExtractTextByArea告诉你如何获取一个区域的文字,你先获取图片位置,根据字体大小估算上两行的text位置,然后计算出上两行text所在的区域,获取该区域的text,同理,可以获取图片下两行text的位置。

2013年7月24日 17:33

相关推荐

    PDFBox-2.0.19 for .Net | c#用PDFBox解析PDF

    pdfbox for .Net目前的最新版PDFBox-2.0.19 用法: 将压缩包内所有dll拷贝到项目编译目录, 在项目中引用 IKVM.OpenJDK.Core.dll IKVM.OpenJDK.SwingAWT.dll pdfbox-app-2.0.19.dll 在代码中引入命名空间using org....

    pdfbox-1.2.1源码下载

    PDFBox是Apache软件基金会的一个开源项目,主要用于处理PDF(Portable Document Format)文档。在这个特定的版本,即PDFBox-1.2.1,用户可以获取到项目的源代码,这对于开发者来说是一个宝贵的资源,因为它提供了...

    pdfbox使用jar包

    PDFBox是Apache软件基金会的一个开源项目,主要用于处理PDF(Portable Document Format)文档。这个库提供了丰富的API,使得开发者能够创建、编辑、阅读和打印PDF文件。在这个场景中,提到的"pdfbox使用jar包"指的是...

    pdfbox-2.0.8.jar,fontbox-2.0.8.jar,pdfbox-tools-2.0.8.jar

    PDFBox是Apache软件基金会开发的一个开源Java库,用于处理PDF(Portable Document Format)文档。这个库提供了丰富的API,使得开发者可以方便地创建、修改、读取和操作PDF文档。在这个压缩包中,我们找到了三个核心...

    pdfbox所需jar包

    PDFBox是Apache软件基金会开发的一个开源Java库,用于处理PDF(Portable Document Format)文档。它提供了许多功能,包括创建、编辑、阅读、提取文本和图像,以及签署PDF文档。在这个场景中,"pdfbox所需jar包"指的...

    pdfbox,pdfbox,pdfbox

    PDFBox是Apache软件基金会的一个开源项目,专门用于处理PDF(Portable Document Format)文档的Java库。这个库提供了广泛的API,让开发者能够创建、修改、提取和显示PDF文档内容。PDFBox 1.6.0是该库的一个版本,...

    pdfbox-1.8.2.jar

    PDFBox是Apache软件基金会开发的一个开源Java库,用于处理PDF(Portable Document Format)文档。`pdfbox-1.8.2.jar`是该库的一个版本,主要用于在Java应用程序中进行PDF文档的创建、读取、修改和转换。下面将详细...

    C#使用PDFBox读取PDF

    PDFBox是一个开源的Java库,主要用于处理PDF文档,但也可以通过.NET平台的Java interop技术在C#中使用。本篇文章将详细介绍如何在C#环境中利用PDFBox库来读取PDF文件的内容,并将其转换为TXT格式进行保存。 首先,...

    pdfbox1.8.3.dll C#

    PDFBox是Apache软件基金会的一个开源项目,主要用于处理PDF文档。在C#环境下,开发者通常需要借助第三方库来处理PDF文件,因为.NET Framework原生并不支持PDF操作。在本例中,我们关注的是一个名为"pdfbox1.8.3.dll...

    java使用pdfbox打印PDF

    为了解决这个问题,我们可以借助开源库如PDFBox。在这个场景中,我们使用的PDFBox版本是2.0.8,它是一个强大的工具,能够帮助开发者读取、创建、编辑PDF文档,并且提供了打印功能。 PDFBox是由Apache软件基金会开发...

    PDFBox pdf 转换为word文档

    PDFBox是Apache软件基金会开发的一个开源Java库,用于处理PDF(Portable Document Format)文档。它提供了丰富的API,允许开发者在应用程序中创建、编辑、读取和转换PDF文档。在这个特定的场景中,我们关注的是使用...

    最新pdfbox1.7.1和依赖包fontbox1.7.1

    PDFBox是Apache软件基金会开发的一个开源Java库,用于处理PDF(Portable Document Format)文档。它提供了许多功能,包括创建、编辑、阅读、提取文本、图像以及签署PDF文档。在这个特定的压缩包中,包含了PDFBox的...

    pdfbox转图片所需字体

    PDFBox是Apache软件基金会开发的一个Java库,用于处理PDF文档。在使用PDFBox将PDF转换为图片的过程中,可能会遇到一个问题,即转换后的图片显示的文字不完整或者丢失。这通常是由于PDF文档中使用的某些字体在目标...

    apache.pdfbox 所需架包 1.8版本

    Apache PDFBox是一款开源的Java库,专用于处理PDF(Portable Document Format)文件。这个1.8版本的PDFBox包含了所有必要的组件,可以帮助开发者解析PDF文档并将其转换为文本格式,如TXT。PDFBox的主要功能包括读取...

    pdfbox的所有的扩展jar包

    PDFBox是Apache软件基金会的一个开源项目,用于处理PDF文档。这个压缩包包含了PDFBox的全部扩展JAR包,专门用于解决在PDF转图片过程中可能出现的字体、图形和其他复杂元素的处理问题。PDFBox的核心功能包括读取、...

    pdfbox 解析pdf里的图片和文字

    PDFBox是Apache软件基金会的一个开源项目,专门用于处理PDF文档的Java库。它提供了一系列强大的API,使得开发者能够轻松地读取、创建、修改和显示PDF文档中的内容。在这个场景中,我们将关注如何使用PDFBox解析PDF...

    PDFBox PDF处理类库 v3.0.0 alpha2.zip

    PDFBox是Apache软件基金会的一个开源项目,专门用于处理PDF(Portable Document Format)文档的Java类库。这个压缩包“PDFBox PDF处理类库 v3.0.0 alpha2.zip”包含的是PDFBox的最新预发布版本,即v3.0.0的alpha2...

    PDF转HTML文件用到的pdfbox文件的jar包

    PDFBox是Apache软件基金会的一个开源项目,专门用于处理PDF文档的Java库。它提供了一系列API,使得开发人员能够创建、编辑、读取和转换PDF文件。在这个特定的场景中,我们关注的是PDFBox如何被用来将PDF转换为HTML...

    适用于C#的PDFBox-dll(1.8.9 Net版)

    本资源是已编译好,最新版PDFbox1.8.9,直接用于C# 1、在代码中引用 IKVM.OpenJDK.Core.dll IKVM.OpenJDK.SwingAWT.dll pdfbox-1.8.9.dll 2、将下列DLL复制到程序编译目录 commons-logging.dll fontbox-1.8.9.dll ...

    pdfbox 提取 pdf文件中的图片

    PDFBox是一个开源的可以操作PDF文档的Java PDF类库。它可以创建一个新PDF文档,操作现有PDF文档并提取文档中的内容。 它具有以下特性: 1.将一个PDF文档转换输出为一个文本文件。 2.可以从文本文件创建一个PDF文档。 ...

Global site tag (gtag.js) - Google Analytics