`

PDF BOX读取PDF内容

阅读更多

使用 PDF BOX 读取 PDF,下载地址:sourceforge里搜索就有了.

package com.pdfbox.pdf;

import java.io.InputStream;

import org.pdfbox.pdfparser.PDFParser;
import org.pdfbox.util.PDFTextStripper;

/**
 * 使用 PDFBOX插件读取PDF
 * @author LGF
 *
 */
public class ReadPDF {

	public static void main(String[] args) throws Exception {
		//获取输入流
		InputStream input = getInputStream("MyBatis3.2.2中文官方文档.pdf"); 
		//创建解析对象
		PDFParser parser = new PDFParser(input);
		//解析
		parser.parse();
		//创建 PDFTextStripper 对象
		PDFTextStripper ts = new PDFTextStripper();
		System.out.println("start page :" + ts.getStartPage());
		System.out.println("end page :" + ts.getEndPage());
		//获取文本
		String text = ts.getText(parser.getPDDocument());
		String[] texts = text.split("\r\n");
		int index = 1;
		/*
		 * 如果你想一行一行的读取怎么办?
		 * Ok ,可以加入以下代码,分割就好了
		 */
		for (String string : texts) {
			System.out.println(index+":"+string);
			index++;
			if (index==100)return;
		}
		//释放资源
		input.close();
	}

	/**
	 * 获取 class path 中的文件流
	 * @param name 名称
	 * @return InputStream 
	 */
	public static InputStream getInputStream(String name){
		return Thread.currentThread().getContextClassLoader().getResourceAsStream(name);
	}
}

 

 

分享到:
评论

相关推荐

    java读取pdf的文字、图片、线条和对应坐标

    pdf文档的内容都是坐标定位的,文档内容主要包含文本、图片、线条;需要用到pdfbox和pdf2dom两个依赖包

    JAVA基于PDF box将PDF转为图片的实现方法

    本文的描述“主要介绍了JAVA基于PDF Box将PDF转为图片的操作方法,本文给大家介绍的非常详细,具有一定的参考借鉴价值,需要的朋友可以参考下”主要强调了本文的主要内容,即使用JAVA语言基于PDF Box库将PDF文件转换...

    pdfbox 提取 pdf文件中的图片

    它可以创建一个新PDF文档,操作现有PDF文档并提取文档中的内容。 它具有以下特性: 1.将一个PDF文档转换输出为一个文本文件。 2.可以从文本文件创建一个PDF文档。 3.加密/解密PDF文档。 4.向已有PDF文档中追加内容。 ...

    pdfbox java解析pdf文档jar包+源代码+帮助文档+example

    2. **解析PDF内容**:通过`PDFTextStripper`类,可以将PDF文档中的文本提取出来。这在数据挖掘或文本分析场景中非常有用。此外,`PDPageContentStream`允许你解析并理解PDF的绘图指令,从而获取图形和图像信息。 3....

    PDF插件:Quite a Box of Tricks 1.6汉化版

    用户可以快速获取PDF中使用的特定图像或字体的详细信息,这对于版权确认、兼容性问题排查等方面具有重要意义。 总而言之,“Quite a Box of Tricks 1.6汉化版”以其丰富的功能,满足了用户在处理PDF文件时的多样化...

    java实现PDF签章功能

    在给定的压缩包"pdf签章示例_java"中,可能包含以下内容: - Java源代码:展示了如何使用Box和iText库实现PDF签章的示例程序。 - PDF文件:可能包含待签章的PDF文档。 - 证书文件:.p12或.jks文件,用于存放私钥和...

    读取pdf的位置

    要获取PDF中的文字坐标,我们需要解析PDF内容流,识别出绘制文本的指令。在PDF中,这些指令通常使用`BT`(Begin Text Object)和`ET`(End Text Object)标记一个文本块的开始和结束,中间的`TJ`或`TD`指令则用来...

    【Java】基于Pdfbox解析PDF文档中指定位置的文字和图片

    Apache PDFBox是一个开源Java库,支持PDF文档的开发和转换。 我们可以使用PDFBox开发可以创建,转换和操作PDF文档的Java程序。PDFBox的主要功能: Extract Text – 使用PDFBox,您可以从PDF文件中提取Unicode文本。 ...

    wpf读取PDF

    总结起来,要在WPF中读取PDF,开发者可以利用第三方库或者.NET Framework自带的类,通过各种方式将PDF内容呈现在WPF界面中。选择合适的方法取决于项目需求、性能考虑以及是否愿意接受第三方库的约束。

    PDFBox PDF处理类库 v2.0.25.zip

    2. **读取PDF文档**:它允许程序读取PDF文档中的文本、图像和其他元素,支持页面遍历、内容提取、元数据获取等功能。 3. **编辑PDF文档**:PDFBox提供了修改现有PDF文档的能力,如更新文本、替换图像、添加或删除...

    c#实现PDF阅读器功能,能够正常运行阅读PDF文件

    这些库提供了处理PDF文档的API,包括读取、解析和显示PDF内容。 iTextSharp库主要用于创建、修改和阅读PDF文件。要使用它,首先需要在项目中添加引用。通过NuGet包管理器,可以方便地安装iTextSharp库。然后,可以...

    运用pdflib库操作pdf排版例程

    PDFLib允许我们设置裁剪盒(Crop Box)、艺术盒(Art Box)等不同的区域,来定义页面的实际内容范围。通过`PDF_set_parameter()`函数,我们可以设置页边距,例如减小页边距以减少打印浪费。这可能涉及到计算新的裁剪...

    如何通过vue3和vite实现在线预览pdf功能,供大家学习研究参考

    } function pageZoomIn() { if (state.scale > 0.8) { state.scale -= 0.1; } } onMounted(() => { pdfjsLib.GlobalWorkerOptions.workerSrc = "./pdf.worker.js";... box-sizing: border-box; background-c

    Rockchip-Box盒子常见问题说明文档.pdf

    获取系统权限和默认rooted系统的内容则涉及了如何进行系统级别的操作和设置。 在系统分区调整方面,文档讨论了如何根据需要调整分区大小。屏幕旋转的设置可以帮助用户根据需要改变显示方向。LED指示灯控制部分则...

    C# pdfbox解析pdf文字及图片(源码)

    1. **获取流对象**:PDFBox提供了`PdfStamper`和`PdfReader`类,可以从PDF中获取图像的`PRStream`对象。 ```csharp using iTextSharp.text.pdf.parser; // 获取指定页码的图像 PdfDictionary dict = reader....

    用VB代码生成PDF文件

    PDFBox是Apache的一个开源项目,用于处理PDF文档,提供了读取、写入和修改PDF的功能。 - **PDF_In_The_Box.dll**:这可能是一个DLL动态链接库文件,为VB应用程序提供了与PDF文件交互的接口,允许程序创建、编辑和...

    quite a box of tricks 1.8

    综上所述,"Quite a Box of Tricks 1.8" 提供了一整套工具,特别是针对PDF处理的增强功能,使得用户在处理PDF文件时更加便捷高效。通过安装qbox180.exe,用户可以将这些功能集成到自己的计算机环境中,并通过Readme-...

    box2d中文教程.pdf

    - **参考资料**:建议阅读 Chris Hecker 和 David Baraff 的教程,以及利用 Wikipedia 获取物理和数学知识。 #### 三、核心概念详解 - **刚体 (Rigidbody)**:刚体是指一块极其坚硬的物质,其上的任意两点间的距离...

    box2d manual pdf

    开发者可以通过参与社区讨论,获取最新的开发技巧和解决方案。同时,Box2D的问题跟踪系统也是报告错误和请求新功能的重要渠道。 五、结语 Box2D作为一款成熟的2D物理引擎,为游戏开发提供了强大的物理仿真工具。...

    Python实现给PDF加骑缝章效果源代码

    page_width, page_height = pdf_file.getPage(0).mediaBox.getWidth(), pdf_file.getPage(0).mediaBox.getHeight() x = page_width * 0.9 # 右侧位置 y = (page_height - seal.height) / 2 # 中部位置 # 将印章添加...

Global site tag (gtag.js) - Google Analytics