`
zhuyufufu
  • 浏览: 138317 次
  • 性别: Icon_minigender_1
  • 来自: 南京
社区版块
存档分类
最新评论

文档展示:PDFBox 将PDF转换为图片

阅读更多
  项目用到了前端展示文档的功能。

   原有实现为服务器端:FlashPaper2 + java,前端flash控件接收swf流输出。但是当服务器升级为64位以后,服务器端的FlashPaper2再也配不起来了。

   Boss要求实现文档展示功能,并且要求能够控制客户下载文档。

   我想了下能不能不用flash或别的插件来达到要需求,这样就对客户端没啥必装的插件之类的要求了。

   前端不做处理,就只有在后端做处理了!

   大体想法为:

        1.对于普通文本文档直接输出到前端
    
        2.对于PDF PPT 图片等转换为图片展示到前端

        3.对于DOC类型的文档看能不能转换为图片,不行的话就先转换为PDF再转图片

        4.对于性能问题等功能实现了再调优

   该功能的难点在文档转图片,在此做出预研。

PDF转图片使用了apache的PDFBox组件1.8.3版本

功能演示代码:

package com.zas.pdf.demo;

import java.awt.image.BufferedImage;
import java.io.File;
import java.io.IOException;
import java.util.List;

import javax.imageio.ImageIO;

import org.apache.pdfbox.pdmodel.PDDocument;
import org.apache.pdfbox.pdmodel.PDPage;

/**
 * @author zas
 * PDF转换为图片工具类
 */
public class PDFConvertToImage {
	
	static String filePath = "D:\\pdf\\java多线程编程.pdf";
	static String outputFilePath = "D:\\pdf\\java\\";

	/**
	 * 将输入的PDF文件转换为图片
	 * @param inputFile 输入的PDF文件
	 * @param outputFolder 图片输出目录
	 * @throws IOException
	 */
	public static void change(File inputFile, File outputFolder) throws IOException {
		//TODO 校验输入文件是否存在 以及是否为PDF
		//TODO 对于PDF加密后的处理
		PDDocument doc = null;
		try {
			doc = PDDocument.load(inputFile);
			List<PDPage> allPages = doc.getDocumentCatalog().getAllPages();
			for (int i = 0; i < allPages.size(); i++) {
				PDPage page = allPages.get(i);
				page.convertToImage();
				BufferedImage image = page.convertToImage();
				ImageIO.write(image, "jpg", new File(outputFolder.getAbsolutePath() + File.separator + (i + 1) + ".jpg"));
			}
		} finally {
			if (doc != null) {
				doc.close();
			}
		}
	}
	
	public static void main(String[] args) {
		File inputFile = new File(PDFConvertToImage.filePath);
		File outputFolder = new File(PDFConvertToImage.outputFilePath);
		if(!outputFolder.exists()){
			outputFolder.mkdirs();
		}
		try {
			PDFConvertToImage.change(inputFile, outputFolder);
		} catch (IOException e) {
			e.printStackTrace();
		}
	}
}



问题:

当PDF文档为180M大小时直接报解析异常

当PDF页数为500多页时处理非常慢

后期在处理这两个问题
0
0
分享到:
评论

相关推荐

    PDFBox pdf 转换为word文档

    在这个特定的场景中,我们关注的是使用PDFBox将PDF文档转换为Word文档的功能。 PDF到Word的转换是一个常见的需求,因为尽管PDF格式在保持文档样式和布局方面非常出色,但有时用户可能需要在Word中进行编辑或进一步...

    pdfbox 提取 pdf文件中的图片

    1.将一个PDF文档转换输出为一个文本文件。 2.可以从文本文件创建一个PDF文档。 3.加密/解密PDF文档。 4.向已有PDF文档中追加内容。 5.可以从PDF文档生成一张图片。 6.可以与Jakarta Lucene搜索引擎的整合。 这个小...

    轻松使用apache pdfbox将pdf文件生成图片.pdf

    总之,Apache PDFBox是一个强大的工具,可以帮助开发者高效地处理PDF文档,包括将PDF转换为图片。虽然在处理某些特定情况(如中文PDF)时可能会遇到挑战,但通过正确的配置和处理,可以克服这些困难。

    利用ITEXT、PDFBOX将PDF转为图片

    PDF转换为图片是一种常见的需求,特别是在处理PDF文档的可视化展示或者需要进行网页嵌入时。在Java编程环境中,我们可以利用ITEXT和PDFBOX这两个库来实现这个功能。这两个库都是处理PDF的强大工具,各有其特点和优势...

    java用poi转ppt为图片和用pdfbox转pdf为图片的demo

    "java用pdfbox转pdf为图片"的过程与POI类似,但涉及到的是PDF文档。PDFBox提供了丰富的API来读取和操作PDF文件。 1. 引入PDFBox库:在项目中引入`pdfbox`, `fontbox`和`pdfbox-tools`等相关依赖。 2. 打开PDF文件...

    PDFbox IcePdf pdf转图片

    在提供的jar包中,`PdfToImage`可能是一个示例程序,演示了如何使用PDFbox或IcePdf将PDF转换为图片。通过运行这个程序并根据需要调整代码,你可以轻松地将多页PDF转换为一系列的图片文件。 总结来说,PDFbox和...

    【Java】基于Pdfbox解析PDF文档中指定位置的文字和图片

    Split & Merge – 使用PDFBox,您可以将单个PDF文件分成多个文件,并将它们合并为一个文件。 Fill Forms – 使用PDFBox,您可以在文档中填写表单数据。 Print – 使用PDFBox,您可以使用标准Java打印API打印PDF文件...

    pdfbox 解析pdf里的图片和文字

    你可以创建一个`PDFTextStripper`实例,然后调用`writeText()`方法,将PDF文档转换为纯文本输出。 例如: ```java PDFTextStripper stripper = new PDFTextStripper(); String text = stripper.getText(document); ...

    pdfbox读取pdf文档转为高清图片的例子

    以下是一个简单的示例代码片段,展示了如何使用PDFBox将PDF转换为高清图片: ```java import org.apache.pdfbox.pdmodel.PDDocument; import org.apache.pdfbox.rendering.PDFRenderer; import javax.imageio....

    pdfbox和pdfrenderer所需包

    而如果只需要将PDF转换为图像,且对速度和图像质量有较高要求,PDFRenderer则更为合适。在描述中提到,经过测试,PDFRenderer在某些情况下表现更优,这可能是因为它的优化更偏向于图像渲染。 总的来说,这两个库都...

    使用pdfbox将pdf转图片 jar包

    在本案例中,我们关注的是如何利用PDFBox将PDF文档转换为图片。这个过程通常在需要进行PDF预览、截图或者在不支持PDF格式的环境中展示内容时非常有用。 PDFBox提供了`org.apache.pdfbox.pdmodel.PDDocument`类来...

    pdfbox1.8.9实例图片转pdf和pdf转图片

    PDFBox是Apache软件基金会的一个开源项目,用于处理PDF文档。在这个实例中,我们关注的是PDFBox 1.8.9版本,它提供了处理PDF与图片相互转换的功能。PDFBox库在Java开发环境中非常实用,可以帮助开发者进行PDF文档的...

    pdfbox-1.8 java端转pdf为图片的jar及帮助文档

    总结一下,PDFBox-1.8是Java开发者处理PDF文档的强大工具,其核心功能之一就是将PDF转换为图片。这个资源包含了执行此操作所需的所有库,使得开发者无需担心额外的依赖问题。通过理解并运用PDFBox提供的API,你可以...

    pdfbox转图片所需字体

    在使用PDFBox将PDF转换为图片的过程中,可能会遇到一个问题,即转换后的图片显示的文字不完整或者丢失。这通常是由于PDF文档中使用的某些字体在目标系统(如操作系统或PDFBox运行的环境)中不存在造成的。为了解决这...

    pdf转换成为图片需要的两个jar

    总的来说,PDFBox和FontBox是Java开发者处理PDF文档的强大工具,它们不仅可以帮助我们将PDF转换为图片,还可以进行更复杂的PDF操作,如文本提取、表单填写、签名验证等。了解并熟练使用这两个库,对于提升PDF相关...

    pdfbox最新版

    8. **OCR集成**:虽然PDFBox本身不包含OCR(光学字符识别)功能,但可以通过与其他OCR库如Tesseract集成,将扫描的PDF文档转换为可搜索的文本。 9. **线程安全**:PDFBox的设计考虑到了多线程环境,许多方法都是...

    java显示PDF:将PDF文件转换成图片,然后显示出来

    总结起来,Java显示PDF文件的方法是利用第三方库,如Apache PDFBox,将PDF转换为图片后进行显示。这既满足了基本的显示需求,又避免了直接处理PDF的复杂性。然而,这种方法并不适合需要编辑或与PDF内容交互的场合。...

    java使用pdfbox打印PDF

    4. 创建`PDPageable`对象:这是PDFBox提供的一种接口,用于将PDF文档转换为可以打印的页面序列。 ```java PDPageable pageable = document.asPageable(); ``` 5. 实例化`PrinterJob`:使用Java的`PrinterJob`类...

    [Java]PDF转图片解决中文乱码.zip

    Java中的PDFBox库是一个强大的工具,专门用于处理PDF文档,包括将PDF转换为图像。在这个特定的压缩包文件中,"PDF2img"是一个基于PDFBox开发的DEMO,它设计用于解决PDF转图片时可能出现的中文乱码问题。 PDFBox是...

    轻松使用apache pdfbox将pdf文件生成图片.docx

    总结来说,Apache PDFBox 是一个强大的 PDF 处理工具,尤其适用于将 PDF 文件转换为图片。然而,处理含有中文字符的 PDF 文件时需要额外的注意事项和资源。在进行文件转换时,根据不同的需求选择合适的库和工具是至...

Global site tag (gtag.js) - Google Analytics