在平常应用程序中,对office和pdf文档进行读取数据是比较常见的功能,尤其在很多web应用程序中。所以今天我们就简单来看一下java对word、excel、pdf文件的读取。本篇博客只是讲解简单应用。如果想深入了解原理。请读者自行研究一些相关源码。
首先我们来认识一下读取相关文档的jar包:
1. 引用POI包读取word文档内容
poi.jar 下载地址
http://apache.freelamp.com/poi/release/bin/poi-bin-3.6-20091214.zip
http://apache.etoak.com/poi/release/bin/poi-bin-3.6-20091214.zip
http://labs.renren.com/apache-mirror/poi/release/bin/poi-bin-3.6-20091214.zip
2.引用jxl包读取excel文档的内容
Jxl.jar下载地址
http://nchc.dl.sourceforge.net/project/jexcelapi/CSharpJExcel/CSharpJExcel.zip
3.引用PDFBox读取pdf文档的内容
Pdfbox.jar下载地址
http://labs.renren.com/apache-mirror/pdfbox/1.1.0/pdfbox-1.1.0.jar
http://apache.etoak.com/pdfbox/1.1.0/pdfbox-1.1.0.jar
http://apache.freelamp.com/pdfbox/1.1.0/pdfbox-1.1.0.jar
Fontbox.jar下载地址
http://apache.etoak.com/pdfbox/1.1.0/fontbox-1.1.0.jar
http://labs.renren.com/apache-mirror/pdfbox/1.1.0/fontbox-1.1.0.jar
http://apache.freelamp.com/pdfbox/1.1.0/fontbox-1.1.0.jar
Jempbox.jar下载地址
http://labs.renren.com/apache-mirror/pdfbox/1.1.0/jempbox-1.1.0.jar
http://apache.etoak.com/pdfbox/1.1.0/jempbox-1.1.0.jar
http://apache.freelamp.com/pdfbox/1.1.0/jempbox-1.1.0.jar
下面我们就来简单看一下这些jar包的对文档的读取的应用实例:
1. 引用POI包读取word文档内容
[java] view plaincopyprint?
import java.io.File;
import java.io.FileInputStream;
import org.apache.poi.hwpf.HWPFDocument;
import org.apache.poi.hwpf.usermodel.Range;
/**
*
* @author 曹胜欢
*/
public class DocFile{
@Override
public String getContent(File f) throws Exception {
FileInputStream fis = new FileInputStream(f);
HWPFDocument doc = new HWPFDocument(fis);
Range rang = doc.getRange();
String text = rang.text();
fis.close();
return text;
}
2.引用jxl包读取excel文档的内容
[java] view plaincopyprint?
import java.io.File;
import java.io.FileInputStream;
import jxl.Cell;
import jxl.Sheet;
import jxl.Workbook;
/**
*
* @author 曹胜欢
*/
public class XlsFile{
@Override
public String getContent(File f) throws Exception {
//构建Workbook对象, 只读Workbook对象
//直接从本地文件创建Workbook
//从输入流创建Workbook
FileInputStream fis = new FileInputStream(f);
StringBuilder sb = new StringBuilder();
jxl.Workbook rwb = Workbook.getWorkbook(fis);
//一旦创建了Workbook,我们就可以通过它来访问
//Excel Sheet的数组集合(术语:工作表),
//也可以调用getsheet方法获取指定的工资表
Sheet[] sheet = rwb.getSheets();
for (int i = 0; i < sheet.length; i++) {
Sheet rs = rwb.getSheet(i);
for (int j = 0; j < rs.getRows(); j++) {
Cell[] cells = rs.getRow(j);
for(int k=0;k<cells.length;k++)
sb.append(cells[k].getContents());
}
}
fis.close();
return sb.toString();
}
}
由上面代码我们可知:一旦得到了Sheet,我们就可以通过它来访问Excel Cell(术语:单元格)。参考下面的代码片段:
//获取第一行,第一列的值
Cell c00 = rs.getCell(0, 0);
String strc00 = c00.getContents();
//获取第一行,第二列的值
Cell c10 = rs.getCell(1, 0);
String strc10 = c10.getContents();
当你完成对Excel电子表格数据的处理后,一定要使用close()方法来关闭先前创建的对象,以释放读取数据表的过程中所占用的内存空间,在读取大量数据时显得尤为重要。
3.引用PDFBox读取pdf文档的内容
[java] view plaincopyprint?
import java.io.File;
import java.io.FileInputStream;
import org.pdfbox.pdfparser.PDFParser;
import org.pdfbox.pdmodel.PDDocument;
import org.pdfbox.util.PDFTextStripper;
/**
*
* @author 曹胜欢
*/
<pre name="code" class="java">public class PdfFile{
public String getContent(File f) throws Exception {
FileInputStream fis = new FileInputStream(f);
PDFParser p = new PDFParser(fis);
p.parse();
PDDocument pdd = p.getPDDocument();
PDFTextStripper ts = new PDFTextStripper();
String c = ts.getText(pdd);
pdd.close();
fis.close();
return c;
}
}</pre><br>
分享到:
相关推荐
JAVA 读取 WORD_EXCEL_POWERPOINT_PDF 文件的方法(poi) JAVA 读取 WORD_EXCEL_POWERPOINT_PDF 文件的方法是使用 Apache POI 库来实现的。POI 库是一个开放源代码的 Java 库,提供了对 Microsoft Office 文件格式...
Java 读取 Word、PDF 格式文档方法 Java 是一种广泛应用的编程语言,对文档操作是其重要的应用场景之一。本文将介绍 Java 如何读取 Word、PDF 格式文档的几种方法。 使用 Jacob Jacob 是一个桥接工具,连接 Java ...
在Java中,我们可以使用Apache PDFBox库来创建和编辑PDF文件。PDFBox提供了API来添加文本、图像、表格等元素,并可以设置字体、颜色、页面大小等属性。例如,你可以创建一个PDFDocument对象,然后通过...
### JAVA读取WORD, EXCEL, POWERPOINT, PDF文件的方法 在日常开发工作中,经常会遇到需要处理各种格式文档的需求,例如Word、Excel、PowerPoint以及PDF等。这些文档可能需要被解析、转换或者提取其中的数据进行...
2. **PDF文件读取** - 处理PDF文件通常需要使用第三方库,如iText或Apache PDFBox。iText主要用于创建、修改PDF文件,而PDFBox是Apache的开源项目,提供了一套强大的PDF解析和生成工具。 - 使用PDFBox时,可以使用...
对于PDF文件,在Java Web环境中,可以使用Apache PDFBox、iText等库来读取和处理PDF内容。这些库能够读取PDF文件并将其转换为流式数据,从而可以通过HTTP响应返回给前端。而对于Word和Excel,我们可以使用Apache POI...
### Java读取Word、Excel及PDF文档的知识点详解 #### 一、概述 在实际开发过程中,经常需要处理各种格式的文档,如Word、Excel、PDF等。这些文档的读取通常涉及到不同的技术和库。本篇文章将详细介绍如何使用Java...
#### 三、Java读取Excel文件 对于Excel文件(.xls和.xlsx格式),同样可以使用Apache POI库进行读取。以下是一个简单的示例: ```java import org.apache.poi.ss.usermodel.*; import org.apache.poi.hssf....
标题提到的"Jacob Word excel 转PDF 合并PDF文件"是指使用Jacob库来将Microsoft Word和Excel文档转换为PDF格式,并进一步合并多个PDF文件。Jacob(Java Advanced COM Bridge)是一个Java库,它允许Java应用程序与...
标题提到的"java 读取word、excel及pdf的jar包(POI,PDFBox)",指的是两个非常重要的库:Apache POI和PDFBox,分别用于处理Microsoft Office文档(如Word、Excel)和PDF文件。 Apache POI是一个流行的开源Java ...
在Java编程环境中,将文档(如Excel、Word、PDF、PPT)转换为图片是一种常见的需求,这在处理大量文档预览、数据可视化或者移动设备兼容性问题时尤其有用。以下是一些关于如何使用Java实现这种转换的关键知识点: 1...
首先,标题“java读取word文档.pdf”和描述“java读取word文档.pdf”暗示了文章内容可能涉及使用Java语言读取Word文档的技术。 从片段中可以提取到的关键技术点包括: 1. Apache POI库:Apache POI是一个开源的...
Java OpenOffice库是一种用于在Java应用程序中处理Office文档的强大工具,尤其在进行word和Excel到PDF的转换时。OpenOffice提供了API,使得开发者能够通过编程方式处理这些转换任务,而无需依赖用户界面或手动操作。...
本Demo主要关注将Microsoft Office的三种主要文件类型——Word(.doc或.docx)、PowerPoint(.ppt或.pptx)和Excel(.xls或.xlsx)转换为PDF格式,并在此过程中读取转换后的PDF文件的页数。以下是对这个主题的详细...
3. **读取Excel文件**: 同样,Apache POI库也可以用于处理Excel文件。在Java中,`HSSFWorkbook`类用于处理.xls格式的Excel文件,而`XSSFWorkbook`用于处理.xlsx格式的文件。在给出的代码中,`HSSFWorkbook`被用来...
Java POI库是Apache软件基金会开发的一个开源项目,专门用于处理Microsoft Office格式的文件,包括Word、Excel和PowerPoint等。在这个场景中,我们将重点讨论如何使用Java POI读取Word文档并将其内容转换为HTML网页...
本主题主要关注如何使用JAVA编程语言将常见的办公软件格式,如Word(.doc)、Excel(.xls)、PowerPoint(.ppt)以及图像文件(如.tif)转换为统一的PDF格式。PDF(Portable Document Format)因其跨平台兼容性和...
对于Excel到PDF的转换,POI可以直接读取Excel文件,然后使用如iText这样的PDF库将数据写入PDF文件。iText库提供了丰富的API,可以创建、修改和读取PDF文件,使得数据转换过程相对简单。 以下是大致的转换步骤: 1....
"Java操作Word、Excel、PDF等文档" Java是一种流行的编程语言,可以用于操作多种类型的文档,包括Word、Excel、PDF等。本文将对Java操作Word、Excel、PDF等文档的知识点进行总结和分析。 一、Java操作Word文档 ...
在Java中,可以使用Apache POI库来操作Excel文件,包括读取、写入和更新XLS或XLSX格式的文件。你可以创建工作簿、工作表,添加单元格,设置格式,并将报表数据转换为表格结构。 2. Word:Microsoft Word则常用于...