`

java 读取Excel,word,pdf文件

阅读更多
在平常应用程序中,对office和pdf文档进行读取数据是比较常见的功能,尤其在很多web应用程序中。所以今天我们就简单来看一下java对word、excel、pdf文件的读取。本篇博客只是讲解简单应用。如果想深入了解原理。请读者自行研究一些相关源码。
首先我们来认识一下读取相关文档的jar包:

1. 引用POI包读取word文档内容
poi.jar 下载地址
http://apache.freelamp.com/poi/release/bin/poi-bin-3.6-20091214.zip
http://apache.etoak.com/poi/release/bin/poi-bin-3.6-20091214.zip
http://labs.renren.com/apache-mirror/poi/release/bin/poi-bin-3.6-20091214.zip

2.引用jxl包读取excel文档的内容
Jxl.jar下载地址
http://nchc.dl.sourceforge.net/project/jexcelapi/CSharpJExcel/CSharpJExcel.zip

3.引用PDFBox读取pdf文档的内容
Pdfbox.jar下载地址
http://labs.renren.com/apache-mirror/pdfbox/1.1.0/pdfbox-1.1.0.jar
http://apache.etoak.com/pdfbox/1.1.0/pdfbox-1.1.0.jar
http://apache.freelamp.com/pdfbox/1.1.0/pdfbox-1.1.0.jar
Fontbox.jar下载地址
http://apache.etoak.com/pdfbox/1.1.0/fontbox-1.1.0.jar
http://labs.renren.com/apache-mirror/pdfbox/1.1.0/fontbox-1.1.0.jar
http://apache.freelamp.com/pdfbox/1.1.0/fontbox-1.1.0.jar
Jempbox.jar下载地址
http://labs.renren.com/apache-mirror/pdfbox/1.1.0/jempbox-1.1.0.jar
http://apache.etoak.com/pdfbox/1.1.0/jempbox-1.1.0.jar
http://apache.freelamp.com/pdfbox/1.1.0/jempbox-1.1.0.jar
下面我们就来简单看一下这些jar包的对文档的读取的应用实例:
1. 引用POI包读取word文档内容
[java] view plaincopyprint?
import java.io.File;    
import java.io.FileInputStream;    
import org.apache.poi.hwpf.HWPFDocument;    
import org.apache.poi.hwpf.usermodel.Range;    
 
/** 

* @author 曹胜欢
*/  
public class DocFile{    
 
 
    @Override  
    public String getContent(File f) throws Exception {    
        FileInputStream fis = new FileInputStream(f);    
        HWPFDocument doc = new HWPFDocument(fis);    
        Range rang = doc.getRange();    
        String text = rang.text();    
        fis.close();    
        return text;    
    }    



2.引用jxl包读取excel文档的内容

[java] view plaincopyprint?
import java.io.File;    
import java.io.FileInputStream;    
import jxl.Cell;    
import jxl.Sheet;    
import jxl.Workbook;    
 
/** 

* @author 曹胜欢
*/  
public class XlsFile{    
 
    @Override    
    public String getContent(File f) throws Exception {    
     //构建Workbook对象, 只读Workbook对象 
     //直接从本地文件创建Workbook 
      //从输入流创建Workbook 
 
        FileInputStream fis = new FileInputStream(f);    
        StringBuilder sb = new StringBuilder();    
        jxl.Workbook rwb = Workbook.getWorkbook(fis);    
//一旦创建了Workbook,我们就可以通过它来访问 
//Excel Sheet的数组集合(术语:工作表), 
//也可以调用getsheet方法获取指定的工资表 
        Sheet[] sheet = rwb.getSheets();    
        for (int i = 0; i < sheet.length; i++) {    
            Sheet rs = rwb.getSheet(i);    
            for (int j = 0; j < rs.getRows(); j++) {    
               Cell[] cells = rs.getRow(j);    
               for(int k=0;k<cells.length;k++)    
               sb.append(cells[k].getContents());    
            }    
        }    
        fis.close();    
        return sb.toString();    
    }    
 



由上面代码我们可知:一旦得到了Sheet,我们就可以通过它来访问Excel Cell(术语:单元格)。参考下面的代码片段:
//获取第一行,第一列的值
Cell c00 = rs.getCell(0, 0);
String strc00 = c00.getContents();
//获取第一行,第二列的值
Cell c10 = rs.getCell(1, 0);
String strc10 = c10.getContents();
当你完成对Excel电子表格数据的处理后,一定要使用close()方法来关闭先前创建的对象,以释放读取数据表的过程中所占用的内存空间,在读取大量数据时显得尤为重要。
3.引用PDFBox读取pdf文档的内容

[java] view plaincopyprint?
import java.io.File;    
import java.io.FileInputStream;    
import org.pdfbox.pdfparser.PDFParser;    
import org.pdfbox.pdmodel.PDDocument;    
import org.pdfbox.util.PDFTextStripper;    
 
/** 

* @author 曹胜欢
*/  
<pre name="code" class="java">public class PdfFile{    
 
    public String getContent(File f) throws Exception {    
        FileInputStream fis = new FileInputStream(f);    
        PDFParser p = new PDFParser(fis);    
        p.parse();    
        PDDocument pdd = p.getPDDocument();    
        PDFTextStripper ts = new PDFTextStripper();    
        String c = ts.getText(pdd);    
        pdd.close();    
        fis.close();    
        return c;    
    }    
}</pre><br> 
分享到:
评论

相关推荐

    JAVA读取WORD_EXCEL_POWERPOINT_PDF文件的方法(poi)

    JAVA 读取 WORD_EXCEL_POWERPOINT_PDF 文件的方法(poi) JAVA 读取 WORD_EXCEL_POWERPOINT_PDF 文件的方法是使用 Apache POI 库来实现的。POI 库是一个开放源代码的 Java 库,提供了对 Microsoft Office 文件格式...

    java读取word,pdf格式文档方法

    Java 读取 Word、PDF 格式文档方法 Java 是一种广泛应用的编程语言,对文档操作是其重要的应用场景之一。本文将介绍 Java 如何读取 Word、PDF 格式文档的几种方法。 使用 Jacob Jacob 是一个桥接工具,连接 Java ...

    java导出文件到 pdf,excel,word

    在Java中,我们可以使用Apache PDFBox库来创建和编辑PDF文件。PDFBox提供了API来添加文本、图像、表格等元素,并可以设置字体、颜色、页面大小等属性。例如,你可以创建一个PDFDocument对象,然后通过...

    JAVA读取WORD,EXCEL,POWERPOINT,PDF文件的方法

    ### JAVA读取WORD, EXCEL, POWERPOINT, PDF文件的方法 在日常开发工作中,经常会遇到需要处理各种格式文档的需求,例如Word、Excel、PowerPoint以及PDF等。这些文档可能需要被解析、转换或者提取其中的数据进行...

    java读取word、PDF、txt、excel

    2. **PDF文件读取** - 处理PDF文件通常需要使用第三方库,如iText或Apache PDFBox。iText主要用于创建、修改PDF文件,而PDFBox是Apache的开源项目,提供了一套强大的PDF解析和生成工具。 - 使用PDFBox时,可以使用...

    java web在线预览pdf、word、excel

    对于PDF文件,在Java Web环境中,可以使用Apache PDFBox、iText等库来读取和处理PDF内容。这些库能够读取PDF文件并将其转换为流式数据,从而可以通过HTTP响应返回给前端。而对于Word和Excel,我们可以使用Apache POI...

    Jacob Word excel 转PDF 合并PDF文件

    标题提到的"Jacob Word excel 转PDF 合并PDF文件"是指使用Jacob库来将Microsoft Word和Excel文档转换为PDF格式,并进一步合并多个PDF文件。Jacob(Java Advanced COM Bridge)是一个Java库,它允许Java应用程序与...

    java读取word,excel,pdf等文本

    ### Java读取Word、Excel及PDF文档的知识点详解 #### 一、概述 在实际开发过程中,经常需要处理各种格式的文档,如Word、Excel、PDF等。这些文档的读取通常涉及到不同的技术和库。本篇文章将详细介绍如何使用Java...

    java 读取 word pdf 等

    #### 三、Java读取Excel文件 对于Excel文件(.xls和.xlsx格式),同样可以使用Apache POI库进行读取。以下是一个简单的示例: ```java import org.apache.poi.ss.usermodel.*; import org.apache.poi.hssf....

    java 读取word、excel及pdf的jar包(POI,PDFBox)

    标题提到的"java 读取word、excel及pdf的jar包(POI,PDFBox)",指的是两个非常重要的库:Apache POI和PDFBox,分别用于处理Microsoft Office文档(如Word、Excel)和PDF文件。 Apache POI是一个流行的开源Java ...

    java文档excel、word、pdf、ppt转图片

    在Java编程环境中,将文档(如Excel、Word、PDF、PPT)转换为图片是一种常见的需求,这在处理大量文档预览、数据可视化或者移动设备兼容性问题时尤其有用。以下是一些关于如何使用Java实现这种转换的关键知识点: 1...

    java读取word文档.pdf

    首先,标题“java读取word文档.pdf”和描述“java读取word文档.pdf”暗示了文章内容可能涉及使用Java语言读取Word文档的技术。 从片段中可以提取到的关键技术点包括: 1. Apache POI库:Apache POI是一个开源的...

    java OpenOffice wordExcel转换PDF

    Java OpenOffice库是一种用于在Java应用程序中处理Office文档的强大工具,尤其在进行word和Excel到PDF的转换时。OpenOffice提供了API,使得开发者能够通过编程方式处理这些转换任务,而无需依赖用户界面或手动操作。...

    word、ppt、excel转pdf读取页数Demo

    本Demo主要关注将Microsoft Office的三种主要文件类型——Word(.doc或.docx)、PowerPoint(.ppt或.pptx)和Excel(.xls或.xlsx)转换为PDF格式,并在此过程中读取转换后的PDF文件的页数。以下是对这个主题的详细...

    JAVA读取PDF、WORD、EXCEL等文件的方法

    3. **读取Excel文件**: 同样,Apache POI库也可以用于处理Excel文件。在Java中,`HSSFWorkbook`类用于处理.xls格式的Excel文件,而`XSSFWorkbook`用于处理.xlsx格式的文件。在给出的代码中,`HSSFWorkbook`被用来...

    Word,Excel,PPT等转PDF文件JAVA源代码

    本主题主要关注如何使用JAVA编程语言将常见的办公软件格式,如Word(.doc)、Excel(.xls)、PowerPoint(.ppt)以及图像文件(如.tif)转换为统一的PDF格式。PDF(Portable Document Format)因其跨平台兼容性和...

    Java读取word文档内容并输出成网页(含图片,公式)

    Java POI库是Apache软件基金会开发的一个开源项目,专门用于处理Microsoft Office格式的文件,包括Word、Excel和PowerPoint等。在这个场景中,我们将重点讨论如何使用Java POI读取Word文档并将其内容转换为HTML网页...

    java将word,excel装pdf文件用于在线预览

    对于Excel到PDF的转换,POI可以直接读取Excel文件,然后使用如iText这样的PDF库将数据写入PDF文件。iText库提供了丰富的API,可以创建、修改和读取PDF文件,使得数据转换过程相对简单。 以下是大致的转换步骤: 1....

    java对word、excel、pdf等操作.doc

    "Java操作Word、Excel、PDF等文档" Java是一种流行的编程语言,可以用于操作多种类型的文档,包括Word、Excel、PDF等。本文将对Java操作Word、Excel、PDF等文档的知识点进行总结和分析。 一、Java操作Word文档 ...

    报表导出excel word pdf html

    在Java中,可以使用Apache POI库来操作Excel文件,包括读取、写入和更新XLS或XLSX格式的文件。你可以创建工作簿、工作表,添加单元格,设置格式,并将报表数据转换为表格结构。 2. Word:Microsoft Word则常用于...

Global site tag (gtag.js) - Google Analytics