`
ma_shijie
  • 浏览: 3204 次
  • 性别: Icon_minigender_1
  • 来自: 北京
最近访客 更多访客>>
社区版块
存档分类
最新评论

使用POI来处理Excel和Word文件格式

阅读更多
Microsoft的Office系列产品拥有大量的用户,Word、Excel也成为办公文件的首选。在Java中,已经有很多对于Word、Excel的开源的解决方案,其中比较出色的是Apache的Jakata项目的POI子项目。该项目的官方网站是http://jakarta.apache.org/poi/。

POI包括一系列的API,它们可以操作基于MicroSoft OLE 2 Compound Document Format的各种格式文件,可以通过这些API在Java中读写Excel、Word等文件。POI是完全的Java Excel和Java Word解决方案。POI子项目包括:POIFS、HSSF、HDF、HPSF。表7-2对它们进行了简要介绍。

表7-2  POI子项目介绍

子项目名
说明

POIFS(POI File System)
POIFS是POI项目中最早的最基础的一个模块,是Java到OLE 2 Compound Document Format的接口,支持读写功能,所有的其他项目都依赖与该项目。

HSSF(Horrible Spreadsheet Format)
HSSF是Java到Microsoft Excel 97(-2002)文件的接口,支持读写功能

HWPF(Horrible Word Processing Format)
HWPF是Java到Microsoft Word 97文件的接口,支持读写功能,但目前该模块还处于刚开始开发阶段,只能实现一些简单文件的操作,在后续版本中,会提供更强大的支持

HPSF(Horrible Property Set Format)
HPSF 是Java到OLE 2 Compound Document Format文件的属性设置的接口,属性设置通常用来设置文档的属性(标题,作者,最后修改日期等),还可以设置用户定义的属性。HPSF支持读写功能,当前发布版本中直支持读功能。



7.3.1  对Excel的处理类
下面通过HSSF提供的接口对Excel文件经行处理。首先需要下载POI的包,可以到apache的官方网站下载,地址为:http://apache.justdn.org/jakarta/poi/,本书采用的是poi-2.5.1-final-20040804.jar,读者可以下载当前的稳定版本。把下载的包按照前面介绍的方式加入Build Path,然后新建一个ch7.poi包,并创建一个ExcelReader类。

ExcelReader类可以读取一个XLS文件,然后将其内容逐行提取出来,写入文本文件。其代码如下。

代码7.6

public class ExcelReader {

   // 创建文件输入流

   private BufferedReader reader = null;

   // 文件类型

   private String filetype;

   // 文件二进制输入流

   private InputStream is = null;

   // 当前的Sheet

   private int currSheet;

   // 当前位置

   private int currPosition;

   // Sheet数量

   private int numOfSheets;

   // HSSFWorkbook

   HSSFWorkbook workbook = null;

   // 设置Cell之间以空格分割

   private static String EXCEL_LINE_DELIMITER = " ";

   // 设置最大列数

   private static int MAX_EXCEL_COLUMNS = 64;

   // 构造函数创建一个ExcelReader

   public ExcelReader(String inputfile) throws IOException, Exception {

      // 判断参数是否为空或没有意义

      if (inputfile == null || inputfile.trim().equals("")) {

         throw new IOException("no input file specified");

      }

      // 取得文件名的后缀名赋值给filetype

      this.filetype = inputfile.substring(inputfile.lastIndexOf(".") + 1);

      // 设置开始行为0

      currPosition = 0;

      // 设置当前位置为0

      currSheet = 0;

      // 创建文件输入流

      is = new FileInputStream(inputfile);

      // 判断文件格式

      if (filetype.equalsIgnoreCase("txt")) {

         // 如果是txt则直接创建BufferedReader读取

         reader = new BufferedReader(new InputStreamReader(is));

      }

else if (filetype.equalsIgnoreCase("xls")) {

         // 如果是Excel文件则创建HSSFWorkbook读取

         workbook = new HSSFWorkbook(is);

         // 设置Sheet数

         numOfSheets = workbook.getNumberOfSheets();

      }

else {

         throw new Exception("File Type Not Supported");

      }

   }

   // 函数readLine读取文件的一行

   public String readLine() throws IOException {

      // 如果是txt文件则通过reader读取

      if (filetype.equalsIgnoreCase("txt")) {

         String str = reader.readLine();

         // 空行则略去,直接读取下一行

         while (str.trim().equals("")) {

            str = reader.readLine();

         }

         return str;

      }

      // 如果是XLS文件则通过POI提供的API读取文件

      else if (filetype.equalsIgnoreCase("xls")) {

         // 根据currSheet值获得当前的sheet

         HSSFSheet sheet = workbook.getSheetAt(currSheet);

         // 判断当前行是否到但前Sheet的结尾

         if (currPosition > sheet.getLastRowNum()) {

            // 当前行位置清零

            currPosition = 0;

            // 判断是否还有Sheet

            while (currSheet != numOfSheets - 1) {

               // 得到下一张Sheet

               sheet = workbook.getSheetAt(currSheet + 1);

               // 当前行数是否已经到达文件末尾

               if (currPosition == sheet.getLastRowNum()) {

                  // 当前Sheet指向下一张Sheet

                  currSheet++;

                  continue;

               } else {

                  // 获取当前行数

                  int row = currPosition;

                  currPosition++;

                  // 读取当前行数据

                  return getLine(sheet, row);

               }

            }

            return null;

         }

         // 获取当前行数

         int row = currPosition;

         currPosition++;

         // 读取当前行数据

         return getLine(sheet, row);

      }

      return null;

   }

   // 函数getLine返回Sheet的一行数据

   private String getLine(HSSFSheet sheet, int row) {

      // 根据行数取得Sheet的一行

      HSSFRow rowline = sheet.getRow(row);

      // 创建字符创缓冲区

      StringBuffer buffer = new StringBuffer();

      // 获取当前行的列数

      int filledColumns = rowline.getLastCellNum();

      HSSFCell cell = null;

      // 循环遍历所有列

      for (int i = 0; i < filledColumns; i++) {

         // 取得当前Cell

         cell = rowline.getCell((short) i);

         String cellvalue = null;

         if (cell != null) {

            // 判断当前Cell的Type

            switch (cell.getCellType()) {

            // 如果当前Cell的Type为NUMERIC

            case HSSFCell.CELL_TYPE_NUMERIC: {

               // 判断当前的cell是否为Date

               if (HSSFDateUtil.isCellDateFormatted(cell)) {

                  // 如果是Date类型则,取得该Cell的Date值

                  Date date = cell.getDateCellValue();

                  // 把Date转换成本地格式的字符串

                  cellvalue = cell.getDateCellValue().toLocaleString();

               }

               // 如果是纯数字

               else {

                  // 取得当前Cell的数值

                  Integer num = new Integer((int) cell

                        .getNumericCellValue());

                  cellvalue = String.valueOf(num);

               }

               break;

            }

            // 如果当前Cell的Type为STRIN

            case HSSFCell.CELL_TYPE_STRING:

               // 取得当前的Cell字符串

               cellvalue = cell.getStringCellValue().replaceAll("'", "''");

               break;

            // 默认的Cell值

            default:

               cellvalue = " ";

            }

         } else {

            cellvalue = "";

         }

         // 在每个字段之间插入分割符

         buffer.append(cellvalue).append(EXCEL_LINE_DELIMITER);

      }

      // 以字符串返回该行的数据

      return buffer.toString();

   }

   // close函数执行流的关闭操作

   public void close() {

      // 如果is不为空,则关闭InputSteam文件输入流

      if (is != null) {

         try {

            is.close();

         } catch (IOException e) {

            is = null;

         }

      }

      // 如果reader不为空则关闭BufferedReader文件输入流

      if (reader != null) {

         try {

            reader.close();

         } catch (IOException e) {

            reader = null;

         }

      }

   }

}

7.3.2  ExcelReader的运行效果
下面创建一个main函数,用来测试上面的ExcelReader类,代码如下。

代码7.7

    public static void main(String[] args) {

        try{

            ExcelReader er=new ExcelReader("c:\\xp.xls");  

            String line=er.readLine();

            while(line != null){

                System.out.println(line);

                line=er.readLine();

            }

            er.close();

        }catch(Exception e){

            e.printStackTrace();

        }

    }

main函数先创建一个ExcelReader类,然后调用它提供的接口readLine,对XLS文件进行读取,打印到控制台,处理前的XLS文件如图7-12所示。



图7-12  处理前的XLS文件内容

运行main函数进行内容提取后,Eclipse的控制台输出如图7-13所示。



图7-13  输出结果

可以看到,Excel文件中的内容已经被成功的输出了出来。

7.3.3  POI中Excel文件Cell的类型
在读取每一个Cell的值的时候,通过getCellType方法获得当前Cell的类型,在Excel中Cell有6种类型,如表7-3所示。

表7-3  Cell的类型

CellType
说明

CELL_TYPE_BLANK
空值

CELL_TYPE_BOOLEAN
布尔型

CELL_TYPE_ERROR
错误

CELL_TYPE_FORMULA
公式型

CELL_TYPE_STRING
字符串型

CELL_TYPE_NUMERIC
数值型



本例采用了CELL_TYPE_STRING和CELL_TYPE_NUMERIC类型,因为在Excel文件中只有字符串和数字。如果Cell的Type为CELL_TYPE_NUMERIC时,还需要进一步判断该Cell的数据格式,因为它有可能是Date类型,在Excel中的Date类型也是以Double类型的数字存储的。Excel中的Date表示当前时间与1900年1月1日相隔的天数,所以需要调用HSSFDateUtil的isCellDateFormatted方法,判断该Cell的数据格式是否是Excel Date类型。如果是,则调用getDateCellValue方法,返回一个Java类型的Date。

实际上Excel的数据格式有很多,还支持用户自定义的类型,在Excel中,选择一个单元格然后右键选择“设置单元格格式”,在弹出的单元格格式中选中“数字”,如图7-14所示。



图7-14  Excel的单元格格式

图中的数据有数值、货币、时间、日期、文本等格式。这些数据格式在POI中的HSSFDataFormat类里都有相应的定义。

HSSFDataFormat是HSSF子项目里面定义的一个类。类HSSFDataFormat允许用户新建数据格式类型。HSSFDataFormat类包含静态方法static java.lang.String getBuiltinFormat(short index),它可以根据编号返回内置数据类型。另外static short getBuiltinFormat(java.lang.String format)方法则可以根据数据类型返回其编号,static java.util.List getBuiltinFormats()可以返回整个内置的数据格式列表。

在HSSFDataFormat里一共定义了49种内置的数据格式,如表7-4所示。

表7-4  HSSFDataFormat的数据格式

内置数据类型
编号

"General"
0

"0"
1

"0.00"
2

"#,##0"
3

"#,##0.00"
4

"($#,##0_);($#,##0)"
5

"($#,##0_);[Red]($#,##0)"
6

"($#,##0.00);($#,##0.00)"
7

"($#,##0.00_);[Red]($#,##0.00)"
8

"0%"
9

"0.00%"
0xa

"0.00E+00"
0xb

"# ?/?"
0xc

"# ??/??"
0xd

"m/d/yy"
0xe

"d-mmm-yy"
0xf

"d-mmm"
0x10

"mmm-yy"
0x11

"h:mm AM/PM"
0x12

"h:mm:ss AM/PM"
0x13

"h:mm"
0x14

"h:mm:ss"
0x15

"m/d/yy h:mm"
0x16

保留为过国际化用
0x17 - 0x24

"(#,##0_);(#,##0)"
0x25

"(#,##0_);[Red](#,##0)"
0x26

"(#,##0.00_);(#,##0.00)"
0x27

"(#,##0.00_);[Red](#,##0.00)"
0x28

"_($*#,##0_);_($*(#,##0);_($* \"-\"_);_(@_)"
0x29

"_(*#,##0.00_);_(*(#,##0.00);_(*\"-\"??_);_(@_)"
0x2a

"_($*#,##0.00_);_($*(#,##0.00);_($*\"-\"??_);_(@_)"
0x2b

"_($*#,##0.00_);_($*(#,##0.00);_($*\"-\"??_);_(@_)"
0x2c

"mm:ss"
0x2d

"[h]:mm:ss"
0x2e

"mm:ss.0"
0x2f

"##0.0E+0"
0x30

"@" - This is text format
0x31


在上面表中,字符串类型所对应的是数据格式为"@"(最后一行),也就是HSSFDataFormat中定义的值为0x31(49)的那行。Date类型的值的范围是0xe-0x11,本例子中的Date格式为""m/d/yy"",在HSSFDataFormat定义的值为0xe(14)。

需要注意的一点是,所创建的Excel必须是在Microsoft Excel 97到Excel XP的版本上的,如果在Excel 2003中创建文件后,在使用POI进行解析时,可能会出现问题。它会把Date类型当作自定义类型。POI目前只提供对Microsoft Excel XP以下的版本的支持,在以后的版本中,希望会提供对Microsoft Excel 2003更好的支持。

7.3.4  对Word的处理类
除了支持对Excel文件的读取外,POI还提供对Word的DOC格式文件的读取。但在它的发行版本中没有发布对Word支持的模块,需要另外下载一个POI的扩展的Jar包。用户可以到http://www.ibiblio.org/maven2/org/textmining/tm-extractors/0.4/下载,本书采用的是tm-extractors-0.4_zip。

下载后,把该包加入工程的Build Path中,然后在ch7.poi包下新建一个类WordReader,该类提供一个静态方法readDoc,读取一个DOC文件并返回文本。函数内容很简单,就是调用WordExtractor的API来提取DOC的内容到字符串,该函数的代码如下。

代码7.8

public static String readDoc(String doc) throws Exception {

    // 创建输入流读取DOC文件

    FileInputStream in = new FileInputStream(new File(doc));

    WordExtractor extractor = null;

    String text = null;

    // 创建WordExtractor

    extractor = new WordExtractor();

    // 对DOC文件进行提取

    text = extractor.extractText(in);

    return text;

}

在同一个类里创建一个main函数,测试WordReader,该main函数代码如下。

代码7.9

public static void main(String[] args) {

        try{

           String text = WordReader.readDoc("c:/test.doc");

           System.out.println(text);

        }catch(Exception e){

            e.printStackTrace();

        }

    }

处理前的Doc文件如图7-15所示。



图7-15  处理前的Word文档

使用代码处理后的文本如图7-16所示。



图7-16  处理后的结果

可以看到Word文档内的文本已经全部被提取了出来。

本文来自:http://book.csdn.net/bookfiles/312/10031212845.shtml  出自书籍:开发自己的搜索引擎——Lucene 2.0+Heriterx(http://book.csdn.net/bookfiles/312/)

分享到:
评论
6 楼 supersnake 2008-11-13  
以前写过POI导出excel
5 楼 sdh5724 2008-11-04  
是不是你没有使用UTF-8造成的. 我以前好象也遇见过, 不过全程使用UTF-8就好了.
4 楼 ityc 2008-11-04  
遇到同样的问题,,需要从word,pdf,中读取纯文本值。。但是不需要其他的格式的东西,例如表格,图片,横线,页眉。。等等,总之需要文本值。。怎么获取。。。
3 楼 llm6101 2008-06-19  
有个问题,如果word文档里有表格或者图片,打印出来的字符串里就有乱码(小四方块),请问该如何解决
2 楼 myyate 2008-01-18  
ralin 写道
可以将现有html文件,直接转换成doc文件吗?

当然可以了。但是html的资源文件会丢失,如果不想丢失,可以考虑把html文件转换成mht格式,然后在转换成doc。
1 楼 ralin 2008-01-17  
可以将现有html文件,直接转换成doc文件吗?

相关推荐

    7_3 使用POI来处理Excel和Word文件格式

    7_3 使用POI来处理Excel和Word文件格式

    使用POI来处理Excel和Word文件格式.pdf

    对于Word文件,尽管POI目前在HWPF上的支持还不够完善,但开发者依然可以利用它来读取简单的Word文档内容。 总之,Apache POI为Java开发者提供了强大的工具,使他们能够无缝地与Microsoft Office文件格式交互,无论...

    使用POI来处理Excel和Word文件格式.docx

    Apache POI是一个强大的Java库,专门用于处理Microsoft的Office文件格式,如Word和Excel。它是一个开源项目,属于Apache Jakarta组织的一部分,提供了丰富的API来读写Excel和Word文档。POI这个名字是“Poor ...

    android中poi生成word文档和excel文档

    总的来说,使用Apache POI在Android中生成Word和Excel文档涉及了多个步骤,包括数据读取、文件操作、文档结构构建以及格式化。这个过程需要对XML、Java I/O、Android文件系统权限管理和POI API有深入理解。开发者...

    利用POI读取excel写入到word

    在IT行业中,Apache POI是一个广泛使用的开源库,专门用于处理Microsoft Office格式的文件,如Excel、Word和PowerPoint。本篇文章将详细讲解如何利用Apache POI库来读取Excel数据并将其写入到Word文档中。 首先,...

    POI处理EXCEL和WORD文件的JAR包和资料详细

    Apache POI 是一个开源项目,专门用于处理Microsoft Office格式的文件,如...以上就是关于使用Apache POI处理Excel和Word文件的关键知识点。通过深入理解和实践,你可以高效地在Java应用中实现对这些文件的读写和操作。

    java 使用poi组件处理 excel word

    本文将深入探讨如何使用POI组件来处理Excel和Word文档,以及如何通过模板动态生成Excel表格。 一、Apache POI简介 Apache POI 是一个开源项目,它的主要功能是读取和写入Microsoft Office格式的文件,如.XLS(Excel...

    POI合并多个相同的Excel或者合并Word文件

    在IT行业中,尤其是在数据处理和文档管理领域,有时我们需要对大量相同格式的文件进行整合,例如Excel表格或Word文档。在这种情况下,Java的POI库提供了强大的功能,可以帮助我们实现这些需求。POI是Apache软件基金...

    POI实现word和excel在线预览

    在IT行业中,Apache POI是一个广泛使用的库,主要用于读取、写入Microsoft Office格式的文件,包括Word(.doc/.docx)和Excel(.xls/.xlsx)文档。本项目提供的"POI实现word和excel在线预览"是基于Apache POI的一个...

    Java通过POI读取Excel遍历数据,批量生成word文档

    Apache POI是一个开源项目,它允许Java开发者处理Microsoft Office格式的文件,如Excel(.xlsx或.xls)和Word(.docx)。 首先,我们需要导入Apache POI的相关依赖。在Maven项目中,可以在pom.xml文件中添加以下...

    java 使用POI合并两个word文档.docx

    Java 使用 POI 合并两个 Word 文档 ...Java 使用 POI 合并两个 Word 文档是非常有用的技术,可以帮助我们快速和高效地合并多个 Word 文档。但是,在实际应用中,我们需要根据具体情况选择合适的合并方式和参数。

    POI处理EXCEL和WORD文件的JAR包和资料

    总的来说,这个压缩包为开发者提供了一个全面的POI学习资源库,涵盖了从基本的Excel和Word文件操作到更复杂的读写和修改功能。通过学习这些教程和API文档,开发者可以熟练地在Java应用程序中集成POI,以处理和生成...

    java利用poi生成excel报表、处理word文档

    总结,Java POI库为开发者提供了一种高效、灵活的方式来处理Excel报表和Word文档,无论是在生成报表还是数据导入导出、文档格式转换等方面,都是一个不可或缺的工具。通过深入理解和实践,我们可以构建出满足各种...

    poi解析excel、word2007,2010等版本

    Apache POI 是一款开源的Java库,专门用于处理...这个"poiTest"项目提供了一个实用的起点,帮助开发者快速理解并掌握如何使用Apache POI进行Excel和Word文件的处理,无论是读取还是写入,都能极大地提高工作效率。

    安卓使用poi读取及修改word文档

    Apache POI是一个广泛使用的开源库,它允许开发者用纯Java代码操作微软的Office格式,包括Word(.doc)、Excel(.xls)和PowerPoint(.ppt)等。在"安卓使用POI读取及修改Word文档"这个主题中,我们将深入探讨如何在...

    使用poi根据模版生成word文档并转换成PDF文件

    在IT行业中,Apache POI是一个广泛使用的库,主要用于读写Microsoft Office格式的文件,如Word、Excel和PowerPoint。本文将深入探讨如何利用Apache POI框架根据模板生成Word文档,并进一步将其转换为PDF文件。 首先...

    poi excel poi excel poi excel

    Jakarta POI 是 Apache POI 的早期项目名称,它提供了一组 API 来处理 Microsoft Office 文件格式,特别是针对 Excel(`.xls` 和 `.xlsx`)和 Word(`.doc` 和 `.docx`)文件。Apache POI 项目主要由以下几个子项目...

    springboot中使用freemarker动态生成word文档,以及使用POI导出自定义格式Excel

    Springboot项目中: 1. 使用Apache POI 3.9 自定义样式导出Excel文件...2. 使用freemarker动态生成word .doc文档(带图片Word以及复杂格式word) 详细说明见个人博客及 github: https://github.com/DuebassLei/excel-poi

    安卓使用poi XWPFDocument读取及修改word文档

    在本场景中,我们将重点讨论如何在Android应用中使用Apache POI的XWPFDocument类来读取和修改Word(.docx)文档。 1. **Apache POI介绍** Apache POI是一个开源项目,主要目的是使Java开发者能够读写Microsoft ...

Global site tag (gtag.js) - Google Analytics