在一个搜索引擎的使用中需要将各种文件转化为文本信息,创建相关的索引,然后检索。本文将excel2003和excel2007中内容转换为文本信息。
代码如下:
package com.easyway.excel.extact;
import java.io.FileInputStream;
import java.io.FileNotFoundException;
import java.io.IOException;
import java.io.InputStream;
import org.apache.poi.hssf.usermodel.HSSFWorkbook;
import org.apache.poi.poifs.filesystem.POIFSFileSystem;
import org.apache.poi.ss.extractor.ExcelExtractor;
import org.apache.poi.ss.usermodel.Workbook;
import org.apache.poi.xssf.extractor.XSSFExcelExtractor;
import org.apache.poi.xssf.usermodel.XSSFWorkbook;
/**
*
* 在以前开发相关luence的搜索时候需要将各种文件转换为文本类型,
* 获取内容,将内容创建相关的索引,在检索时候,查询相关的索引。
* 起到高效快捷的方式,本文讲解excel2003和excel2007内容信息的抽取方式。
*
*
* @Title:
* @Description: 实现针对excel2003和excel 2007 的内容抽取方式 简单快捷
* @Copyright:Copyright (c) 2011
* @Company:易程科技股份有限公司
* @Date:2012-6-14
* @author longgangbai
* @version 1.0
*/
public class ExcelTextExtractor {
public static void main(String[] args) {
String filename="c:\\station2station.xlsx";
InputStream inp;
boolean isExcel2003=false;
try {
//创建相关的文件流对象
inp = new FileInputStream(filename);
//声明相关的工作薄对象
Workbook wb =null;
//声明相关的excel抽取对象
ExcelExtractor extractor=null;
if(isExcel2003)//针对2003版本
{
//创建excel2003的文件文本抽取对象
wb=new HSSFWorkbook(new POIFSFileSystem(inp));
extractor =new org.apache.poi.hssf.extractor.ExcelExtractor((HSSFWorkbook)wb);
}else{ //针对2007版本
wb = new XSSFWorkbook(inp);
//创建excel2007的文件文本抽取对象
extractor =new XSSFExcelExtractor((XSSFWorkbook)wb);
}
extractor.setFormulasNotResults(false);
//是否抽象sheet页的名称
extractor.setIncludeSheetNames(true);
//是否抽取cell的注释内容
extractor.setIncludeCellComments(true);
//获取相关的抽取文本信息
String text = extractor.getText();
//
System.out.println("抽取文本的内容如下 ="+text);
} catch (FileNotFoundException e) {
// TODO Auto-generated catch block
e.printStackTrace();
} catch (IOException e) {
// TODO Auto-generated catch block
e.printStackTrace();
}
}
}
分享到:
相关推荐
标题中的"poi-ooxml-schemas-3.8,poi-3.8,poi-ooxml jar包合集"指的是Apache POI项目中用于处理Microsoft Office格式文件的Java库,特别是针对Excel(XLS和XLSX)文档的处理。Apache POI是一个流行的开源库,允许...
内部包括poi-3.8-20120326.jar、poi-ooxml-3.8-20120326.jar、poi-ooxml-schemas-3.8-20120326.jar 测试可用版本,有些下载的不能用
由于是源代码压缩包,其中的"poi-3.8-beta5"很可能包含了Apache POI项目的全部源代码文件。开发者可以深入研究源码,理解其内部工作原理,进行二次开发或定制化需求。源代码可能包括以下几个部分: 1. **src**: ...
为了使用POI,开发者需要将提供的"poi-3.8-beta3-20110606.jar"添加到项目的类路径中,然后就可以通过调用相应的API来操作Office文件了。同时,通过学习和参考"poi-examples-3.8-beta3-20110606"中的代码,可以加快...
- **poi-3.8-20120326.jar**:核心库,提供了对HSSF(用于旧版Excel .xls)和XSSF(用于新版Excel .xlsx)的支持。 - **poi-ooxml-schemas-3.8-20120326.jar**:包含了Office Open XML的XML模式,用于解析和创建...
Apache POI是一个开源项目,主要用于处理Microsoft Office格式的文件,如Word(.doc、.docx)、Excel(.xls、.xlsx)、PowerPoint(.ppt、.pptx)等。这个压缩包“POI包最新版3.8-beta4-20110826”包含了POI项目的...
java中读取word文档需要引用apache的poi开源项目...为方便下载提供6个jar包,其中包含:poi-3.8.jar;poi-ooxml-3.8.jar;poi-ooxml-schemas-3.8.jar;poi-scratchpad-3.8.jar;xmlbeans-2.3.0.jar;dom4j-1.6.1.jar。
3. poi-3.8-beta2-20110408.jar:主Apache POI库,提供了与Excel文件交互的基础功能。 4. poi-scratchpad-3.8-beta2-20110408.jar:包含了POI项目的一些实验性或未成熟的功能。 5. poi-ooxml-3.8-beta2-20110408.jar...
poi-3.8-20120326-6个jar包: poi-3.8-20120326.jar poi-examples-3.8-20120326.jar poi-excelant-3.8-20120326.jar poi-ooxml-3.8-20120326.jar poi-ooxml-schemas-3.8-20120326.jar poi-scratchpad-3.8-20120326....
"poi-bin-3.8-beta4-20110826"是一个特定版本的POI库的二进制发行包,发布于2011年8月26日,属于3.8 beta 4版本。这个版本包含了处理Office文档所需的类和资源文件。 POI项目的核心组件包括以下几个部分: 1. **...
Apache POI是一个开源项目,主要用于处理Microsoft Office格式的文件,如Excel、Word和PowerPoint。在Java开发中,POI库被广泛用于读取、写入和修改这些文档。提供的jar包分别是3.8、3.10和3.11版本,每个版本都有其...
在给定的文件中,"poi-3.8-20120326.jar" 和 "poi-excelant-3.8-20120326.jar" 是Apache POI库的特定版本,主要用于Java环境下读取和写入Excel文件。 Apache POI的核心功能: 1. **Excel文件处理**:Apache POI ...
这个压缩包中的"poi-3.8-final-20120520"是Apache POI 3.8版本的JAR文件,发布于2012年5月20日,是该库的一个稳定版本。以下将详细介绍Apache POI在处理Excel方面的功能,特别是对2003年至2010年版本的支持。 1. **...
1. **poi-3.8-20120326.jar**:这是Apache POI的主要库,提供了对Excel(HSSF和XSSF)、Word(HWPF和XWPF)和PowerPoint(HSLF和XSLF)的基本支持。 2. **poi-scratchpad-3.8-20120326.jar**:此库包含了POI项目中...
导入excel需要的\poi-ooxml-schemas-3.8-20120326.jar
poi-3.8-final-jdk1.4-20120520-rc1.jar
这个"poi-examples-3.8-beta5-sources.jar.zip"文件包含的是Apache POI 3.8 Beta 5版本的源代码示例。源代码对于开发者来说是极其宝贵的资源,它能帮助我们理解库的内部工作原理,调试问题,以及根据需求自定义功能...
1. **poi-3.8-20120326.jar**:这是Apache POI的主要库,包含了处理二进制Excel文件(.xls)的基本功能。你可以通过这个库创建、读取和修改Excel工作簿,包括单元格数据、公式、样式等。 2. **poi-ooxml-3.8-...
包含读取excel的五个jar包:xmlbeans-2.3.0.jar、poi-ooxml-schemas-3.8.jar、poi-ooxml-3.8.jar、poi-3.8.jar、dom4j-1.6.1.jar
Apache POI 是一个开源项目,专门用于处理Microsoft Office格式的文件,如Excel(XLS、XLSX)、Word(DOC、DOCX)等。在Java环境中,POI库提供了丰富的API,使得开发者能够方便地读取、写入和操作这些文件。在给定的...