`
longgangbai
  • 浏览: 7338849 次
  • 性别: Icon_minigender_1
  • 来自: 上海
社区版块
存档分类
最新评论

POI3.8组件研究(五)---excel文件内容抽取为文本

阅读更多

        在一个搜索引擎的使用中需要将各种文件转化为文本信息,创建相关的索引,然后检索。本文将excel2003和excel2007中内容转换为文本信息。

代码如下:

package com.easyway.excel.extact;

import java.io.FileInputStream;
import java.io.FileNotFoundException;
import java.io.IOException;
import java.io.InputStream;

import org.apache.poi.hssf.usermodel.HSSFWorkbook;
import org.apache.poi.poifs.filesystem.POIFSFileSystem;
import org.apache.poi.ss.extractor.ExcelExtractor;
import org.apache.poi.ss.usermodel.Workbook;
import org.apache.poi.xssf.extractor.XSSFExcelExtractor;
import org.apache.poi.xssf.usermodel.XSSFWorkbook;
/**
 * 
 * 在以前开发相关luence的搜索时候需要将各种文件转换为文本类型,
 *  获取内容,将内容创建相关的索引,在检索时候,查询相关的索引。
 *  起到高效快捷的方式,本文讲解excel2003和excel2007内容信息的抽取方式。
 *  
 * 
 * @Title: 
 * @Description: 实现针对excel2003和excel 2007 的内容抽取方式 简单快捷
 * @Copyright:Copyright (c) 2011
 * @Company:易程科技股份有限公司
 * @Date:2012-6-14
 * @author  longgangbai
 * @version 1.0
 */
public class ExcelTextExtractor {
		 public static void main(String[] args) {
			  String filename="c:\\station2station.xlsx";
			 InputStream inp;
			 boolean isExcel2003=false;
			try {
				//创建相关的文件流对象
				inp = new FileInputStream(filename);
			    //声明相关的工作薄对象
				Workbook wb =null;
			    //声明相关的excel抽取对象
			    ExcelExtractor extractor=null;
			    if(isExcel2003)//针对2003版本
			    {
			    	//创建excel2003的文件文本抽取对象
			    	wb=new HSSFWorkbook(new POIFSFileSystem(inp));
			    	extractor =new org.apache.poi.hssf.extractor.ExcelExtractor((HSSFWorkbook)wb);
			    }else{ //针对2007版本
			    	wb = new  XSSFWorkbook(inp);
			    	//创建excel2007的文件文本抽取对象
			    	extractor =new XSSFExcelExtractor((XSSFWorkbook)wb);
			    }
			    
			    extractor.setFormulasNotResults(false);
			    //是否抽象sheet页的名称
			    extractor.setIncludeSheetNames(true);
			    //是否抽取cell的注释内容
			    extractor.setIncludeCellComments(true);
			    //获取相关的抽取文本信息
			    String text = extractor.getText();
			    //
			    System.out.println("抽取文本的内容如下 ="+text);
			} catch (FileNotFoundException e) {
				// TODO Auto-generated catch block
				e.printStackTrace();
			} catch (IOException e) {
				// TODO Auto-generated catch block
				e.printStackTrace();
			}
			
		}
}

 

0
0
分享到:
评论
1 楼 qingyezhu 2012-09-23  
请问,用poi3.8中的wordtohtmlconver类将doc转化为html,其中doc中含有表格(表格很宽)时,在网页中显示不正常,怎么解决呀?谢谢!

相关推荐

    poi-ooxml-schemas-3.8,poi-3.8,poi-ooxml jar包合集

    标题中的"poi-ooxml-schemas-3.8,poi-3.8,poi-ooxml jar包合集"指的是Apache POI项目中用于处理Microsoft Office格式文件的Java库,特别是针对Excel(XLS和XLSX)文档的处理。Apache POI是一个流行的开源库,允许...

    poi-src-3.8-beta5-20111217.tar.gz

    由于是源代码压缩包,其中的"poi-3.8-beta5"很可能包含了Apache POI项目的全部源代码文件。开发者可以深入研究源码,理解其内部工作原理,进行二次开发或定制化需求。源代码可能包括以下几个部分: 1. **src**: ...

    poi-3.8-beta3-20110606工具包

    为了使用POI,开发者需要将提供的"poi-3.8-beta3-20110606.jar"添加到项目的类路径中,然后就可以通过调用相应的API来操作Office文件了。同时,通过学习和参考"poi-examples-3.8-beta3-20110606"中的代码,可以加快...

    poi3.8+poi-pdf+poi-core.rar

    - **poi-3.8-20120326.jar**:核心库,提供了对HSSF(用于旧版Excel .xls)和XSSF(用于新版Excel .xlsx)的支持。 - **poi-ooxml-schemas-3.8-20120326.jar**:包含了Office Open XML的XML模式,用于解析和创建...

    POI包最新版3.8-beta4-20110826

    Apache POI是一个开源项目,主要用于处理Microsoft Office格式的文件,如Word(.doc、.docx)、Excel(.xls、.xlsx)、PowerPoint(.ppt、.pptx)等。这个压缩包“POI包最新版3.8-beta4-20110826”包含了POI项目的...

    poi-3.8.jar;poi-ooxml-3.8.jar;poi-ooxml-schemas-3.8.jar

    java中读取word文档需要引用apache的poi开源项目...为方便下载提供6个jar包,其中包含:poi-3.8.jar;poi-ooxml-3.8.jar;poi-ooxml-schemas-3.8.jar;poi-scratchpad-3.8.jar;xmlbeans-2.3.0.jar;dom4j-1.6.1.jar。

    读写Excel2007 POI3.8

    3. poi-3.8-beta2-20110408.jar:主Apache POI库,提供了与Excel文件交互的基础功能。 4. poi-scratchpad-3.8-beta2-20110408.jar:包含了POI项目的一些实验性或未成熟的功能。 5. poi-ooxml-3.8-beta2-20110408.jar...

    poi 3.8 版本全量包

    1. **poi-3.8-20120326.jar**:这是Apache POI的主要库,提供了对Excel(HSSF和XSSF)、Word(HWPF和XWPF)和PowerPoint(HSLF和XSLF)的基本支持。 2. **poi-scratchpad-3.8-20120326.jar**:此库包含了POI项目中...

    poi-3.8-20120326-6个jar包

    poi-3.8-20120326-6个jar包: poi-3.8-20120326.jar poi-examples-3.8-20120326.jar poi-excelant-3.8-20120326.jar poi-ooxml-3.8-20120326.jar poi-ooxml-schemas-3.8-20120326.jar poi-scratchpad-3.8-20120326....

    poi-bin-3.8-beta4-20110826

    "poi-bin-3.8-beta4-20110826"是一个特定版本的POI库的二进制发行包,发布于2011年8月26日,属于3.8 beta 4版本。这个版本包含了处理Office文档所需的类和资源文件。 POI项目的核心组件包括以下几个部分: 1. **...

    poi3.8和3.10还有3.11的jar包,保证可用

    Apache POI是一个开源项目,主要用于处理Microsoft Office格式的文件,如Excel、Word和PowerPoint。在Java开发中,POI库被广泛用于读取、写入和修改这些文档。提供的jar包分别是3.8、3.10和3.11版本,每个版本都有其...

    poi-3.8-20120326.jar 和 poi-excelant-3.8-20120326.jar

    在给定的文件中,"poi-3.8-20120326.jar" 和 "poi-excelant-3.8-20120326.jar" 是Apache POI库的特定版本,主要用于Java环境下读取和写入Excel文件。 Apache POI的核心功能: 1. **Excel文件处理**:Apache POI ...

    poi-ooxml-3.8-20120326.jar包

    导入excel需要的poi-ooxml-3.8-20120326.jar

    POI 3.8完整JAR 支持2003-2010Excel

    这个压缩包中的"poi-3.8-final-20120520"是Apache POI 3.8版本的JAR文件,发布于2012年5月20日,是该库的一个稳定版本。以下将详细介绍Apache POI在处理Excel方面的功能,特别是对2003年至2010年版本的支持。 1. **...

    poi-ooxml-schemas-3.8-20120326.jar 包

    导入excel需要的\poi-ooxml-schemas-3.8-20120326.jar

    poi-3.8-final-jdk1.4-20120520-rc1.jar

    poi-3.8-final-jdk1.4-20120520-rc1.jar

    poi-examples-3.8-beta5-sources.jar.zip

    这个"poi-examples-3.8-beta5-sources.jar.zip"文件包含的是Apache POI 3.8 Beta 5版本的源代码示例。源代码对于开发者来说是极其宝贵的资源,它能帮助我们理解库的内部工作原理,调试问题,以及根据需求自定义功能...

    poi-3.8-20120326.jar、poi-ooxml-3.8-20120326.jar

    内部包括poi-3.8-20120326.jar、poi-ooxml-3.8-20120326.jar、poi-ooxml-schemas-3.8-20120326.jar 测试可用版本,有些下载的不能用

    poi-3.8的6个包

    1. **poi-3.8-20120326.jar**:这是Apache POI的主要库,包含了处理二进制Excel文件(.xls)的基本功能。你可以通过这个库创建、读取和修改Excel工作簿,包括单元格数据、公式、样式等。 2. **poi-ooxml-3.8-...

    poi-3.8.jar读取excel

    包含读取excel的五个jar包:xmlbeans-2.3.0.jar、poi-ooxml-schemas-3.8.jar、poi-ooxml-3.8.jar、poi-3.8.jar、dom4j-1.6.1.jar

Global site tag (gtag.js) - Google Analytics