`
xiyuliuguang
  • 浏览: 32398 次
  • 性别: Icon_minigender_1
  • 来自: 沈阳
社区版块
存档分类
最新评论

POI3.8查询office

阅读更多
/**
* 读取word2003
*/
public String readExtDocContent(String fileName){
// 创建输入流读取DOC文件
InputStream  in = null;
    WordExtractor extractor = null;
    String text = null;
try {
in = new FileInputStream(new File(fileName));
extractor = new WordExtractor(in);
text = extractor.getText();
} catch (FileNotFoundException e) {
e.printStackTrace();
}catch (IOException e) {
e.printStackTrace();
} finally{
try {
if(in != null){
in.close();
}
} catch (IOException e) {
e.printStackTrace();
}
}
return text;
}

/**
* 读取word2007-2013
*/
public String readExtDocxContent(String fileName){
// 创建输入流读取DOC文件
    String text = null;
    OPCPackage opcPackage = null;
try {
opcPackage = POIXMLDocument.openPackage(fileName);
            XWPFDocument xwpf = new XWPFDocument(opcPackage);
            POIXMLTextExtractor ex = new XWPFWordExtractor(xwpf);
text = ex.getText();
} catch (Exception e) {
e.printStackTrace();
log.error("转换word异常:" + e);
} finally{
try {
if(opcPackage != null){
opcPackage.close();
}
} catch (IOException e) {
e.printStackTrace();
}
}
return text;
}

/**
* 读取Excel2003
*/
public String readExtXlsContent(String fileName){
String content = "";
try {
   HSSFWorkbook workbook = new HSSFWorkbook(new FileInputStream(fileName));
   ExcelExtractor extractor = new ExcelExtractor(workbook);
   extractor.setFormulasNotResults(true);
   extractor.setIncludeSheetNames(false);
   content =  extractor.getText();
   log.debug("content:" + content);
  } catch (Exception e) {
   e.printStackTrace();
   return "";
  }
return content;
}

/**
* 读取Excel2007+
*/
public String readExtXlsxContent(String fileName){
String content = "";
try {
   XSSFWorkbook workbook = new XSSFWorkbook(new FileInputStream(fileName));
   XSSFExcelExtractor extractor = new XSSFExcelExtractor(workbook);
   extractor.setFormulasNotResults(true);
   extractor.setIncludeSheetNames(false);
   content =  extractor.getText();
  } catch (Exception e) {
   e.printStackTrace();
   return "";
  }

return content;
}

/**
* 读取ppt2003
*/
public String readExtPptContent(String fileName){
String text = "";
  try {
   SlideShow ss = new SlideShow(new HSLFSlideShow(new FileInputStream(fileName)));
   Slide[] slides = ss.getSlides();
   for (int i = 0; i < slides.length; i++) {
    TextRun[] t = slides[i].getTextRuns();
    for (int j = 0; j < t.length; j++) {
     text += t[j].getText();
    }
   }
  } catch (Exception e) {
   e.printStackTrace();
  }
  return text;
}

/**
* 读取ppt2007+
*/
public String readExtPptxContent(String fileName){
String text = "";
XMLSlideShow xmlslideshow = null;
try {
xmlslideshow = new XMLSlideShow(new FileInputStream(fileName));
XSLFPowerPointExtractor ppt = new XSLFPowerPointExtractor(xmlslideshow); 
text= ppt.getText();
} catch (FileNotFoundException e) {
e.printStackTrace();
} catch (IOException e) {
e.printStackTrace();
}

return text;
}

/**
* 读取pdf
*/
public String readExtPDFContent(String fileName){
String text = "";
try {
PDFParser parser = new PDFParser(new FileInputStream(fileName));
parser.parse();
PDFTextStripper stripper = new PDFTextStripper();
text = stripper.getText(parser.getPDDocument());
parser.getPDDocument().close();
} catch (Exception e) {
e.printStackTrace();
return "";
}
  return text;
}
0
5
分享到:
评论

相关推荐

    poi3.8版本jar包及解析Excel对应Java代码

    Apache POI 是一个开源项目,专门用于处理Microsoft Office格式的文件,如Excel(.xls和.xlsx)、Word(.doc和.docx)等。在Java环境中,Apache POI库提供了丰富的API,使得开发者能够方便地读取、写入以及操作这些...

    poi3.8 doc,excel转html

    标题提到的"poi3.8 doc,excel转html",指的是使用Apache POI库的3.8版本进行Microsoft Office文档(尤其是DOC和XLS)到HTML的转换。Apache POI是一个流行的Java库,专门用于读取、写入和操作Microsoft Office格式的...

    POI3.8 jar包

    《深入理解POI3.8:Java操作Office文档的利器》 在Java编程领域,处理Office文档是一项常见的任务,例如读取、写入Excel表格,编辑Word文档等。这时,Apache POI库就成为了开发者的得力助手。本文将详细探讨POI3.8...

    poi 3.8 版本全量包

    11. **poi3.8版本.rar**:这可能是整个Apache POI 3.8的源码或附加资源,方便开发者进行深入研究或定制开发。 使用这些库,开发者可以创建Java应用程序来导入和导出Excel文件,例如,创建新的工作簿,添加工作表,...

    poi 3.8 3.9 3.10 3.15 3.17各种版本

    Apache POI 是一个开源项目,专门用于处理Microsoft Office格式的文件,如Excel(XLS、XLSX)、Word(DOC、DOCX)等。在Java环境中,POI库提供了丰富的API,使得开发者能够方便地读取、写入和操作这些文件。在给定的...

    poi-3.8的6个包

    POI 3.8是该项目的一个较早版本,它提供了对Office文档的读写支持,尤其在Java环境中非常实用。这个压缩包包含的6个jar文件是POI 3.8版的核心组件,每个都有特定的功能: 1. **poi-3.8-20120326.jar**:这是Apache ...

    poi3.8jar包

    标题中的"poi3.8jar包"指的是Apache POI项目的3.8版本的Java库,这个库以JAR(Java Archive)文件的形式提供,便于Java开发者在他们的应用中集成对Office文档的支持。 Apache POI的主要功能: 1. **Excel处理**: ...

    Excel操作工具poi3.8

    在给定的标题“Excel操作工具poi3.8”中,我们关注的是POI 3.8版本,这是一个适用于处理Excel文件的强大工具。在这个版本中,用户可以进行数据读取、写入、格式化以及复杂的公式计算等操作。 首先,我们需要理解...

    poi3.8操作word

    在标题和描述中提到的“poi3.8操作word”,意味着我们将探讨使用Apache POI 3.8版本来操作Microsoft Word文档的详细知识。 Apache POI 3.8是该项目的一个稳定版本,发布于2012年,支持读取、创建和修改Word文档。...

    导入excel 导出excle poi3.8 全量包

    在这个"导入excel 导出excle poi3.8 全量包"中,主要关注的是使用POI 3.8版本来操作Excel文件。这个版本的POI提供了一套完整的API,允许开发者在Java环境中读取、写入和修改Excel文件,而无需依赖于Microsoft Office...

    poi 3.8和4.1.2.rar

    Apache POI是一个强大的Java库,专门用于处理Microsoft Office格式的文件,如Excel、Word和PowerPoint。在给定的压缩包“poi 3.8和4.1.2.rar”中,包含了两个不同版本的Apache POI库:3.8和4.1.2。这些版本分别代表...

    poi3.8+poi-pdf+poi-core.rar

    标题中的"poi3.8+poi-pdf+poi-core.rar"提到了三个主要部分:POI 3.8 版本、poi-pdf 1.0 和 poi-core 1.0。 1. **POI 3.8**: 这是Apache POI的一个稳定版本,发布于2012年3月26日。它包含多个子模块,如: - **poi...

    POI3.8和3.8的API

    POI 3.8和3.9版本是该库的两个稳定版本,它们包含了一系列API,使得开发人员可以轻松地与微软的Office格式进行交互。 在POI 3.8和3.9的API中,主要涵盖以下几个关键知识点: 1. **HSSF和XSSF**:这是POI用来处理...

    POI 3.8 Beta5 创建大数据量 Excel文件

    标题中的“POI 3.8 Beta5”指的是Apache POI项目的一个版本,这是一个流行的开源Java库,用于读取、写入和修改Microsoft Office格式的文件,尤其是Excel工作簿。在POI 3.8 Beta5这个版本中,开发者可以利用它来处理...

    java\androi-poi3.8下载

    Java Android POI 3.8 是一个用于在Android平台上处理Microsoft Office格式文件,特别是Excel的库。这个版本的POI是专为Android优化的,允许开发者在移动设备上实现读取和写入Excel文件的功能。POI是Apache软件基金...

    poi 3.8jar 包

    总的来说,"poi 3.8jar 包"是一个强大的工具,适合需要在Java环境中处理Office文档的开发者。尽管标记为beta5,但其功能和稳定性足以满足大多数需求。使用时,开发者应参考官方文档,结合具体的项目需求,灵活运用...

    POI3.8以及3.9的API

    标题中的"POI3.8以及3.9的API"指的是这两个版本的API接口文档,是开发者理解和使用POI库的关键资源。API文档详尽地列出了各种类、方法和接口,使得开发者能够有效地利用POI进行文件操作。 在POI 3.8和3.9中,主要...

    读写Excel2007 POI3.8

    标题“读写Excel2007 POI3.8”涉及的是使用Apache POI库的3.8版本处理Microsoft Excel 2007文件的方法。Apache POI是Java的一个开源项目,专门用于读取、创建和修改Microsoft Office格式的文件,特别是Excel文件。在...

    poi3.8和3.10还有3.11的jar包,保证可用

    Apache POI是一个开源项目,主要用于处理Microsoft Office格式的文件,如Excel、Word和PowerPoint。在Java开发中,POI库被广泛用于读取、写入和修改这些文档。提供的jar包分别是3.8、3.10和3.11版本,每个版本都有其...

    poi3.8

    在标题“poi3.8”中提到的版本3.8是该项目的一个历史版本,发布于2012年9月。这个版本包含了对处理Excel、Word和PowerPoint文件的API改进和修复。 在POI 3.8中,主要的知识点包括: 1. **Excel处理**: - HSSF...

Global site tag (gtag.js) - Google Analytics