`

poi读取word及读取word表格

 
阅读更多

导入包

import java.io.File;
import java.io.FileInputStream;
import java.io.InputStream;

import org.apache.poi.POIXMLDocument;
import org.apache.poi.POIXMLTextExtractor;
import org.apache.poi.hwpf.HWPFDocument;
import org.apache.poi.hwpf.extractor.WordExtractor;
import org.apache.poi.hwpf.usermodel.Paragraph;

import org.apache.poi.hwpf.usermodel.Range;
import org.apache.poi.hwpf.usermodel.Table;
import org.apache.poi.hwpf.usermodel.TableCell;

import org.apache.poi.hwpf.usermodel.TableIterator;
import org.apache.poi.hwpf.usermodel.TableRow;
import org.apache.poi.openxml4j.opc.OPCPackage;

import org.apache.poi.poifs.filesystem.POIFSFileSystem;
import org.apache.poi.xwpf.extractor.XWPFWordExtractor;
import org.junit.Test;

 

//读取word

@Test
 public void readWord(){
   try { 
    //word 2003:图片不会被读取 
    InputStream is = new FileInputStream(new File("D:/资料/ldj/poi读取word/Test/files/2003.doc")); 
    WordExtractor ex = new WordExtractor(is); 
   String text2003 = ex.getText(); 
   System.out.println(text2003); 
    
   //word 2007 图片不会被读取, 表格中的数据会被放在字符串的最后 
   OPCPackage opcPackage = POIXMLDocument.openPackage("D:/资料/ldj/poi读取word/Test/files/2007.docx"); 
   POIXMLTextExtractor extractor = new XWPFWordExtractor(opcPackage); 
   String text2007 = extractor.getText(); 
   System.out.println(text2007);            
   } catch (Exception e) { 
            e.printStackTrace(); 
   } 

 }

 

//读取word中的表格

 @Test
 public void readWordTable(){   
  try {            
   String[] s=new String[300];          
   FileInputStream in=new FileInputStream("D:/资料/ldj/poi读取word/Test/files/757900130000-计生委.doc");     

  POIFSFileSystem pfs=new POIFSFileSystem(in);         
   HWPFDocument hwpf=new HWPFDocument(pfs);      
   Range range =hwpf.getRange();        

     TableIterator it=new TableIterator(range);      
   int index=0;            
   while(it.hasNext()){              
    Table tb=(Table)it.next(); 

    for(int i=0;i
     //System.out.println("Numrows :"+tb.numRows());           
     TableRow tr=tb.getRow(i);                 
     for(int j=0;j

     //System.out.println("numCells :"+tr.numCells());  //                
      //System.out.println("j   :"+j);                 
      TableCell td=tr.getCell(j);

     for(int k=0;k
       //System.out.println("numParagraphs :"+td.numParagraphs());       
       Paragraph para=td.getParagraph(k); 

       s[index]=para.text().trim();
       System.out.print(s[index]);
       index++;

}
      System.out.print("      ");
      }     
     System.out.println("");
     }
    } 

 // System.out.println(s.toString());      
   for(int i=0;i
    //System.out.println(s[i]);         
    }        
   } catch (Exception e) {

e.printStackTrace();    
    }
  } 

 

分享到:
评论

相关推荐

    POI读取 word 2003 和 word 2007 的例子

    值得注意的是 POI 在读取 word 文件的时候不会读取 word 文件中的图片信息 还有就是对于 2007 版的 word docx 如果 word 文件中有表格 所有表格中的数据都会在读取出来的字符串的最后 ">这是一个POI读取word 2003 和...

    [简单]poi读取word 2007简单文本框值

    标题中的“poi读取word 2007简单文本框值”指的是使用Apache POI库来读取Microsoft Word 2007文档中简单文本框内的文本内容。Apache POI是一个流行的开源Java库,用于处理Microsoft Office格式的文件,如Word(.docx...

    POI读取word文档的文字内容和图片内容

    在本主题中,我们将深入探讨如何使用POI库读取Word文档中的文字内容和图片。 首先,我们需要理解Word文档的基本结构。Word文档本质上是由一系列基于XML的数据存储在.OFFICEML格式的文件中,这使得我们可以通过解析...

    apache poi读取word内容

    在本案例中,我们将关注如何使用Apache POI来读取Word文档的内容,并将其以流的形式返回到Web应用程序的前端页面。 首先,Apache POI提供了一个名为`XWPFDocument`的类,用于处理`.docx`格式的Word文档。这个类允许...

    使用poi将word读取后替换指定内容后再次生成新word

    使用poi将word读取后替换指定内容后再次生成新word,本人经过测试,拿来即用!

    java 利用POI读取Word文件中的内容

    本篇将详细介绍如何利用Apache POI库来读取Word文件中的内容。 首先,理解Apache POI的基本概念。POI是“Poor Obfuscation Implementation”的缩写,最初是为了反向工程微软的文件格式而创建的。如今,它已经成为...

    利用POI读取excel写入到word

    要实现"利用POI读取excel写入到word",我们需要以下步骤: 1. **准备环境**:首先,确保你的项目已经引入了Apache POI的依赖。在给定的压缩包中,"poi - 副本"可能是包含POI库的JAR文件,你需要将其添加到你的项目...

    apache POI 读取 Word

    apach poi 读取word 文档 jar 包。 博文链接:https://wxinpeng.iteye.com/blog/231881

    poi读取word代码

    poi读取word代码,可以通过此代码实现对word中的文本、图片、表格的读取。

    poi将word转换成html、样式 表格 图片处理

    实际编程中,你可以创建一个方法,接受Word文档的输入流和HTML输出流,使用Apache POI读取Word,构建HTML结构,并写入到输出流中。这样就可以实现Word到HTML的在线转换服务。 通过以上步骤,我们可以利用Apache ...

    java poi读取word

    总的来说,Java POI提供了一套强大的工具,使开发者能够在Java应用程序中对Word文档进行深入的读写操作。但要注意,由于Word文档的复杂性,有时可能需要对库进行扩展或结合其他技术来满足所有需求。

    java Apache poi 对word doc文件进行读写操作

    Apache POI 是一个流行的 Java 库,用于处理 Microsoft Office 格式,如 Word、Excel 和 PowerPoint。在处理 Word .doc 文件时,POI 提供了一个名为 HWPF(Horizontally Written Property Set Files)的模块。这个...

    Java POI读取word生成

    在Java编程中,使用POI库可以实现自动化操作,例如读取、创建、修改和展示这些文件。在这个场景中,我们关注的是如何利用Java POI来生成Word文档,以便有效地展示和规范数据。 首先,理解POI的基本概念是很重要的。...

    安卓使用poi XWPFDocument读取及修改word文档

    3. **读取Word文档** 使用XWPFDocument读取.docx文档,首先需要创建一个FileInputStream对象,然后使用XWPFDocument的构造函数加载文件。例如: ```java FileInputStream fis = new FileInputStream("path_to_...

    poi操作word表格

    使用Apache POI,我们可以创建、修改、读取和格式化Word文档中的表格。以下是一些关键知识点: 1. **创建表格**: - 使用`XWPFDocument`类来创建一个新的Word文档实例。 - 通过`createTable()`方法创建表格,并...

    利用poi+word模版书签,向word中插入数据

    1. **创建或读取Word模板**:使用Apache POI的XWPFDocument类,加载预先设计好的包含书签的Word模板文件。 2. **查找书签**:通过XWPFDocument对象的getBookmarks()方法获取模板中的所有书签,每个书签都是一个...

    POI读取word文件内容

    在这个场景中,我们将聚焦于如何使用POI来读取Word文档的内容。 首先,我们需要了解Word的两种基本文件格式:`.doc`和`.docx`。`.doc`是早期版本的Word文档格式,而`.docx`是自Word 2007以来使用的基于XML的压缩...

    POI使用word模板文件循环输出行并导出word

    Word文件本质上是XML格式的,POI通过HWPF(Horizontally-Writeable and Portable Format)组件提供了对旧版Word 97-2003文档的支持,而XWPF(XML Word Processing Format)则用于处理更现代的OpenXML格式的Word文档...

    java采用poi3.16解析word文档

    2、testpoi.java文件(直接运行),是实现读取word文档中的表格的功能,可指定读取word文档中某行某列的文本的内容 3、poidemo是一个web工程,运行后,点击首页中的下载按钮,跳转到ReadWriteAndDownloadDocServlet,...

    利用poi读取word模板文件,并回填逻辑数据,生成并导出需要的word文档源码。解决模板读取异常问题,提供wordUtils工具类(各种功能实现)

    利用poi读取word模板文件,并回填逻辑数据,生成并导出需要的word文档源码。解决模板读取异常问题,提供wordUtils工具类(各种功能实现)

Global site tag (gtag.js) - Google Analytics