`
234390216
  • 浏览: 10229782 次
  • 性别: Icon_minigender_1
  • 来自: 深圳
博客专栏
A5ee55b9-a463-3d09-9c78-0c0cf33198cd
Oracle基础
浏览量:462459
Ad26f909-6440-35a9-b4e9-9aea825bd38e
springMVC介绍
浏览量:1775243
Ce363057-ae4d-3ee1-bb46-e7b51a722a4b
Mybatis简介
浏览量:1398173
Bdeb91ad-cf8a-3fe9-942a-3710073b4000
Spring整合JMS
浏览量:394947
5cbbde67-7cd5-313c-95c2-4185389601e7
Ehcache简介
浏览量:679875
Cc1c0708-ccc2-3d20-ba47-d40e04440682
Cas简介
浏览量:530770
51592fc3-854c-34f4-9eff-cb82d993ab3a
Spring Securi...
浏览量:1183575
23e1c30e-ef8c-3702-aa3c-e83277ffca91
Spring基础知识
浏览量:467453
4af1c81c-eb9d-365f-b759-07685a32156e
Spring Aop介绍
浏览量:151273
2f926891-9e7a-3ce2-a074-3acb2aaf2584
JAXB简介
浏览量:68022
社区版块
存档分类
最新评论

POI读写Word docx文件

    博客分类:
  • poi
阅读更多

使用POI读写word docx文件

目录

1     docx文件

1.1     通过XWPFWordExtractor

1.2     通过XWPFDocument

2     docx文件

2.1     直接通过XWPFDocument生成

2.2     docx文件作为模板

 

       POI在读写word docx文件时是通过xwpf模块来进行的,其核心是XWPFDocument。一个XWPFDocument代表一个docx文档,其可以用来读docx文档,也可以用来写docx文档。XWPFDocument中主要包含下面这几种对象:

l  XWPFParagraph:代表一个段落。

l  XWPFRun:代表具有相同属性的一段文本。

l  XWPFTable:代表一个表格。

l  XWPFTableRow:表格的一行。

l  XWPFTableCell:表格对应的一个单元格。

 

1       docx文件

       跟读doc文件一样,POI在读docx文件的时候也有两种方式,通过XWPFWordExtractor和通过XWPFDocument。在XWPFWordExtractor读取信息时其内部还是通过XWPFDocument来获取的。

1.1     通过XWPFWordExtractor

       在使用XWPFWordExtractor读取docx文档的内容时,我们只能获取到其文本,而不能获取到其文本对应的属性值。下面是一段使用XWPFWordExtractor来读取docx文档内容的示例代码:

public class XwpfTest {
 
   /**
    * 通过XWPFWordExtractor访问XWPFDocument的内容
    * @throws Exception
    */
   @Test
   public void testReadByExtractor() throws Exception {
      InputStream is = new FileInputStream("D:\\test.docx");
      XWPFDocument doc = new XWPFDocument(is);
      XWPFWordExtractor extractor = new XWPFWordExtractor(doc);
      String text = extractor.getText();
      System.out.println(text);
      CoreProperties coreProps = extractor.getCoreProperties();
      this.printCoreProperties(coreProps);
      this.close(is);
   }
  
   /**
    * 输出CoreProperties信息
    * @param coreProps
    */
   private void printCoreProperties(CoreProperties coreProps) {
      System.out.println(coreProps.getCategory());   //分类
      System.out.println(coreProps.getCreator()); //创建者
      System.out.println(coreProps.getCreated()); //创建时间
      System.out.println(coreProps.getTitle());   //标题
   }
  
   /**
    * 关闭输入流
    * @param is
    */
   private void close(InputStream is) {
      if (is != null) {
         try {
            is.close();
         } catch (IOException e) {
            e.printStackTrace();
         }
      }
   }
  
}

 

 

1.2     通过XWPFDocument

       在通过XWPFDocument读取docx文档时,我们就可以获取到文本比较精确的属性信息了。比如我们可以获取到某一个XWPFParagraphXWPFRun或者是某一个XWPFTable,包括它们对应的属性信息。下面是一个使用XWPFDocument读取docx文档的示例:

public class XwpfTest {
 
   /**
    * 通过XWPFDocument对内容进行访问。对于XWPF文档而言,用这种方式进行读操作更佳。
    * @throws Exception
    */
   @Test
   public void testReadByDoc() throws Exception {
      InputStream is = new FileInputStream("D:\\table.docx");
      XWPFDocument doc = new XWPFDocument(is);
      List<XWPFParagraph> paras = doc.getParagraphs();
      for (XWPFParagraph para : paras) {
         //当前段落的属性
//       CTPPr pr = para.getCTP().getPPr();
         System.out.println(para.getText());
      }
      //获取文档中所有的表格
      List<XWPFTable> tables = doc.getTables();
      List<XWPFTableRow> rows;
      List<XWPFTableCell> cells;
      for (XWPFTable table : tables) {
         //表格属性
//       CTTblPr pr = table.getCTTbl().getTblPr();
         //获取表格对应的行
         rows = table.getRows();
         for (XWPFTableRow row : rows) {
            //获取行对应的单元格
            cells = row.getTableCells();
            for (XWPFTableCell cell : cells) {
                System.out.println(cell.getText());;
            }
         }
      }
      this.close(is);
   }
  
   /**
    * 关闭输入流
    * @param is
    */
   private void close(InputStream is) {
      if (is != null) {
         try {
            is.close();
         } catch (IOException e) {
            e.printStackTrace();
         }
      }
   }
  
}

 

 

2       docx文件

2.1     直接通过XWPFDocument生成

       在使用XWPFDocumentdocx文件时不需要像使用HWPFDocumentdoc文件那样必须从一个doc文件开始,我们可以直接new一个空的XWPFDocument,之后再往这个XWPFDocument里面填充内容,然后再把它写入到对应的输出流中。下面是使用XWPFDocument生成docx文件的示例代码:

public class XwpfTest {
  
   /**
    * 基本的写操作
    * @throws Exception
    */
   @Test
   public void testSimpleWrite() throws Exception {
      //新建一个文档
      XWPFDocument doc = new XWPFDocument();
      //创建一个段落
      XWPFParagraph para = doc.createParagraph();
     
      //一个XWPFRun代表具有相同属性的一个区域。
      XWPFRun run = para.createRun();
      run.setBold(true); //加粗
      run.setText("加粗的内容");
      run = para.createRun();
      run.setColor("FF0000");
      run.setText("红色的字。");
      OutputStream os = new FileOutputStream("D:\\simpleWrite.docx");
      //把doc输出到输出流
      doc.write(os);
      this.close(os);
   }
  
   /***
    * 写一个表格
    * @throws Exception
    */
   @Test
   public void testWriteTable() throws Exception {
      XWPFDocument doc = new XWPFDocument();
      //创建一个5行5列的表格
      XWPFTable table = doc.createTable(5, 5);
      //这里增加的列原本初始化创建的那5行在通过getTableCells()方法获取时获取不到,但通过row新增的就可以。
//    table.addNewCol(); //给表格增加一列,变成6列
      table.createRow(); //给表格新增一行,变成6行
      List<XWPFTableRow> rows = table.getRows();
      //表格属性
      CTTblPr tablePr = table.getCTTbl().addNewTblPr();
      //表格宽度
      CTTblWidth width = tablePr.addNewTblW();
      width.setW(BigInteger.valueOf(8000));
      XWPFTableRow row;
      List<XWPFTableCell> cells;
      XWPFTableCell cell;
      int rowSize = rows.size();
      int cellSize;
      for (int i=0; i<rowSize; i++) {
         row = rows.get(i);
         //新增单元格
         row.addNewTableCell();
         //设置行的高度
         row.setHeight(500);
         //行属性
//       CTTrPr rowPr = row.getCtRow().addNewTrPr();
         //这种方式是可以获取到新增的cell的。
//       List<CTTc> list = row.getCtRow().getTcList();
         cells = row.getTableCells();
         cellSize = cells.size();
         for (int j=0; j<cellSize; j++) {
            cell = cells.get(j);
            if ((i+j)%2==0) {
                //设置单元格的颜色
                cell.setColor("ff0000"); //红色
            } else {
                cell.setColor("0000ff"); //蓝色
            }
            //单元格属性
            CTTcPr cellPr = cell.getCTTc().addNewTcPr();
            cellPr.addNewVAlign().setVal(STVerticalJc.CENTER);
            if (j == 3) {
                //设置宽度
                cellPr.addNewTcW().setW(BigInteger.valueOf(3000));
            }
            cell.setText(i + ", " + j);
         }
      }
      //文件不存在时会自动创建
      OutputStream os = new FileOutputStream("D:\\table.docx");
      //写入文件
      doc.write(os);
      this.close(os);
   }
  
   /**
    * 关闭输出流
    * @param os
    */
   private void close(OutputStream os) {
      if (os != null) {
         try {
            os.close();
         } catch (IOException e) {
            e.printStackTrace();
         }
      }
   }
  
}

 

 

2.2     docx文件作为模板

       当然,我们也可以像写doc文件那样,先以一个docx文件作为模板,然后建立基于该docx文件的XWPFDocument对象,再把里面一些变化的信息在运行时进行替换,之后将XWPFDocument进行输出就可以了。所不同的是XWPFDocument中没有像HWPFDocument中那样的Range可以用来直接替换内容。而且底层的XWPFParagraphXWPFRun也不支持直接将文本进行替换。倒是XWPFRun提供了一个设置文本的方法,不过新的文本不会替换旧的文本,而是会追加到原来的文本之后。现在的一个做法是先找出含有需要替换的变量的XWPFRun,然后将其移除,之后在原来的位置新增一个XWPFRun,其对应的文本是替换变量之后的文本。不过你设置的那个的变量的位置不一定就在一个XWPFRun里面,它有可能会被拆分到两个甚至更多的XWPFRun中,所以不是很有必要的话还是不推荐使用这种方式。

       假设我们有一个docx文件,其内容是这样的:




 

       之后我们以该文件作为模板,利用相关数据把里面的变量进行替换,然后把替换后的文档输出到另一个docx文件中。具体做法如下:

 
public class XwpfTest {
 
   /**
    * 用一个docx文档作为模板,然后替换其中的内容,再写入目标文档中。
    * @throws Exception
    */
   @Test
   public void testTemplateWrite() throws Exception {
      Map<String, Object> params = new HashMap<String, Object>();
      params.put("reportDate", "2014-02-28");
      params.put("appleAmt", "100.00");
      params.put("bananaAmt", "200.00");
      params.put("totalAmt", "300.00");
      String filePath = "D:\\word\\template.docx";
      InputStream is = new FileInputStream(filePath);
      XWPFDocument doc = new XWPFDocument(is);
      //替换段落里面的变量
      this.replaceInPara(doc, params);
      //替换表格里面的变量
      this.replaceInTable(doc, params);
      OutputStream os = new FileOutputStream("D:\\word\\write.docx");
      doc.write(os);
      this.close(os);
      this.close(is);
   }
  
   /**
    * 替换段落里面的变量
    * @param doc 要替换的文档
    * @param params 参数
    */
   private void replaceInPara(XWPFDocument doc, Map<String, Object> params) {
      Iterator<XWPFParagraph> iterator = doc.getParagraphsIterator();
      XWPFParagraph para;
      while (iterator.hasNext()) {
         para = iterator.next();
         this.replaceInPara(para, params);
      }
   }
  
   /**
    * 替换段落里面的变量
    * @param para 要替换的段落
    * @param params 参数
    */
   private void replaceInPara(XWPFParagraph para, Map<String, Object> params) {
      List<XWPFRun> runs;
      Matcher matcher;
      if (this.matcher(para.getParagraphText()).find()) {
         runs = para.getRuns();
         for (int i=0; i<runs.size(); i++) {
            XWPFRun run = runs.get(i);
            String runText = run.toString();
            matcher = this.matcher(runText);
            if (matcher.find()) {
                while ((matcher = this.matcher(runText)).find()) {
                   runText = matcher.replaceFirst(String.valueOf(params.get(matcher.group(1))));
                }
                //直接调用XWPFRun的setText()方法设置文本时,在底层会重新创建一个XWPFRun,把文本附加在当前文本后面,
                //所以我们不能直接设值,需要先删除当前run,然后再自己手动插入一个新的run。
                para.removeRun(i);
                para.insertNewRun(i).setText(runText);
            }
         }
      }
   }
  
   /**
    * 替换表格里面的变量
    * @param doc 要替换的文档
    * @param params 参数
    */
   private void replaceInTable(XWPFDocument doc, Map<String, Object> params) {
      Iterator<XWPFTable> iterator = doc.getTablesIterator();
      XWPFTable table;
      List<XWPFTableRow> rows;
      List<XWPFTableCell> cells;
      List<XWPFParagraph> paras;
      while (iterator.hasNext()) {
         table = iterator.next();
         rows = table.getRows();
         for (XWPFTableRow row : rows) {
            cells = row.getTableCells();
            for (XWPFTableCell cell : cells) {
                paras = cell.getParagraphs();
                for (XWPFParagraph para : paras) {
                   this.replaceInPara(para, params);
                }
            }
         }
      }
   }
  
   /**
    * 正则匹配字符串
    * @param str
    * @return
    */
   private Matcher matcher(String str) {
      Pattern pattern = Pattern.compile("\\$\\{(.+?)\\}", Pattern.CASE_INSENSITIVE);
      Matcher matcher = pattern.matcher(str);
      return matcher;
   }
  
   /**
    * 关闭输入流
    * @param is
    */
   private void close(InputStream is) {
      if (is != null) {
         try {
            is.close();
         } catch (IOException e) {
            e.printStackTrace();
         }
      }
   }
  
   /**
    * 关闭输出流
    * @param os
    */
   private void close(OutputStream os) {
      if (os != null) {
         try {
            os.close();
         } catch (IOException e) {
            e.printStackTrace();
         }
      }
   }
  
}

 

 

       经过上面的代码所示的过程处理后,我们替换变量后新输出来的docx文件的内容是这样的:




 

 

  • 大小: 7.4 KB
  • 大小: 6 KB
分享到:
评论
9 楼 dqatsh 2017-01-24  
替换当前文本
run.setText(runText, 0);
8 楼 senioc 2016-11-11  
ningyun596 写道
嗯。你好, 试了一下你这个代码, 发现没办法做替换啊, 只是把源文件重新复制了一遍。哪里的问题呢?  



---这个问题我找到了,模板文字前必须要回车一行,才能替换成功。
7 楼 zi_wu_xian 2016-08-19  
用POI读word文件还行,要是写文件还是别用poi,生成的文件格式不标准,用户都不能打开了。要是生成文件还是用PageOffice提供的接口比较好。
6 楼 普罗旺斯西索 2016-07-30  
您好,麻烦问一下,如果我的表格不是固定的,想新增表格,怎么做呢
5 楼 Yang_Lei 2016-01-19  
你好,你的这个替换不了啊,我自己做的包括复制你的源码,都没有替换。
4 楼 ningyun596 2016-01-09  
嗯。你好, 试了一下你这个代码, 发现没办法做替换啊, 只是把源文件重新复制了一遍。哪里的问题呢?  
3 楼 chen975311486 2015-12-09  
2 楼 zxcvbnm123zxca 2015-08-07  
顶!顶!顶!
1 楼 xiaoxxabc 2015-07-08  
这个解析word07的文档怎么报错呢
	XWPFDocument doc = new XWPFDocument(is);
就这行代码

相关推荐

    使用POI读写Word文件(兼容doc与docx版本)

    1. **读取Word文件** - 使用`XWPFDocument`类处理.docx文件,`HWPFDocument`类处理.doc文件。打开文件时,需要使用对应的`OPCPackage`或`Package`打开文档包。 - `XWPFDocument document = new XWPFDocument(new ...

    android使用POI操作word docx文档

    1. **初始化读写环境**:首先,你需要创建一个`FileInputStream`对象来读取docx文件,并使用`XWPFDocument`类加载它。同时,准备一个`FileOutputStream`用于保存修改后的文件。 2. **遍历文档内容**:使用`...

    POI读取 word 2003 和 word 2007 的例子

    值得注意的是 POI 在读取 word 文件的时候不会读取 word 文件中的图片信息 还有就是对于 2007 版的 word docx 如果 word 文件中有表格 所有表格中的数据都会在读取出来的字符串的最后 "&gt;这是一个POI读取word 2003 和...

    java Apache poi 对word doc文件进行读写操作

    在实际应用中,Apache POI 的功能不仅限于简单的读写操作,还支持复杂的格式转换、样式调整和模板填充等功能,是 Java 开发者处理 Word 文件的强大工具。然而,需要注意的是,由于 `.doc` 文件格式的复杂性,处理...

    [简单]poi读取word 2007简单文本框值

    标题中的“poi读取word 2007简单文本框值”指的是使用Apache POI库来读取Microsoft Word 2007文档中简单文本框内的文本内容。Apache POI是一个流行的开源Java库,用于处理Microsoft Office格式的文件,如Word(.docx...

    使用poi将word读取后替换指定内容后再次生成新word

    使用poi将word读取后替换指定内容后再次生成新word,本人经过测试,拿来即用!

    poi 动态修改docx窗体域内容,并存为doc格式,节点操作

    2. **读取.docx文件**: 使用`XWPFDocument`类加载.docx文件。例如: ```java FileInputStream fis = new FileInputStream("template.docx"); XWPFDocument document = new XWPFDocument(fis); ``` 3. **遍历...

    java-poi完美读写word(doc/docx)和TXT。附jar包

    **读取Word文档(.doc/.docx):** 1. **HWPF和XWPF**: 对于.doc文件,我们需要导入`org.apache.poi.hwpf.HWPFDocument`类来读取。而对于.docx文件,我们使用`org.apache.poi.xwpf.usermodel.XWPFDocument`。 2. **创建...

    android使用POI操作替换word docx文档中指定内容

    在Android应用开发中,我们可以借助Apache POI的HWPFOI和XWPFPOI子项目来处理.doc和.docx文件。HSSF和XSSF子项目则分别用于处理.xls和.xlsx文件。 **步骤1:添加依赖** 在Android项目中使用Apache POI,需要在build...

    java 利用POI读取Word文件中的内容

    本篇将详细介绍如何利用Apache POI库来读取Word文件中的内容。 首先,理解Apache POI的基本概念。POI是“Poor Obfuscation Implementation”的缩写,最初是为了反向工程微软的文件格式而创建的。如今,它已经成为...

    利用poi读取word模板文件,并回填逻辑数据,生成并导出需要的word文档源码。解决模板读取异常问题,提供wordUtils工具类(各种功能实现)

    利用poi读取word模板文件,并回填逻辑数据,生成并导出需要的word文档源码。解决模板读取异常问题,提供wordUtils工具类(各种功能实现)

    POI实现word和excel在线预览

    对于Word文档(.doc/.docx),POI提供了HWPF(用于旧版的DOC文件)和XWPF(用于DOCX文件)组件。而对于Excel文档(.xls/.xlsx),则有HSSF(针对旧版的BIFF格式)和XSSF(针对OOXML的XLSX格式)组件。这些组件允许...

    JAVA-POI读取word每一段所在页码(附依赖jar包).zip

    我给出了代码和所有的解释,用POI读取word中的页码。也算是小方法了,基本很准确,为什么要加一个基本呢?因为,分页标志符号在第一行为空白行的时候没有分页符!!所以你的文档如果有很多首段空白行的话,不要浪费C...

    android使用Apache POI 3.10操作docx替换指定标识符${...}内容并替换图片

    Apache POI是一个开源的Java库,它允许开发者读取、创建、修改MS Office格式的文件,包括Word(.doc和.docx)、Excel(.xls和.xlsx)和PowerPoint(.ppt和.pptx)。在本案例中,我们将专注于如何使用Apache POI 3.10...

    word内容提取 word转html-POI wps doc docx转html

    Apache POI处理DOC和DOCX文件时,理论上也适用于WPS产生的文档,但可能会遇到一些特定于WPS的格式问题,需要进行额外的测试和适配。 综上所述,Apache POI是一个强大的工具,它使得在Java环境中处理Word文档变得...

    POI读取word文档的文字内容和图片内容

    在本主题中,我们将深入探讨如何使用POI库读取Word文档中的文字内容和图片。 首先,我们需要理解Word文档的基本结构。Word文档本质上是由一系列基于XML的数据存储在.OFFICEML格式的文件中,这使得我们可以通过解析...

    Java实现doc文件转成docx文件

    // 创建一个新段落并添加到.docx文件 XWPFParagraph newParagraph = docx.createParagraph(); newParagraph.setText(text); } // 写入到.docx文件 FileOutputStream fos = new FileOutputStream...

    poi将word转换成html、样式 表格 图片处理

    使用Apache POI的XWPF库,我们可以加载一个.docx文件,XWPFDocument类是处理此类文件的基础。通过XWPFDocument实例,我们可以访问文档中的所有元素。 4. **处理文本样式** XWPFParagraph 和 XWPFRun 对象分别代表...

    POI读取word文件

    以下是一个简单的例子,展示如何读取.docx文件: ```java import org.apache.poi.xwpf.usermodel.*; public class POIDemo { public static void main(String[] args) throws Exception { FileInputStream fis =...

    linux下poi读取word空指针异常问题解决

    ### Linux下使用POI读取Word文件出现空指针异常问题解决方案 #### 问题背景 在使用Apache POI处理Word文档时,在Linux环境下遇到了`java.lang.NullPointerException`异常。异常的具体位置出现在`org.apache.poi....

Global site tag (gtag.js) - Google Analytics