`

使用POI读写word docx文件

阅读更多

转自:http://haohaoxuexi.iteye.com/blog/2049110

自测这里好像有个问题:XWPFRun会把${key},分成$、{、key、}来写,不能匹配到想替换的key值,这个有待思考。我目前把匹配符这部分修改了。

目录

1     docx文件

1.1     通过XWPFWordExtractor

1.2     通过XWPFDocument

2     docx文件

2.1     直接通过XWPFDocument生成

2.2     docx文件作为模板

 

       POI在读写word docx文件时是通过xwpf模块来进行的,其核心是XWPFDocument。一个XWPFDocument代表一个docx文档,其可以用来读docx文档,也可以用来写docx文档。XWPFDocument中主要包含下面这几种对象:

l  XWPFParagraph:代表一个段落。

l  XWPFRun:代表具有相同属性的一段文本。

l  XWPFTable:代表一个表格。

l  XWPFTableRow:表格的一行。

l  XWPFTableCell:表格对应的一个单元格。

 

1       docx文件

       跟读doc文件一样,POI在读docx文件的时候也有两种方式,通过XWPFWordExtractor和通过XWPFDocument。在XWPFWordExtractor读取信息时其内部还是通过XWPFDocument来获取的。

1.1     通过XWPFWordExtractor

       在使用XWPFWordExtractor读取docx文档的内容时,我们只能获取到其文本,而不能获取到其文本对应的属性值。下面是一段使用XWPFWordExtractor来读取docx文档内容的示例代码:

Java代码  收藏代码
  1. public class XwpfTest {  
  2.    
  3.    /** 
  4.     * 通过XWPFWordExtractor访问XWPFDocument的内容 
  5.     * @throws Exception 
  6.     */  
  7.    @Test  
  8.    public void testReadByExtractor() throws Exception {  
  9.       InputStream is = new FileInputStream("D:\\test.docx");  
  10.       XWPFDocument doc = new XWPFDocument(is);  
  11.       XWPFWordExtractor extractor = new XWPFWordExtractor(doc);  
  12.       String text = extractor.getText();  
  13.       System.out.println(text);  
  14.       CoreProperties coreProps = extractor.getCoreProperties();  
  15.       this.printCoreProperties(coreProps);  
  16.       this.close(is);  
  17.    }  
  18.     
  19.    /** 
  20.     * 输出CoreProperties信息 
  21.     * @param coreProps 
  22.     */  
  23.    private void printCoreProperties(CoreProperties coreProps) {  
  24.       System.out.println(coreProps.getCategory());   //分类  
  25.       System.out.println(coreProps.getCreator()); //创建者  
  26.       System.out.println(coreProps.getCreated()); //创建时间  
  27.       System.out.println(coreProps.getTitle());   //标题  
  28.    }  
  29.     
  30.    /** 
  31.     * 关闭输入流 
  32.     * @param is 
  33.     */  
  34.    private void close(InputStream is) {  
  35.       if (is != null) {  
  36.          try {  
  37.             is.close();  
  38.          } catch (IOException e) {  
  39.             e.printStackTrace();  
  40.          }  
  41.       }  
  42.    }  
  43.     
  44. }  

 

 

1.2     通过XWPFDocument

       在通过XWPFDocument读取docx文档时,我们就可以获取到文本比较精确的属性信息了。比如我们可以获取到某一个XWPFParagraphXWPFRun或者是某一个XWPFTable,包括它们对应的属性信息。下面是一个使用XWPFDocument读取docx文档的示例:

Java代码  收藏代码
  1. public class XwpfTest {  
  2.    
  3.    /** 
  4.     * 通过XWPFDocument对内容进行访问。对于XWPF文档而言,用这种方式进行读操作更佳。 
  5.     * @throws Exception 
  6.     */  
  7.    @Test  
  8.    public void testReadByDoc() throws Exception {  
  9.       InputStream is = new FileInputStream("D:\\table.docx");  
  10.       XWPFDocument doc = new XWPFDocument(is);  
  11.       List<XWPFParagraph> paras = doc.getParagraphs();  
  12.       for (XWPFParagraph para : paras) {  
  13.          //当前段落的属性  
  14. //       CTPPr pr = para.getCTP().getPPr();  
  15.          System.out.println(para.getText());  
  16.       }  
  17.       //获取文档中所有的表格  
  18.       List<XWPFTable> tables = doc.getTables();  
  19.       List<XWPFTableRow> rows;  
  20.       List<XWPFTableCell> cells;  
  21.       for (XWPFTable table : tables) {  
  22.          //表格属性  
  23. //       CTTblPr pr = table.getCTTbl().getTblPr();  
  24.          //获取表格对应的行  
  25.          rows = table.getRows();  
  26.          for (XWPFTableRow row : rows) {  
  27.             //获取行对应的单元格  
  28.             cells = row.getTableCells();  
  29.             for (XWPFTableCell cell : cells) {  
  30.                 System.out.println(cell.getText());;  
  31.             }  
  32.          }  
  33.       }  
  34.       this.close(is);  
  35.    }  
  36.     
  37.    /** 
  38.     * 关闭输入流 
  39.     * @param is 
  40.     */  
  41.    private void close(InputStream is) {  
  42.       if (is != null) {  
  43.          try {  
  44.             is.close();  
  45.          } catch (IOException e) {  
  46.             e.printStackTrace();  
  47.          }  
  48.       }  
  49.    }  
  50.     
  51. }  

 

 

2       docx文件

2.1     直接通过XWPFDocument生成

       在使用XWPFDocumentdocx文件时不需要像使用HWPFDocumentdoc文件那样必须从一个doc文件开始,我们可以直接new一个空的XWPFDocument,之后再往这个XWPFDocument里面填充内容,然后再把它写入到对应的输出流中。下面是使用XWPFDocument生成docx文件的示例代码:

Java代码  收藏代码
  1. public class XwpfTest {  
  2.     
  3.    /** 
  4.     * 基本的写操作 
  5.     * @throws Exception 
  6.     */  
  7.    @Test  
  8.    public void testSimpleWrite() throws Exception {  
  9.       //新建一个文档  
  10.       XWPFDocument doc = new XWPFDocument();  
  11.       //创建一个段落  
  12.       XWPFParagraph para = doc.createParagraph();  
  13.        
  14.       //一个XWPFRun代表具有相同属性的一个区域。  
  15.       XWPFRun run = para.createRun();  
  16.       run.setBold(true); //加粗  
  17.       run.setText("加粗的内容");  
  18.       run = para.createRun();  
  19.       run.setColor("FF0000");  
  20.       run.setText("红色的字。");  
  21.       OutputStream os = new FileOutputStream("D:\\simpleWrite.docx");  
  22.       //把doc输出到输出流  
  23.       doc.write(os);  
  24.       this.close(os);  
  25.    }  
  26.     
  27.    /*** 
  28.     * 写一个表格 
  29.     * @throws Exception 
  30.     */  
  31.    @Test  
  32.    public void testWriteTable() throws Exception {  
  33.       XWPFDocument doc = new XWPFDocument();  
  34.       //创建一个5行5列的表格  
  35.       XWPFTable table = doc.createTable(55);  
  36.       //这里增加的列原本初始化创建的那5行在通过getTableCells()方法获取时获取不到,但通过row新增的就可以。  
  37. //    table.addNewCol(); //给表格增加一列,变成6列  
  38.       table.createRow(); //给表格新增一行,变成6行  
  39.       List<XWPFTableRow> rows = table.getRows();  
  40.       //表格属性  
  41.       CTTblPr tablePr = table.getCTTbl().addNewTblPr();  
  42.       //表格宽度  
  43.       CTTblWidth width = tablePr.addNewTblW();  
  44.       width.setW(BigInteger.valueOf(8000));  
  45.       XWPFTableRow row;  
  46.       List<XWPFTableCell> cells;  
  47.       XWPFTableCell cell;  
  48.       int rowSize = rows.size();  
  49.       int cellSize;  
  50.       for (int i=0; i<rowSize; i++) {  
  51.          row = rows.get(i);  
  52.          //新增单元格  
  53.          row.addNewTableCell();  
  54.          //设置行的高度  
  55.          row.setHeight(500);  
  56.          //行属性  
  57. //       CTTrPr rowPr = row.getCtRow().addNewTrPr();  
  58.          //这种方式是可以获取到新增的cell的。  
  59. //       List<CTTc> list = row.getCtRow().getTcList();  
  60.          cells = row.getTableCells();  
  61.          cellSize = cells.size();  
  62.          for (int j=0; j<cellSize; j++) {  
  63.             cell = cells.get(j);  
  64.             if ((i+j)%2==0) {  
  65.                 //设置单元格的颜色  
  66.                 cell.setColor("ff0000"); //红色  
  67.             } else {  
  68.                 cell.setColor("0000ff"); //蓝色  
  69.             }  
  70.             //单元格属性  
  71.             CTTcPr cellPr = cell.getCTTc().addNewTcPr();  
  72.             cellPr.addNewVAlign().setVal(STVerticalJc.CENTER);  
  73.             if (j == 3) {  
  74.                 //设置宽度  
  75.                 cellPr.addNewTcW().setW(BigInteger.valueOf(3000));  
  76.             }  
  77.             cell.setText(i + ", " + j);  
  78.          }  
  79.       }  
  80.       //文件不存在时会自动创建  
  81.       OutputStream os = new FileOutputStream("D:\\table.docx");  
  82.       //写入文件  
  83.       doc.write(os);  
  84.       this.close(os);  
  85.    }  
  86.     
  87.    /** 
  88.     * 关闭输出流 
  89.     * @param os 
  90.     */  
  91.    private void close(OutputStream os) {  
  92.       if (os != null) {  
  93.          try {  
  94.             os.close();  
  95.          } catch (IOException e) {  
  96.             e.printStackTrace();  
  97.          }  
  98.       }  
  99.    }  
  100.     
  101. }  

 

 

2.2     docx文件作为模板

       当然,我们也可以像写doc文件那样,先以一个docx文件作为模板,然后建立基于该docx文件的XWPFDocument对象,再把里面一些变化的信息在运行时进行替换,之后将XWPFDocument进行输出就可以了。所不同的是XWPFDocument中没有像HWPFDocument中那样的Range可以用来直接替换内容。而且底层的XWPFParagraphXWPFRun也不支持直接将文本进行替换。倒是XWPFRun提供了一个设置文本的方法,不过新的文本不会替换旧的文本,而是会追加到原来的文本之后。现在的一个做法是先找出含有需要替换的变量的XWPFRun,然后将其移除,之后在原来的位置新增一个XWPFRun,其对应的文本是替换变量之后的文本。不过你设置的那个的变量的位置不一定就在一个XWPFRun里面,它有可能会被拆分到两个甚至更多的XWPFRun中,所以不是很有必要的话还是不推荐使用这种方式。

       假设我们有一个docx文件,其内容是这样的:




 

       之后我们以该文件作为模板,利用相关数据把里面的变量进行替换,然后把替换后的文档输出到另一个docx文件中。具体做法如下:

Java代码  收藏代码
  1.    
  2. public class XwpfTest {  
  3.    
  4.    /** 
  5.     * 用一个docx文档作为模板,然后替换其中的内容,再写入目标文档中。 
  6.     * @throws Exception 
  7.     */  
  8.    @Test  
  9.    public void testTemplateWrite() throws Exception {  
  10.       Map<String, Object> params = new HashMap<String, Object>();  
  11.       params.put("reportDate""2014-02-28");  
  12.       params.put("appleAmt""100.00");  
  13.       params.put("bananaAmt""200.00");  
  14.       params.put("totalAmt""300.00");  
  15.       String filePath = "D:\\word\\template.docx";  
  16.       InputStream is = new FileInputStream(filePath);  
  17.       XWPFDocument doc = new XWPFDocument(is);  
  18.       //替换段落里面的变量  
  19.       this.replaceInPara(doc, params);  
  20.       //替换表格里面的变量  
  21.       this.replaceInTable(doc, params);  
  22.       OutputStream os = new FileOutputStream("D:\\word\\write.docx");  
  23.       doc.write(os);  
  24.       this.close(os);  
  25.       this.close(is);  
  26.    }  
  27.     
  28.    /** 
  29.     * 替换段落里面的变量 
  30.     * @param doc 要替换的文档 
  31.     * @param params 参数 
  32.     */  
  33.    private void replaceInPara(XWPFDocument doc, Map<String, Object> params) {  
  34.       Iterator<XWPFParagraph> iterator = doc.getParagraphsIterator();  
  35.       XWPFParagraph para;  
  36.       while (iterator.hasNext()) {  
  37.          para = iterator.next();  
  38.          this.replaceInPara(para, params);  
  39.       }  
  40.    }  
  41.     
  42.    /** 
  43.     * 替换段落里面的变量 
  44.     * @param para 要替换的段落 
  45.     * @param params 参数 
  46.     */  
  47.    private void replaceInPara(XWPFParagraph para, Map<String, Object> params) {  
  48.       List<XWPFRun> runs;  
  49.       Matcher matcher;  
  50.       if (this.matcher(para.getParagraphText()).find()) {  
  51.          runs = para.getRuns();  
  52.          for (int i=0; i<runs.size(); i++) {  
  53.             XWPFRun run = runs.get(i);  
  54.             String runText = run.toString();  
  55.             matcher = this.matcher(runText);  
  56.             if (matcher.find()) {  
  57.                 while ((matcher = this.matcher(runText)).find()) {  
  58.                    runText = matcher.replaceFirst(String.valueOf(params.get(matcher.group(1))));  
  59.                 }  
  60.                 //直接调用XWPFRun的setText()方法设置文本时,在底层会重新创建一个XWPFRun,把文本附加在当前文本后面,  
  61.                 //所以我们不能直接设值,需要先删除当前run,然后再自己手动插入一个新的run。  
  62.                 para.removeRun(i);  
  63.                 para.insertNewRun(i).setText(runText);  
  64.             }  
  65.          }  
  66.       }  
  67.    }  
  68.     
  69.    /** 
  70.     * 替换表格里面的变量 
  71.     * @param doc 要替换的文档 
  72.     * @param params 参数 
  73.     */  
  74.    private void replaceInTable(XWPFDocument doc, Map<String, Object> params) {  
  75.       Iterator<XWPFTable> iterator = doc.getTablesIterator();  
  76.       XWPFTable table;  
  77.       List<XWPFTableRow> rows;  
  78.       List<XWPFTableCell> cells;  
  79.       List<XWPFParagraph> paras;  
  80.       while (iterator.hasNext()) {  
  81.          table = iterator.next();  
  82.          rows = table.getRows();  
  83.          for (XWPFTableRow row : rows) {  
  84.             cells = row.getTableCells();  
  85.             for (XWPFTableCell cell : cells) {  
  86.                 paras = cell.getParagraphs();  
  87.                 for (XWPFParagraph para : paras) {  
  88.                    this.replaceInPara(para, params);  
  89.                 }  
  90.             }  
  91.          }  
  92.       }  
  93.    }  
  94.     
  95.    /** 
  96.     * 正则匹配字符串 
  97.     * @param str 
  98.     * @return 
  99.     */  
  100.    private Matcher matcher(String str) {  
  101.       Pattern pattern = Pattern.compile("\\$\\{(.+?)\\}", Pattern.CASE_INSENSITIVE);  
  102.       Matcher matcher = pattern.matcher(str);  
  103.       return matcher;  
  104.    }  
  105.     
  106.    /** 
  107.     * 关闭输入流 
  108.     * @param is 
  109.     */  
  110.    private void close(InputStream is) {  
  111.       if (is != null) {  
  112.          try {  
  113.             is.close();  
  114.          } catch (IOException e) {  
  115.             e.printStackTrace();  
  116.          }  
  117.       }  
  118.    }  
  119.     
  120.    /** 
  121.     * 关闭输出流 
  122.     * @param os 
  123.     */  
  124.    private void close(OutputStream os) {  
  125.       if (os != null) {  
  126.          try {  
  127.             os.close();  
  128.          } catch (IOException e) {  
  129.             e.printStackTrace();  
  130.          }  
  131.       }  
  132.    }  
  133.     
  134. }  

 

 

       经过上面的代码所示的过程处理后,我们替换变量后新输出来的docx文件的内容是这样的:




 

 

  • 大小: 7.4 KB
  • 大小: 6 KB
分享到:
评论

相关推荐

    使用POI读写Word文件(兼容doc与docx版本)

    本篇文章将详细介绍如何使用POI来读写Word文件,兼容doc与docx版本。 首先,我们需要理解.doc和.docx的区别。.doc是旧版Microsoft Word(Word 2003及更早版本)使用的文件格式,基于二进制结构;而.docx是Word 2007...

    android使用POI操作word docx文档

    1. **初始化读写环境**:首先,你需要创建一个`FileInputStream`对象来读取docx文件,并使用`XWPFDocument`类加载它。同时,准备一个`FileOutputStream`用于保存修改后的文件。 2. **遍历文档内容**:使用`...

    POI读取 word 2003 和 word 2007 的例子

    值得注意的是 POI 在读取 word 文件的时候不会读取 word 文件中的图片信息 还有就是对于 2007 版的 word docx 如果 word 文件中有表格 所有表格中的数据都会在读取出来的字符串的最后 "&gt;这是一个POI读取word 2003 和...

    java Apache poi 对word doc文件进行读写操作

    在实际应用中,Apache POI 的功能不仅限于简单的读写操作,还支持复杂的格式转换、样式调整和模板填充等功能,是 Java 开发者处理 Word 文件的强大工具。然而,需要注意的是,由于 `.doc` 文件格式的复杂性,处理...

    android使用POI操作替换word docx文档中指定内容

    在Android平台上,Apache POI库通常用于处理Microsoft Office格式的文件,如Word(.docx)、Excel(.xlsx)和PowerPoint(.pptx)。在这个场景中,我们关注的是如何利用POI在Android环境中替换Word文档(.docx)中的...

    使用poi将word读取后替换指定内容后再次生成新word

    使用poi将word读取后替换指定内容后再次生成新word,本人经过测试,拿来即用!

    java-poi完美读写word(doc/docx)和TXT。附jar包

    在这个主题中,我们将深入探讨如何使用Java POI库来实现Word(包括.doc和.docx)以及TXT文件的读写操作。 首先,让我们了解一下Java POI的工作原理。POI库提供了HSSF和XSSF两个API,分别用于处理旧版的二进制Excel...

    [简单]poi读取word 2007简单文本框值

    标题中的“poi读取word 2007简单文本框值”指的是使用Apache POI库来读取Microsoft Word 2007文档中简单文本框内的文本内容。Apache POI是一个流行的开源Java库,用于处理Microsoft Office格式的文件,如Word(.docx...

    poi 动态修改docx窗体域内容,并存为doc格式,节点操作

    在IT行业中,尤其是在文档处理和自动化生成领域,Apache POI是一个非常重要的库,它允许开发者使用Java来操作Microsoft Office格式的文件,如Word(.doc/.docx)、Excel(.xls/.xlsx)等。本教程将专注于如何使用...

    java 利用POI读取Word文件中的内容

    以下是使用POI读取Word文件的基本步骤: 1. **添加依赖**:在项目中引入Apache POI的依赖库。如果你使用的是Maven,可以在pom.xml文件中添加以下依赖: ```xml &lt;groupId&gt;org.apache.poi &lt;artifactId&gt;poi-ooxml...

    android使用Apache POI 3.10操作docx替换指定标识符${...}内容并替换图片

    Apache POI是一个开源的Java库,它允许开发者读取、创建、修改MS Office格式的文件,包括Word(.doc和.docx)、Excel(.xls和.xlsx)和PowerPoint(.ppt和.pptx)。在本案例中,我们将专注于如何使用Apache POI 3.10...

    POI实现word和excel在线预览

    1. **文件解析**:通过POI库读取Word或Excel文件,将内容转换为适合在Web页面上展示的HTML格式。这涉及到解析文档的段落、表格、图片等元素,并转换成HTML标签。 2. **在线预览**:生成的HTML内容可以通过Ajax或者...

    利用poi读取word模板文件,并回填逻辑数据,生成并导出需要的word文档源码。解决模板读取异常问题,提供wordUtils工具类(各种功能实现)

    利用poi读取word模板文件,并回填逻辑数据,生成并导出需要的word文档源码。解决模板读取异常问题,提供wordUtils工具类(各种功能实现)

    poi将word转换成html、样式 表格 图片处理

    使用Apache POI的XWPF库,我们可以加载一个.docx文件,XWPFDocument类是处理此类文件的基础。通过XWPFDocument实例,我们可以访问文档中的所有元素。 4. **处理文本样式** XWPFParagraph 和 XWPFRun 对象分别代表...

    java使用poi读取doc和docx文件的实现示例

    在Java中使用POI读取Word文档(.doc和.docx)时,需要区分这两种格式,因为它们内部存储格式不同,相应地需要使用不同的类库。.doc格式的文件通常使用HWPFDocument类来读取,而.docx格式的文件则使用XWPFDocument类...

    JAVA-POI读取word每一段所在页码(附依赖jar包).zip

    我给出了代码和所有的解释,用POI读取word中的页码。也算是小方法了,基本很准确,为什么要加一个基本呢?因为,分页标志符号在第一行为空白行的时候没有分页符!!所以你的文档如果有很多首段空白行的话,不要浪费C...

    安卓使用poi XWPFDocument读取及修改word文档

    3. **读取Word文档** 使用XWPFDocument读取.docx文档,首先需要创建一个FileInputStream对象,然后使用XWPFDocument的构造函数加载文件。例如: ```java FileInputStream fis = new FileInputStream("path_to_...

    POI读取word文档的文字内容和图片内容

    在本主题中,我们将深入探讨如何使用POI库读取Word文档中的文字内容和图片。 首先,我们需要理解Word文档的基本结构。Word文档本质上是由一系列基于XML的数据存储在.OFFICEML格式的文件中,这使得我们可以通过解析...

    android中poi生成word文档和excel文档

    通常,开发者会使用第三方库如Apache POI-OOXML-Simple,这是一个轻量级的版本,只包含读写XLSX和DOCX文件所需的类。 3. **XML 文件与Word/Excel 文档**:描述中提到了从XML文件中读取数据来生成文档,这可能意味着...

    word内容提取 word转html-POI wps doc docx转html

    - 使用Apache POI读取Word文档。 - 遍历文档内容,提取文本、样式、图片和表格。 - 将这些元素转换为HTML格式的标签和属性。 - 将图片保存到服务器或本地,生成对应的URL。 - 组合HTML代码,生成最终的HTML文件...

Global site tag (gtag.js) - Google Analytics