`

JAVA POI处理WORD

阅读更多
关键字:POI WORD HWPF

WORD文本组成:文本、图、表和宏。HWPF主要关注文本。

1.
File Information Block (FIB): 文件信息块

2.
文本提取  text extraction
基本文本提取 : org.apache.poi.hwpf.extractor.WordExtractor
getText() : TEXT
getParagraphText() : TEXT
getTextFromPieces() : YMMV

特殊文本提取 : org.apache.poi.hwpf.HWPFDocument
getRange()

输入流: HWPFDocument

3.
页眉和页脚:
a. 创建 org.apache.poi.hwpf.HWPFDocument
b. 创建 org.apache.poi.hwpf.usermodel.HeaderStores

4.
插入文本
Range 范围 Paragraph 段落 CharacterRun ?
insertBefore()
insertAfter()
delete()

5.
读取WORD文档
a. 首先是 File Information Block (FIB):它指定文件的大小,位置,文本开始位置。
b. 开始读取文本块
non-unicode 块 与 unicode 块 的偏移值需要通过掩码来区分。

6.
文本样式
a. 段落样式
b. 字条样式

7.
官方单元测试代码
http://svn.apache.org/viewvc/poi/trunk/src/scratchpad/testcases/org/apache/poi/hwpf/

8.
示例
本程序主要是提取WORD的表格到EXCEL.
运行方法: wordTable2Excel.需要c:\test.doc存在.

WordTable.java

package cn.bisoft.java.poi;

import java.io.FileInputStream;
import org.apache.poi.hwpf.HWPFDocument;
import org.junit.Test;

public class WordTable {
	
	/**
	 * 转换WORD中的表格内容到EXCEL
	 */
	@Test
	public void wordTable2Excel()
	{
		String docName = "c:\\test.doc";
		
		/** 1. 读取WORD表格内容 */
		HWPFDocument doc = null;
		
		try {
			doc = new HWPFDocument(new FileInputStream(docName));
		} catch (Exception e) {
			e.printStackTrace();
		} 
		
		String text = doc.getRange().text();
		
		/** 2. 放置分隔符:将不可见字符使用空格(32)替换 */
		char[] charArray = text.toCharArray();
		
		for(int i = 0; i < charArray.length; i++)
		{
			if (charArray[i] <= 31)
			{
				charArray[i] = 32;
			}
		}
		
		text = String.valueOf(charArray);
		
		/** 3. 将内容用空格切片 */
		String[] textArray = text.trim().replaceAll("[ ]+", " ").split(" ");
		
		/** 4.将数据加载到WORD表格模型对象 */
		WordTableModel wtm = new WordTableModel();
		
		for(int i = 0; i < textArray.length; i++)
		{
			String s = textArray[i].trim();
			
			// 行首单元格正则匹配
			if (s.matches("^[a-zA-Z]$") || s.matches("^[0-9]{2}$") || s.matches("^[0-9]{3}$") || s.matches("^[0-9]{4}$"))
			{
				// 换行 
				wtm.resetMap();
			}
			
			// 加载数据, 每行内容按顺序加载 到相应单元格
			wtm.autoMap(s.trim());
			
		}
		
		// 结束加载
		wtm.endAutoMap();
		
		/** 5. 保存到EXCEL文件*/
		wtm.save2Excel("c:\\test.xls", "sheet1");
		
	}
}





WordTableModel
package cn.bisoft.java.poi;

import org.apache.poi.ss.usermodel.Cell;
import org.apache.poi.ss.usermodel.Row;
import org.apache.poi.ss.usermodel.Sheet;

import cn.bisoft.java.poi.util.ExcelUtil;

public class WordTableModel {

	public static  String SINGLE_WORD = "^[a-z][A-Z]$";
	public static  String SINGLE_NUMBER = "^[0-9]$";
	public static  String SINGLE_VAR = "^[0-9a-zA-Z_]$";
	public static  String PSTN = "^[0-9]{4}[- ]?[0-9]{7}$"; // 固定号码
	public static  String MSISDN = "^1[0-9]{10}$"; // 移动号码
	public static  String IDCARD = "(^\\d{15}$)|(^\\d{17}([0-9]|[Xx])$)"; //身份证
	public static  String EMAIL = "^\\w{3,}@\\w.{3,}\\w{2,}$"; // 电子邮件
	
	private String[][] table = new String[100000][1000];
	private int curColumn = 0;
	private int curRow = 0;

	public void autoMap(String value)
	{
		table[curRow][curColumn] = value;
		curColumn++;
	}
	
	public void resetMap()
	{
		curColumn = 0;
		curRow++;
	}
	
	public void endAutoMap()
	{
		curRow++;
	}
	
	/**
	 * @param fileName
	 */
	public void save2Excel(String fileName, String sheetName)
	{
		Sheet sheet = ExcelUtil.createSheet(fileName, sheetName);
		
		for(int i = 0; i < curRow; i++)
		{
			Row row = sheet.createRow(i);
			
			for(int j = 0; j < curColumn; j++)
			{
				Cell cell = row.createCell(j);
				cell.setCellValue(table[i][j]);
			}
		}
		
		ExcelUtil.saveSheet(fileName, sheet);
	}
	
}






ExcelUtil

package cn.bisoft.java.poi.util;

import java.io.FileNotFoundException;
import java.io.FileOutputStream;
import java.io.IOException;

import org.apache.poi.hssf.usermodel.HSSFWorkbook;
import org.apache.poi.ss.usermodel.Sheet;
import org.apache.poi.ss.usermodel.Workbook;

public class ExcelUtil {
	
	public static Sheet createSheet(String fileName, String sheetName)
	{
		Workbook wb = new HSSFWorkbook();
		FileOutputStream fileOut = null;
		Sheet sheet = null;
		
		try {
			fileOut = new FileOutputStream(fileName);
			sheet = wb.createSheet(sheetName);
			wb.write(fileOut);
			fileOut.close();
		} catch (FileNotFoundException e1) {
			e1.printStackTrace();
		} catch (IOException e) {
			e.printStackTrace();
		}
		
		return sheet;
	}
	
	public static void saveSheet(String fileName, Sheet sheet)
	{
		FileOutputStream fileOut = null;
		
		try {
			fileOut = new FileOutputStream(fileName);
			sheet.getWorkbook().write(fileOut);
		    fileOut.close();
		} catch (FileNotFoundException e) {
			e.printStackTrace();
		} catch (IOException e) {
			e.printStackTrace();
		}
	}
}








1
0
分享到:
评论

相关推荐

    java poi导出word

    总的来说,Java POI为开发者提供了一套强大且灵活的API,使得在Java环境中创建和编辑Word文档变得可能,包括文字处理、图像插入以及各种图表的生成。通过学习和实践,你可以根据需求定制出满足业务场景的复杂Word...

    java poi操作word模版文件生成表单和修改

    Java POI 是一个开源库,专门用于处理Microsoft Office格式的文件,如Word(.doc, .docx)、Excel(.xls, .xlsx)等。在Java应用中,它被广泛用于读取、创建、更新和修改这些文件。在这个场景中,我们将重点讨论如何...

    java poi 替换word文本

    java poi 实现word文本的替换,支持doc和docx格式的文本替换

    java POI生成word.zip

    - 虽然Java POI是最常见的选择,但还有其他库可以用来处理Word文档,如Apache POI的竞争对手Aspose.Words for Java,或者使用OpenOffice和LibreOffice的JODConverter。 8. **实际应用** - Java POI常用于报表生成...

    java使用poi将word转为html

    java使用poi将word转为html

    使用java Apache poi 根据word模板生成word报表例子

    使用java Apache poi 根据word模板生成word报表 仅支持docx格式的word文件,大概是word2010及以后版本,doc格式不支持。 使用说明:https://blog.csdn.net/u012775558/article/details/79678701

    Java Poi流 根据Word模板插入相应的文本、表格和图片,生成新的Word报告

    在本场景中,我们主要关注如何使用Java POI处理Word文档,特别是通过模板来生成新的Word报告。这个过程涉及到对文本、表格和图片的插入操作,这些都是构建复杂报告的关键元素。 首先,我们要理解Java POI中的...

    Java Poi流根据Word模板插入相应的文本、表格和图片,并生成新的Word报告。

    Java POI 是一个开源项目,专门用于处理Microsoft Office文件,如Word(.doc/.docx)、Excel(.xls/.xlsx)和PowerPoint(.ppt/.pptx)等。在这个场景中,我们关注的是如何利用Java POI库通过Word模板生成包含特定...

    java poi 填充word(合并单元格,添加图片,设置字号)(csdn)————程序.pdf

    Java POI 是一个用于操作Microsoft Office格式文件的开源库,特别是在Java环境中处理Word文档非常有用。在本示例中,我们看到如何使用Java POI来填充Word文档,包括合并单元格、添加图片以及设置字号。以下是对代码...

    java POI完整示例,POI将word转HTML,数据库倒出数据到Excel等

    Java POI是一个强大的库,主要用于处理Microsoft Office格式的文件,如Word、Excel和PowerPoint。在本示例中,我们将探讨如何使用POI进行一系列操作,包括将Word文档转换为HTML,以及从数据库导出数据到Excel。 1. ...

    Java利用poi对word插入文字图片

    首先,Apache POI提供了HWPF(Horrible Word Processor Format)和XWPF(XML Word Processor Format)两个类库,分别用于处理老版本的DOC文件和新版本的DOCX文件。在这个项目中,我们更可能使用XWPF,因为DOCX是更...

    Java POI 生成Word文档所需的jar包

    Java POI 是一个开源项目,专门用于处理Microsoft Office格式的文件,如Word、Excel和PowerPoint。在Java中,如果你需要生成Word文档,POI库是首选工具之一。本篇文章将详细讲解如何利用Java POI生成Word文档,并...

    JAVA-POI读取word每一段所在页码(附依赖jar包).zip

    POI无法读取到word每一段所在的页码。我给出了代码和所有的解释,用POI读取word中的页码。也算是小方法了,基本很准确,为什么要加一个基本呢?因为,分页标志符号在第一行为空白行的时候没有分页符!!所以你的文档...

    java使用poi根据word模板生成word(图片及文字).zip

    在Java编程领域,Apache POI库是一个非常实用的工具,它允许开发者读写Microsoft Office格式的文件,包括Word(.doc/.docx)、Excel(.xls/.xlsx)和PowerPoint(.ppt/.pptx)。本示例聚焦于使用POI库根据Word模板...

    java利用poi生成excel报表、处理word文档

    Java中的Apache POI库是一个强大的工具,专门用于处理Microsoft Office格式的文件,如Excel和Word。在本场景中,我们关注的是如何利用POI来生成Excel报表以及处理Word文档。 一、Java POI与Excel报表生成 1. 创建...

    java POI-lib,word中写入图片

    Java POI库是Apache软件基金会开发的一个开源项目,专门用于处理Microsoft Office格式的文件,如Word、Excel和PowerPoint。在Java中,如果你需要在Word文档中插入图片,POI库提供了解决方案。这个过程涉及到对Word...

    java运用poi填充word数据并将多个word合并为一个

    在Java编程环境中,Apache POI库是一个非常实用的工具,它允许开发者读写Microsoft Office格式的文件,包括Word文档。本篇文章将详细讲解如何利用Apache POI库在Java中实现Word文档的数据填充以及多文件合并。 1. *...

    java poi把word文档转化为html,支持doc。

    Java POI库是一个强大的工具,专门用于处理Microsoft Office格式的文件,包括Word(.doc和.docx)文档。在这个特定的场景中,我们利用POI将Word文档转换为HTML格式,以便于在网页上展示或者进行其他Web相关的操作。...

Global site tag (gtag.js) - Google Analytics