- 浏览: 344783 次
- 性别:
- 来自: 长沙
文章分类
最新评论
-
努力吧飞翔:
...
[ExtJS] MVC应用架构示例 -
coolnight:
[Maven]Nexus 安装与配置 -
Kevin_jiang2011:
官网的文档写的不好。 简单的执行命令,又要重新下载一个ecli ...
jBPM5 入门 -
litterdeer:
好东西....
[ExtJS] MVC应用架构示例 -
basherone:
可以用,谢谢了
[ExtJS] MVC应用架构示例
关键字:POI WORD HWPF
WORD文本组成:文本、图、表和宏。HWPF主要关注文本。
1.
File Information Block (FIB): 文件信息块
2.
文本提取 text extraction
基本文本提取 : org.apache.poi.hwpf.extractor.WordExtractor
getText() : TEXT
getParagraphText() : TEXT
getTextFromPieces() : YMMV
特殊文本提取 : org.apache.poi.hwpf.HWPFDocument
getRange()
输入流: HWPFDocument
3.
页眉和页脚:
a. 创建 org.apache.poi.hwpf.HWPFDocument
b. 创建 org.apache.poi.hwpf.usermodel.HeaderStores
4.
插入文本
Range 范围 Paragraph 段落 CharacterRun ?
insertBefore()
insertAfter()
delete()
5.
读取WORD文档
a. 首先是 File Information Block (FIB):它指定文件的大小,位置,文本开始位置。
b. 开始读取文本块
non-unicode 块 与 unicode 块 的偏移值需要通过掩码来区分。
6.
文本样式
a. 段落样式
b. 字条样式
7.
官方单元测试代码
http://svn.apache.org/viewvc/poi/trunk/src/scratchpad/testcases/org/apache/poi/hwpf/
8.
示例
本程序主要是提取WORD的表格到EXCEL.
运行方法: wordTable2Excel.需要c:\test.doc存在.
WordTable.java
WordTableModel
ExcelUtil
WORD文本组成:文本、图、表和宏。HWPF主要关注文本。
1.
File Information Block (FIB): 文件信息块
2.
文本提取 text extraction
基本文本提取 : org.apache.poi.hwpf.extractor.WordExtractor
getText() : TEXT
getParagraphText() : TEXT
getTextFromPieces() : YMMV
特殊文本提取 : org.apache.poi.hwpf.HWPFDocument
getRange()
输入流: HWPFDocument
3.
页眉和页脚:
a. 创建 org.apache.poi.hwpf.HWPFDocument
b. 创建 org.apache.poi.hwpf.usermodel.HeaderStores
4.
插入文本
Range 范围 Paragraph 段落 CharacterRun ?
insertBefore()
insertAfter()
delete()
5.
读取WORD文档
a. 首先是 File Information Block (FIB):它指定文件的大小,位置,文本开始位置。
b. 开始读取文本块
non-unicode 块 与 unicode 块 的偏移值需要通过掩码来区分。
6.
文本样式
a. 段落样式
b. 字条样式
7.
官方单元测试代码
http://svn.apache.org/viewvc/poi/trunk/src/scratchpad/testcases/org/apache/poi/hwpf/
8.
示例
本程序主要是提取WORD的表格到EXCEL.
运行方法: wordTable2Excel.需要c:\test.doc存在.
WordTable.java
package cn.bisoft.java.poi; import java.io.FileInputStream; import org.apache.poi.hwpf.HWPFDocument; import org.junit.Test; public class WordTable { /** * 转换WORD中的表格内容到EXCEL */ @Test public void wordTable2Excel() { String docName = "c:\\test.doc"; /** 1. 读取WORD表格内容 */ HWPFDocument doc = null; try { doc = new HWPFDocument(new FileInputStream(docName)); } catch (Exception e) { e.printStackTrace(); } String text = doc.getRange().text(); /** 2. 放置分隔符:将不可见字符使用空格(32)替换 */ char[] charArray = text.toCharArray(); for(int i = 0; i < charArray.length; i++) { if (charArray[i] <= 31) { charArray[i] = 32; } } text = String.valueOf(charArray); /** 3. 将内容用空格切片 */ String[] textArray = text.trim().replaceAll("[ ]+", " ").split(" "); /** 4.将数据加载到WORD表格模型对象 */ WordTableModel wtm = new WordTableModel(); for(int i = 0; i < textArray.length; i++) { String s = textArray[i].trim(); // 行首单元格正则匹配 if (s.matches("^[a-zA-Z]$") || s.matches("^[0-9]{2}$") || s.matches("^[0-9]{3}$") || s.matches("^[0-9]{4}$")) { // 换行 wtm.resetMap(); } // 加载数据, 每行内容按顺序加载 到相应单元格 wtm.autoMap(s.trim()); } // 结束加载 wtm.endAutoMap(); /** 5. 保存到EXCEL文件*/ wtm.save2Excel("c:\\test.xls", "sheet1"); } }
WordTableModel
package cn.bisoft.java.poi; import org.apache.poi.ss.usermodel.Cell; import org.apache.poi.ss.usermodel.Row; import org.apache.poi.ss.usermodel.Sheet; import cn.bisoft.java.poi.util.ExcelUtil; public class WordTableModel { public static String SINGLE_WORD = "^[a-z][A-Z]$"; public static String SINGLE_NUMBER = "^[0-9]$"; public static String SINGLE_VAR = "^[0-9a-zA-Z_]$"; public static String PSTN = "^[0-9]{4}[- ]?[0-9]{7}$"; // 固定号码 public static String MSISDN = "^1[0-9]{10}$"; // 移动号码 public static String IDCARD = "(^\\d{15}$)|(^\\d{17}([0-9]|[Xx])$)"; //身份证 public static String EMAIL = "^\\w{3,}@\\w.{3,}\\w{2,}$"; // 电子邮件 private String[][] table = new String[100000][1000]; private int curColumn = 0; private int curRow = 0; public void autoMap(String value) { table[curRow][curColumn] = value; curColumn++; } public void resetMap() { curColumn = 0; curRow++; } public void endAutoMap() { curRow++; } /** * @param fileName */ public void save2Excel(String fileName, String sheetName) { Sheet sheet = ExcelUtil.createSheet(fileName, sheetName); for(int i = 0; i < curRow; i++) { Row row = sheet.createRow(i); for(int j = 0; j < curColumn; j++) { Cell cell = row.createCell(j); cell.setCellValue(table[i][j]); } } ExcelUtil.saveSheet(fileName, sheet); } }
ExcelUtil
package cn.bisoft.java.poi.util; import java.io.FileNotFoundException; import java.io.FileOutputStream; import java.io.IOException; import org.apache.poi.hssf.usermodel.HSSFWorkbook; import org.apache.poi.ss.usermodel.Sheet; import org.apache.poi.ss.usermodel.Workbook; public class ExcelUtil { public static Sheet createSheet(String fileName, String sheetName) { Workbook wb = new HSSFWorkbook(); FileOutputStream fileOut = null; Sheet sheet = null; try { fileOut = new FileOutputStream(fileName); sheet = wb.createSheet(sheetName); wb.write(fileOut); fileOut.close(); } catch (FileNotFoundException e1) { e1.printStackTrace(); } catch (IOException e) { e.printStackTrace(); } return sheet; } public static void saveSheet(String fileName, Sheet sheet) { FileOutputStream fileOut = null; try { fileOut = new FileOutputStream(fileName); sheet.getWorkbook().write(fileOut); fileOut.close(); } catch (FileNotFoundException e) { e.printStackTrace(); } catch (IOException e) { e.printStackTrace(); } } }
- test.doc..zip (6.2 KB)
- 下载次数: 208
发表评论
-
[JMX] jconsole client
2014-12-19 03:26 980jconsole client --------------- ... -
Apache ActiveMQ 入门
2014-11-22 17:53 0Apache ActiveMQ -------------- ... -
tomcat 编译
2014-08-30 15:31 9441. 下载源码 http://svn.apache.org/ ... -
MINA
2014-06-19 12:58 1048MINA(Multipurpose Infrastructur ... -
[Activiti] Activiti in action
2014-01-01 12:19 1116Activiti in action ------------ ... -
elasticsearch 入门
2013-09-10 14:59 0elasticsearch -- 1 安装 1.1 ... -
文本搜索工具
2013-07-18 16:12 1016文本搜索工具 本工具可用于搜索文本内容,并增强了JAR文件内 ... -
[Maven]Nexus 安装与配置
2012-06-02 08:00 79031 下载Nexus http://www.sonatype.o ... -
Quartz CronExpression
2011-10-23 19:39 1465CronExpression ================ ... -
Quartz
2011-10-22 19:21 3034Quartz ========= 1 官网: http:// ... -
将数字转换成中文字符串
2011-10-22 17:08 1746将数字转换成中文字符串 ----------------- ... -
Jakarta ORO
2011-10-09 07:44 2121Jakarta-ORO 是一个Java工具包用来在 Java ... -
DTD 教程
2011-10-01 18:31 1300DTD 教程 -------------- 文 ... -
JAD 的使用
2011-09-08 11:24 1198JAD 的使用 ================ 1. 安装 ... -
FreeMarker 入门
2011-09-04 20:08 1258FreeMarker 入门 ================= ... -
Struts2 启动过程
2011-09-03 00:04 1160Struts2 启动过程: 2 与 3 的顺序应该颠倒 ... -
JAVA 泛型
2011-08-31 08:20 1339JAVA 泛型 ----------- 下面代码解释: 类泛型 ... -
ANT build.dtd
2011-08-30 14:39 1322ANT build.dtd Eclipse 配置自动提示: ... -
Log4j 日志框架入门
2011-08-28 19:43 22491 讨论组: log4j-user@jakarta.apach ... -
Schema Export
2011-08-25 18:26 1108build.xml <?xml version ...
相关推荐
总的来说,Java POI为开发者提供了一套强大且灵活的API,使得在Java环境中创建和编辑Word文档变得可能,包括文字处理、图像插入以及各种图表的生成。通过学习和实践,你可以根据需求定制出满足业务场景的复杂Word...
run.setText("JavaPOI生成word文件。"); run.setColor("696969"); // 设置字体颜色 run.setFontSize(16); // 设置字体大小 ``` 此段代码创建了一个普通的段落,并设置了字体的颜色和大小。此外,还可以设置段落的...
Java POI 是一个开源库,专门用于处理Microsoft Office格式的文件,如Word(.doc, .docx)、Excel(.xls, .xlsx)等。在Java应用中,它被广泛用于读取、创建、更新和修改这些文件。在这个场景中,我们将重点讨论如何...
java poi 实现word文本的替换,支持doc和docx格式的文本替换
- 虽然Java POI是最常见的选择,但还有其他库可以用来处理Word文档,如Apache POI的竞争对手Aspose.Words for Java,或者使用OpenOffice和LibreOffice的JODConverter。 8. **实际应用** - Java POI常用于报表生成...
在本场景中,我们主要关注如何使用Java POI处理Word文档,特别是通过模板来生成新的Word报告。这个过程涉及到对文本、表格和图片的插入操作,这些都是构建复杂报告的关键元素。 首先,我们要理解Java POI中的...
使用java Apache poi 根据word模板生成word报表 仅支持docx格式的word文件,大概是word2010及以后版本,doc格式不支持。 使用说明:https://blog.csdn.net/u012775558/article/details/79678701
Java POI 是一个开源项目,专门用于处理Microsoft Office文件,如Word(.doc/.docx)、Excel(.xls/.xlsx)和PowerPoint(.ppt/.pptx)等。在这个场景中,我们关注的是如何利用Java POI库通过Word模板生成包含特定...
Java POI是一个强大的库,主要用于处理Microsoft Office格式的文件,如Word、Excel和PowerPoint。在本示例中,我们将探讨如何使用POI进行一系列操作,包括将Word文档转换为HTML,以及从数据库导出数据到Excel。 1. ...
Java POI 是一个用于操作Microsoft Office格式文件的开源库,特别是在Java环境中处理Word文档非常有用。在本示例中,我们看到如何使用Java POI来填充Word文档,包括合并单元格、添加图片以及设置字号。以下是对代码...
首先,Apache POI提供了HWPF(Horrible Word Processor Format)和XWPF(XML Word Processor Format)两个类库,分别用于处理老版本的DOC文件和新版本的DOCX文件。在这个项目中,我们更可能使用XWPF,因为DOCX是更...
在Java中,POI库通过HWPFOI和XWPFPOI两个子项目来支持处理Word文档。HWPFOI处理老版本的Word文档(.doc),而XWPFPOI则用于处理基于XML的新版本Word文档(.docx)。这里我们主要讨论的是XWPFPOI,因为现代项目通常更...
Java POI 是一个开源项目,专门用于处理Microsoft Office格式的文件,如Word、Excel和PowerPoint。在Java中,如果你需要生成Word文档,POI库是首选工具之一。本篇文章将详细讲解如何利用Java POI生成Word文档,并...
POI无法读取到word每一段所在的页码。我给出了代码和所有的解释,用POI读取word中的页码。也算是小方法了,基本很准确,为什么要加一个基本呢?因为,分页标志符号在第一行为空白行的时候没有分页符!!所以你的文档...
Java中的Apache POI库是一个强大的工具,专门用于处理Microsoft Office格式的文件,如Excel和Word。在本场景中,我们关注的是如何利用POI来生成Excel报表以及处理Word文档。 一、Java POI与Excel报表生成 1. 创建...
在Java编程领域,Apache POI库是一个非常实用的工具,它允许开发者读写Microsoft Office格式的文件,包括Word(.doc/.docx)、Excel(.xls/.xlsx)和PowerPoint(.ppt/.pptx)。本示例聚焦于使用POI库根据Word模板...
Java 使用 POI 合并两个 Word 文档 Java 是一种流行的编程语言,POI(Poor Obfuscation Implementation)是一个流行的 Java 库,用于操作 Microsoft Office 文件,包括 Word 文档。合并两个 Word 文档是指将两个...
Java POI库是一个强大的工具,专门用于处理Microsoft Office格式的文件,包括Word(.doc和.docx)文档。在这个特定的场景中,我们利用POI将Word文档转换为HTML格式,以便于在网页上展示或者进行其他Web相关的操作。...
Java POI库是Apache软件基金会开发的一个开源项目,专门用于处理Microsoft Office格式的文件,如Word、Excel和PowerPoint。在Java中,如果你需要在Word文档中插入图片,POI库提供了解决方案。这个过程涉及到对Word...