- 浏览: 3572513 次
- 性别:
- 来自: 杭州
文章分类
- 全部博客 (1491)
- Hibernate (28)
- spring (37)
- struts2 (19)
- jsp (12)
- servlet (2)
- mysql (24)
- tomcat (3)
- weblogic (1)
- ajax (36)
- jquery (47)
- html (43)
- JS (32)
- ibatis (0)
- DWR (3)
- EXTJS (43)
- Linux (15)
- Maven (3)
- python (8)
- 其他 (8)
- JAVASE (6)
- java javase string (0)
- JAVA 语法 (3)
- juddiv3 (15)
- Mule (1)
- jquery easyui (2)
- mule esb (1)
- java (644)
- log4j (4)
- weka (12)
- android (257)
- web services (4)
- PHP (1)
- 算法 (18)
- 数据结构 算法 (7)
- 数据挖掘 (4)
- 期刊 (6)
- 面试 (5)
- C++ (1)
- 论文 (10)
- 工作 (1)
- 数据结构 (6)
- JAVA配置 (1)
- JAVA垃圾回收 (2)
- SVM (13)
- web st (1)
- jvm (7)
- weka libsvm (1)
- weka屈伟 (1)
- job (2)
- 排序 算法 面试 (3)
- spss (2)
- 搜索引擎 (6)
- java 爬虫 (6)
- 分布式 (1)
- data ming (1)
- eclipse (6)
- 正则表达式 (1)
- 分词器 (2)
- 张孝祥 (1)
- solr (3)
- nutch (1)
- 爬虫 (4)
- lucene (3)
- 狗日的腾讯 (1)
- 我的收藏网址 (13)
- 网络 (1)
- java 数据结构 (22)
- ACM (7)
- jboss (0)
- 大纸 (10)
- maven2 (0)
- elipse (0)
- SVN使用 (2)
- office (1)
- .net (14)
- extjs4 (2)
- zhaopin (0)
- C (2)
- spring mvc (5)
- JPA (9)
- iphone (3)
- css (3)
- 前端框架 (2)
- jui (1)
- dwz (1)
- joomla (1)
- im (1)
- web (2)
- 1 (0)
- 移动UI (1)
- java (1)
- jsoup (1)
- 管理模板 (2)
- javajava (1)
- kali (7)
- 单片机 (1)
- 嵌入式 (1)
- mybatis (2)
- layui (7)
- asp (12)
- asp.net (1)
- sql (1)
- c# (4)
- andorid (1)
- 地价 (1)
- yihuo (1)
- oracle (1)
最新评论
-
endual:
https://blog.csdn.net/chenxbxh2 ...
IE6 bug -
ice86rain:
你好,ES跑起来了吗?我的在tomcat启动时卡在这里Hibe ...
ES架构技术介绍 -
TopLongMan:
...
java public ,protect,friendly,private的方法权限(转) -
贝塔ZQ:
java实现操作word中的表格内容,用插件实现的话,可以试试 ...
java 读取 doc poi读取word中的表格(转) -
ysj570440569:
Maven多模块spring + springMVC + JP ...
Spring+SpringMVC+JPA
Jakarta POI 是apache的子项目,目标是处理ole2对象。它提供了一组操纵Windows文档的Java API。在网上见到好多通过poi读取excel的文章,读写也很方便,和jxl有的一比。在这里,主要是poi对word中的表格数据读取。
具体见代码
- import java.io.File;
- import java.io.FileInputStream;
- import java.io.FileNotFoundException;
- import org.apache.poi.hwpf.HWPFDocument;
- import org.apache.poi.hwpf.usermodel.Paragraph;
- import org.apache.poi.hwpf.usermodel.Range;
- import org.apache.poi.hwpf.usermodel.Table;
- import org.apache.poi.hwpf.usermodel.TableCell;
- import org.apache.poi.hwpf.usermodel.TableIterator;
- import org.apache.poi.hwpf.usermodel.TableRow;
- import java.io.File;
- import java.io.FileInputStream;
- import java.io.InputStream;
- import org.apache.poi.POIXMLDocument;
- import org.apache.poi.POIXMLTextExtractor;
- import org.apache.poi.hwpf.extractor.WordExtractor;
- import org.apache.poi.openxml4j.opc.OPCPackage;
- import org.apache.poi.xwpf.extractor.XWPFWordExtractor;
- import org.apache.poi.poifs.filesystem.POIFSFileSystem;
- public class ExportDocImpl
- {
- public void testWord(){
- try{
- FileInputStream in = new FileInputStream("D:\\sinye.doc");//载入文档
- POIFSFileSystem pfs = new POIFSFileSystem(in);
- HWPFDocument hwpf = new HWPFDocument(pfs);
- Range range = hwpf.getRange();//得到文档的读取范围
- TableIterator it = new TableIterator(range);
- //迭代文档中的表格
- while (it.hasNext()) {
- Table tb = (Table) it.next();
- //迭代行,默认从0开始
- for (int i = 0; i < tb.numRows(); i++) {
- TableRow tr = tb.getRow(i);
- //迭代列,默认从0开始
- for (int j = 0; j < tr.numCells(); j++) {
- TableCell td = tr.getCell(j);//取得单元格
- //取得单元格的内容
- for(int k=0;k<td.numParagraphs();k++){
- Paragraph para =td.getParagraph(k);
- String s = para.text();
- System.out.println(s);
- } //end for
- } //end for
- } //end for
- } //end while
- }catch(Exception e){
- e.printStackTrace();
- }
- }//end method
- public void testWord1(){
- try {
- //word 2003: 图片不会被读取
- InputStream is = new FileInputStream(new File("D:\\sinye.doc"));
- WordExtractor ex = new WordExtractor(is);
- String text2003 = ex.getText();
- System.out.println(text2003);
- //word 2007 图片不会被读取, 表格中的数据会被放在字符串的最后
- OPCPackage opcPackage = POIXMLDocument.openPackage("D:\\sinye.doc");
- POIXMLTextExtractor extractor = new XWPFWordExtractor(opcPackage);
- String text2007 = extractor.getText();
- System.out.println(text2007);
- } catch (Exception e) {
- e.printStackTrace();
- }
- }
- }
评论
8 楼 wangyu1221 2011-01-22 引用
我孤陋寡闻了,原来poi还能读word……我都只用poi来写excel的报表
renyy 写道
Lz你好,在使用你事例代码时发现如果表格中数据不是中文时在输出时为出现“”这种不能识别的字符,请问有没有解决方案呢?例如,有一个2行2列的表格,数据如下:
aa 中文没问题
bb GC231
输出为 aa.中文没问题..bb.GC231
GC231后面的标志怎么处理呢?(它的值不是特定的)
aa 中文没问题
bb GC231
输出为 aa.中文没问题..bb.GC231
GC231后面的标志怎么处理呢?(它的值不是特定的)
请试着在你取出的数据后面用trim()方法截取一下,我出现过这种问题,trim()后就好了!
Lz你好,在使用你事例代码时发现如果表格中数据不是中文时在输出时为出现“”这种不能识别的字符,请问有没有解决方案呢?例如,有一个2行2列的表格,数据如下:
aa 中文没问题
bb GC231
输出为 aa.中文没问题..bb.GC231
GC231后面的标志怎么处理呢?(它的值不是特定的)
aa 中文没问题
bb GC231
输出为 aa.中文没问题..bb.GC231
GC231后面的标志怎么处理呢?(它的值不是特定的)
poi之前好一阵没有人维护word部分了,apache的poi介绍也在招poi的维护,后来看到支持2007了,能够满足一些很基本的功能
介绍说因为word不是开源的,建议学习openOffice的代码再去帮apache做开发
介绍说因为word不是开源的,建议学习openOffice的代码再去帮apache做开发
2 楼 shappy1978 2010-02-09 引用
应该说基本够用了,起码基础的数据都解析出来了,需要我们在上面再努力一把。
2007的支持就相当弱了,除了表格没定位,修订内容没定位,宏替换处理的不好还有相当多的问题,看源码里面相当多的todo就知道了
2007的支持就相当弱了,除了表格没定位,修订内容没定位,宏替换处理的不好还有相当多的问题,看源码里面相当多的todo就知道了
评论
2 楼
贝塔ZQ
2016-09-19
java实现操作word中的表格内容,用插件实现的话,可以试试PageOffice插件,专门操作office文件的
1 楼
mmmmmmlei
2016-04-14
楼主要解析后的word文档的部分内容;这个怎么做?不能equal;因为要的内容多;
发表评论
-
snmp
2020-04-13 11:07 442https://www.iteye.com/blog/zhan ... -
snmp
2020-04-10 21:33 579https://blog.csdn.net/qq_333141 ... -
服务器监控软件
2019-12-31 11:07 529[ERROR] org.hyperic.sigar.Sigar ... -
多数据源
2019-12-23 22:09 475https://gitee.com/baomidou/dyna ... -
mybatis多数据源
2019-12-23 18:09 467https://blog.csdn.net/qq_288042 ... -
springboot ueditor
2019-12-17 18:26 393https://blog.csdn.net/u01216982 ... -
java支持多数据源
2019-12-13 15:59 474spxcms是否支持多数据源 ... -
java日志
2019-12-10 12:01 311https://blog.csdn.net/peng_wei_ ... -
spring 多数据源
2019-12-06 09:55 442https://www.jb51.net/article/10 ... -
idea
2019-12-04 17:13 421https://blog.csdn.net/dengachao ... -
手机大屏
2019-11-30 16:02 362http://demo.demohuo.top/modals/ ... -
quarz配置
2019-11-08 11:48 486https://blog.csdn.net/BryantLmm ... -
mysql同步
2019-11-06 12:20 363https://blog.csdn.net/baidu_418 ... -
nginx配置多个服务
2019-11-04 20:35 795https://blog.csdn.net/everljs/a ... -
h5 加壳
2019-11-04 16:05 638https://jingyan.baidu.com/artic ... -
jeui 前端框架
2019-10-22 14:30 1224http://www.jemui.com/demo/ http ... -
jeui 维护
2019-10-22 14:29 2http://www.jemui.com/demo/ htt ... -
jeui 维护
2019-10-22 14:29 2http://www.jemui.com/demo/ -
jeui 维护
2019-10-22 14:29 2http://www.jemui.com/demo/ -
jeui 维护
2019-10-22 14:29 2http://www.jemui.com/demo/
相关推荐
在Java编程中,Apache POI库是一个非常实用的工具,它允许开发者读写Microsoft Office格式的文件,如Word(.doc或.docx)、Excel(.xls或.xlsx)和PowerPoint(.ppt或.pptx)。本篇文章将深入探讨如何利用POI库在...
在实际应用中,Apache POI 的功能不仅限于简单的读写操作,还支持复杂的格式转换、样式调整和模板填充等功能,是 Java 开发者处理 Word 文件的强大工具。然而,需要注意的是,由于 `.doc` 文件格式的复杂性,处理...
在这个场景中,我们主要关注XSSF,因为Word中的表格可以被导出为.xlsx格式。 1. **导入必要的库**: 在开始编写代码之前,确保在项目中添加了Apache POI的依赖。如果是Maven项目,可以在pom.xml文件中添加以下依赖...
### Java读取DOC/DOCX/Word文档内容的数据方法 #### 概述 在实际开发过程中,经常需要处理各种格式的文档数据。其中,Word文档(.doc 和 .docx)是最常见的一种类型。Java提供了多种库来读取这些文档中的内容,...
要实现"利用POI读取excel写入到word",我们需要以下步骤: 1. **准备环境**:首先,确保你的项目已经引入了Apache POI的依赖。在给定的压缩包中,"poi - 副本"可能是包含POI库的JAR文件,你需要将其添加到你的项目...
在本示例中,我们将深入探讨如何使用Java和Apache POI库实现Word到PDF的转换,以及解决在转换过程中可能出现的依赖问题。 首先,要实现这个功能,我们需要在项目中添加Apache POI和额外的转换库,如iText或Apache ...
值得注意的是 POI 在读取 word 文件的时候不会读取 word 文件中的图片信息 还有就是对于 2007 版的 word docx 如果 word 文件中有表格 所有表格中的数据都会在读取出来的字符串的最后 ">这是一个POI读取word 2003 和...
本教程将重点讲解如何使用Apache POI库来读取Excel数据,并基于这些数据批量生成Word文档。Apache POI是一个开源项目,它允许Java开发者处理Microsoft Office格式的文件,如Excel(.xlsx或.xls)和Word(.docx)。 ...
在Java编程语言中,Apache POI是一个非常流行的库,它允许开发者处理Microsoft Office格式的文件,包括Word(.doc和.docx)文档。本篇将详细介绍如何利用Apache POI库来读取Word文件中的内容。 首先,理解Apache ...
在本主题中,我们将深入探讨如何使用POI库读取Word文档中的文字内容和图片。 首先,我们需要理解Word文档的基本结构。Word文档本质上是由一系列基于XML的数据存储在.OFFICEML格式的文件中,这使得我们可以通过解析...
XWPFParagraph 和 XWPFRun 对象分别代表Word中的段落和文本运行。这些对象提供了获取和设置字体大小、颜色、样式(如粗体、斜体)等属性的方法。在转换为HTML时,我们需要将这些样式信息转换为CSS样式。 5. **处理...
在Java中,使用Apache POI读取Word文档,你需要包含以下关键的jar包文件: 1. **poi-ooxml-schemas**: 包含了用于解析Office Open XML (OOXML)格式的XML Schema定义,Word 2007 (.docx)及之后版本就是以OOXML格式...
Java POI 是一个开源项目,专门用于处理Microsoft Office文件,如Word(.doc/.docx)、Excel(.xls/.xlsx)和PowerPoint(.ppt/.pptx)等。在这个场景中,我们关注的是如何利用Java POI库通过Word模板生成包含特定...
Java读取Word文档中指定位置(可以自己自定义位置)的表格数据或文本内容 * @param filePath 文档路径 * @param start 指定位置开始读取表格数据的该位置上的字符串 * @param end 指定位置开始结束读取表格数据的该...
我给出了代码和所有的解释,用POI读取word中的页码。也算是小方法了,基本很准确,为什么要加一个基本呢?因为,分页标志符号在第一行为空白行的时候没有分页符!!所以你的文档如果有很多首段空白行的话,不要浪费C...
JAVA 读取 WORD_EXCEL_POWERPOINT_PDF 文件的方法(poi) JAVA 读取 WORD_EXCEL_POWERPOINT_PDF 文件的方法是使用 Apache POI 库来实现的。POI 库是一个开放源代码的 Java 库,提供了对 Microsoft Office 文件格式...
Java 使用 POI 合并两个 Word 文档 Java 是一种流行的编程语言,POI(Poor Obfuscation Implementation)是一个流行的 Java 库,用于操作 Microsoft Office 文件,包括 Word 文档。合并两个 Word 文档是指将两个...
在这个主题中,我们将深入探讨如何使用Java POI库来实现Word(包括.doc和.docx)以及TXT文件的读写操作。 首先,让我们了解一下Java POI的工作原理。POI库提供了HSSF和XSSF两个API,分别用于处理旧版的二进制Excel...
在Java编程环境中,读取Word文档的页码是一项常见的任务,尤其在处理大量文档数据时。这个场景下,我们通常会使用Apache POI库,这是一个强大的API,专门用于处理Microsoft Office格式的文件,包括Word(.doc和.docx...
标题中的“poi读取word 2007简单文本框值”指的是使用Apache POI库来读取Microsoft Word 2007文档中简单文本框内的文本内容。Apache POI是一个流行的开源Java库,用于处理Microsoft Office格式的文件,如Word(.docx...