`

java 读取 doc poi读取word中的表.txt

 
阅读更多

import java.io.File;  
import java.io.FileInputStream;  
import java.io.FileNotFoundException;  
  
import org.apache.poi.hwpf.HWPFDocument;  
import org.apache.poi.hwpf.usermodel.Paragraph;  
import org.apache.poi.hwpf.usermodel.Range;  
import org.apache.poi.hwpf.usermodel.Table;  
import org.apache.poi.hwpf.usermodel.TableCell;  
import org.apache.poi.hwpf.usermodel.TableIterator;  
import org.apache.poi.hwpf.usermodel.TableRow;  
  
import java.io.File;     
import java.io.FileInputStream;     
import java.io.InputStream;     
    
import org.apache.poi.POIXMLDocument;     
import org.apache.poi.POIXMLTextExtractor;     
import org.apache.poi.hwpf.extractor.WordExtractor;     
import org.apache.poi.openxml4j.opc.OPCPackage;     
import org.apache.poi.xwpf.extractor.XWPFWordExtractor;    
  
  
import org.apache.poi.poifs.filesystem.POIFSFileSystem;  
  
public class ExportDocImpl  
{  
    public void testWord(){  
        try{  
            FileInputStream in = new FileInputStream("D:\\sinye.doc");//载入文档  
           POIFSFileSystem pfs = new POIFSFileSystem(in);     
            HWPFDocument hwpf = new HWPFDocument(pfs);     
            Range range = hwpf.getRange();//得到文档的读取范围  
            TableIterator it = new TableIterator(range);  
           //迭代文档中的表格  
            while (it.hasNext()) {     
                Table tb = (Table) it.next();     
                //迭代行,默认从0开始  
                for (int i = 0; i < tb.numRows(); i++) {     
                    TableRow tr = tb.getRow(i);     
                    //迭代列,默认从0开始  
                    for (int j = 0; j < tr.numCells(); j++) {     
                        TableCell td = tr.getCell(j);//取得单元格  
                        //取得单元格的内容  
                        for(int k=0;k<td.numParagraphs();k++){     
                            Paragraph para =td.getParagraph(k);     
                            String s = para.text();     
                            System.out.println(s);  
                        } //end for      
                    }   //end for  
                }   //end for  
            } //end while  
        }catch(Exception e){  
            e.printStackTrace();  
        }  
    }//end method  
      
      
           public void testWord1(){  
           try {     
            //word 2003: 图片不会被读取     
            InputStream is = new FileInputStream(new File("D:\\sinye.doc"));     
                  WordExtractor ex = new WordExtractor(is);     
                  String text2003 = ex.getText();     
                  System.out.println(text2003);     
            //word 2007 图片不会被读取, 表格中的数据会被放在字符串的最后     
            OPCPackage opcPackage = POIXMLDocument.openPackage("D:\\sinye.doc");     
                  POIXMLTextExtractor extractor = new XWPFWordExtractor(opcPackage);     
                  String text2007 = extractor.getText();     
                  System.out.println(text2007);     
                 
        } catch (Exception e) {     
                  e.printStackTrace();     
        }   
    }  
}  

分享到:
评论

相关推荐

    java 使用POI合并两个word文档.docx

    Java 使用 POI 合并两个 Word 文档 Java 是一种流行的编程语言,POI(Poor Obfuscation Implementation)是一个流行的 Java 库,用于操作 Microsoft Office 文件,包括 Word 文档。合并两个 Word 文档是指将两个...

    java-poi完美读写word(doc/docx)和TXT。附jar包

    在这个主题中,我们将深入探讨如何使用Java POI库来实现Word(包括.doc和.docx)以及TXT文件的读写操作。 首先,让我们了解一下Java POI的工作原理。POI库提供了HSSF和XSSF两个API,分别用于处理旧版的二进制Excel...

    java 读取 doc docx word 中的内容 数据

    ### Java读取DOC/DOCX/Word文档内容的数据方法 #### 概述 在实际开发过程中,经常需要处理各种格式的文档数据。其中,Word文档(.doc 和 .docx)是最常见的一种类型。Java提供了多种库来读取这些文档中的内容,...

    java 利用POI读取Word文件中的内容

    在提供的压缩包文件中,StreamDemo_17.java可能是实现上述操作的一个示例代码,而Java.jpg可能是一个示例图片,用于展示如何处理Word文档中的图片。通过学习和理解这个例子,你可以更好地掌握使用Apache POI读取Word...

    java Apache poi 对word doc文件进行读写操作

    在实际应用中,Apache POI 的功能不仅限于简单的读写操作,还支持复杂的格式转换、样式调整和模板填充等功能,是 Java 开发者处理 Word 文件的强大工具。然而,需要注意的是,由于 `.doc` 文件格式的复杂性,处理...

    java 读取 word poi用到的jar包文件

    在Java中,使用Apache POI读取Word文档,你需要包含以下关键的jar包文件: 1. **poi-ooxml-schemas**: 包含了用于解析Office Open XML (OOXML)格式的XML Schema定义,Word 2007 (.docx)及之后版本就是以OOXML格式...

    JAVA读取WORD_EXCEL_POWERPOINT_PDF文件的方法(poi)

    JAVA 读取 WORD_EXCEL_POWERPOINT_PDF 文件的方法(poi) JAVA 读取 WORD_EXCEL_POWERPOINT_PDF 文件的方法是使用 Apache POI 库来实现的。POI 库是一个开放源代码的 Java 库,提供了对 Microsoft Office 文件格式...

    java word文档读取;Apache_POI_API.rar;jacob.jar;poi-3.0.2.rar

    在Java程序中,我们导入必要的POI库,然后使用`HWPFDocument`类来读取一个Word文档。以下是一个简单的示例: ```java import org.apache.poi.hwpf.HWPFDocument; import org.apache.poi.hwpf.usermodel.Range; ...

    POI读取 word 2003 和 word 2007 的例子

    值得注意的是 POI 在读取 word 文件的时候不会读取 word 文件中的图片信息 还有就是对于 2007 版的 word docx 如果 word 文件中有表格 所有表格中的数据都会在读取出来的字符串的最后 "&gt;这是一个POI读取word 2003 和...

    Java通过POI读取Excel遍历数据,批量生成word文档

    本教程将重点讲解如何使用Apache POI库来读取Excel数据,并基于这些数据批量生成Word文档。Apache POI是一个开源项目,它允许Java开发者处理Microsoft Office格式的文件,如Excel(.xlsx或.xls)和Word(.docx)。 ...

    POI读取word文档的文字内容和图片内容

    在本主题中,我们将深入探讨如何使用POI库读取Word文档中的文字内容和图片。 首先,我们需要理解Word文档的基本结构。Word文档本质上是由一系列基于XML的数据存储在.OFFICEML格式的文件中,这使得我们可以通过解析...

    JAVA-POI读取word每一段所在页码(附依赖jar包).zip

    我给出了代码和所有的解释,用POI读取word中的页码。也算是小方法了,基本很准确,为什么要加一个基本呢?因为,分页标志符号在第一行为空白行的时候没有分页符!!所以你的文档如果有很多首段空白行的话,不要浪费C...

    利用POI读取excel写入到word

    要实现"利用POI读取excel写入到word",我们需要以下步骤: 1. **准备环境**:首先,确保你的项目已经引入了Apache POI的依赖。在给定的压缩包中,"poi - 副本"可能是包含POI库的JAR文件,你需要将其添加到你的项目...

    java POI-lib,word中写入图片

    在Java中,如果你需要在Word文档中插入图片,POI库提供了解决方案。这个过程涉及到对Word文档的内部结构有深入的理解,包括其XML表示形式,以及如何通过API来操作这些元素。 首先,我们需要导入必要的库,包括POI的...

    [简单]poi读取word 2007简单文本框值

    标题中的“poi读取word 2007简单文本框值”指的是使用Apache POI库来读取Microsoft Word 2007文档中简单文本框内的文本内容。Apache POI是一个流行的开源Java库,用于处理Microsoft Office格式的文件,如Word(.docx...

    java准确读取word页码

    在Java编程环境中,读取Word文档的页码是一项常见的任务,尤其在处理大量文档数据时。这个场景下,我们通常会使用Apache POI库,这是一个强大的API,专门用于处理Microsoft Office格式的文件,包括Word(.doc和.docx...

    java读取Word文档依赖jar包

    在给定的压缩包“poi读取word依赖包”中,应该包含了Apache POI的必要组件。通常,这将包括如`poi-ooxml-schemas`, `poi-ooxml`, `poi`等jar文件。这些文件包含了读取和写入Word文档所需的类和方法。 要开始使用...

    使用POI读写Word文件(兼容doc与docx版本)

    - `Word2003FileUtil.java`:针对.doc文件的工具类,功能与前一个类类似,但适用于旧版Word格式。 - `WordFileUtil.java`:可能是一个通用的工具类,用于根据文件扩展名自动选择使用2007版还是2003版的工具类。 ...

    java 读 doc poi包

    在本篇中,我们将深入探讨如何使用Apache POI读取.doc文件。 Apache POI 提供了 HSSF 和 XSSF API 来分别处理旧版的 .xls 文件和基于 XML 的 .xlsx 文件。对于.doc文件,Apache POI 使用 HWPF (Horrible Word ...

    Java读取Word中的表格(Excel),并导出文件为Excel

    在这个场景中,我们主要关注XSSF,因为Word中的表格可以被导出为.xlsx格式。 1. **导入必要的库**: 在开始编写代码之前,确保在项目中添加了Apache POI的依赖。如果是Maven项目,可以在pom.xml文件中添加以下依赖...

Global site tag (gtag.js) - Google Analytics