`

用插件读取doc文档的方法

    博客分类:
  • java
阅读更多

下面用到一个插件 插件可以下载在下面:实例代码如下

 

import java.io.File;
import java.io.FileInputStream;
import java.util.Date;

import org.textmining.text.extraction.WordExtractor;

public class WordReader {

 public static String readDoc(String doc) throws Exception {
  // 创建输入流读取DOC文件
  FileInputStream in = new FileInputStream(new File(doc));
  WordExtractor extractor = null;
  String text = null;
  // 创建WordExtractor
  extractor = new WordExtractor();
  // 对DOC文件进行提取
  text = extractor.extractText(in);
  return text;
 }

 public static void main(String[] args) {
  
  Date startDate = new Date();
  
  try {
   String text = WordReader.readDoc("F:/aa.doc");
   System.out.println(text);
  } catch (Exception e) {
   e.printStackTrace();
  }
  
  Date endDate = new Date();
  System.out.println(endDate.getTime()-startDate.getTime()+"ms");
 }

}

分享到:
评论
2 楼 xwpxcom 2010-11-15  
写关注哈哈,原创帖!
1 楼 mmtye 2010-11-15  
非常简单直观,,,容易理解,要是不用插件就好了……

相关推荐

    C#中用于读取office文件类型的插件(doc、xlsx等)

    为了高效地读取和操作这些文件,开发者可以使用各种插件或库。本文将深入探讨一种被广泛使用的插件——NPOI,它专为处理Office文档而设计,特别是针对描述中提到的读取速度和方便性。 NPOI是一个开源的.NET库,它...

    nc文件的读取与处理.doc

    本文档主要介绍了 nc 文件的读取和处理方法,总结了使用 Excel 插件 NetCDF4Excel 和 Grads software 两种方式来读取和处理 nc 文件的步骤。同时,文档还提供了使用 ncdump 工具来查看 nc 文件的方法。 一、使用 ...

    doc转jpg插件

    5. **使用方法**:安装插件后,用户通常需要打开需要转换的DOC文件,选择插件提供的转换功能,设置参数(如图片质量、分辨率等),然后点击转换按钮。转换完成后,系统会生成对应的JPG文件,用户可以进行保存或直接...

    C++QT实现对pdf、word文档预览以及文本内容的读取

    功能主要实现了1、对pdf、word文件进行预览显示2、读取pdf、word文本数据3、进行文本之间的相似度比较。 资源每段我基本都有详细的过程注解,Demo可以直接运行测试。 pdf的预览及读取我是用的网上的Poppler第三方库...

    C#操作word文档 C#实现Word中表格信息读取

    根据提供的文件信息,我们可以归纳出两个主要的知识点:一是如何使用C#操作Word文档并插入图片;二是如何利用C#批量替换Word文档中的书签文本。下面将对这两个知识点进行详细解析。 ### 一、使用C#操作Word文档并...

    在页面用js调用后台方法,打开doc文件到浏览器

    综上所述,实现“在页面用js调用后台方法,打开doc文件到浏览器”涉及到前端JavaScript与后端服务器的交互、文件服务器的配置、在线预览策略以及安全措施等多个方面。在实际开发中,应结合项目需求和用户体验选择...

    office2003打开2007以上文件插件

    总的来说,这个插件解决了Office 2003用户在处理新格式文件时遇到的障碍,通过安装并使用这个插件,用户可以继续使用他们熟悉的Office 2003界面,同时也能读取和编辑由更新版本的Office创建的文档。使用说明和帮助...

    word2003打开docx文档的插件

    2. **使用在线转换服务**:如果无法安装兼容包,用户还可以选择在线的文件转换服务,将DOCX文件转换为DOC格式,然后再在Word 2003中进行操作。 3. **升级Word版本**:最直接的解决方案是将Word 2003升级到更高版本...

    JavaWord类库操作API_Free Spire.Doc for Java_5.1.0

    1.功能: 1.1 文档转换:Word转PDF/图片/XPS/XML/RTF/...lib文件夹下包含了用于在java程序中的Spire.Doc.jar文件,在项目程序中调用接口方法时,需要导入该jar文件;doc文件下包含了所有类及方法的说明解释等。

    Linux系统中利用node.js提取Word(doc/docx)及PDF文本的内容

    接下来,我们讨论如何提取.doc文档的内容。对于.doc文件,可以使用`antiword`工具。`antiword`不支持.docx格式,但对于旧版的Word文档(.doc),它能有效地提取文本。在Debian或Ubuntu上,你可以通过`apt-get ...

    新建 DOC 文档_error_doc_

    "新建 DOC 文档_error_doc_" 这个标题暗示了在创建或编辑一个名为 "新建 DOC 文档" 的 Microsoft Word 文件时遇到了问题,可能是由于文档内部的图片加载异常或者是文件读取错误导致的。"error doc" 标签进一步确认了...

    android 读word文档 doc docx xls xlsx

    - 另一种方法是使用Webview的插件,如jsPDF或jsWord,它们允许在JavaScript环境中操作Word文档,但这可能需要用户有特定的浏览器支持。 4. **处理Excel文件(xls和xlsx)**: - 对于.xls(BIFF格式)文件,POI的...

    libreoffice python 操作word及excel文档的方法

    为了能够处理来自网络或其他来源的二进制数据,需要实现一个方法来直接从内存中读取DOC文档,并将其转换为LibreOffice可以处理的格式。 ```python def import_from_memory(data): istream = smgr....

    vue element-ui读取pdf文件的方法

    在renderPage方法中,会调用pdf.js的getDocument方法来获取PDF文档对象,然后通过pdfDoc.numPages获取PDF文档的总页数,并将每一页绘制到canvas元素中。这里需要用到canvas元素的2D渲染上下文,并利用PDF文档对象...

    好用文件上传JQ插件

    这个插件能够检查用户选择的文件扩展名,比如只允许上传图片(如.jpg, .png)或文档(如.doc, .pdf)等特定类型的文件,从而避免了因上传不兼容文件导致的应用错误。 其次,获取文件路径虽然在某些浏览器环境下受到...

    gdal插件转json技术方法.doc

    在上述的描述中,提到了使用GDAL将矢量文件(通常为Shapefile,扩展名.shp)转换为GeoJSON格式的方法。GeoJSON是一种基于JSON的地理编码格式,广泛用于Web地图服务和地理空间数据交换。 步骤1: 首先,你需要将要...

    office的word文档转pdf插件

    本文将详细探讨“Office的Word文档转PDF插件”这一主题,包括其适用性、安装方法以及转换过程,以帮助用户更好地理解和应用这种工具。 首先,我们来看标题提到的“word转pdf的插件”,它是一种专门针对Microsoft ...

    Spire.doc免费无水印最新版本.rar

    它提供了从Word文档转换为PDF的功能,同时也支持创建、编辑和读取PDF文件。开发者可以使用Spire.Pdf来添加文本、图像、形状,设置页面布局,添加书签和超链接,甚至进行数字签名和加密,确保PDF文档的安全性。 3. *...

    JAVA用poi解析doc、docx、slx、xlsx

    解析.doc文件时,你需要使用HWPFDocument类来创建一个文档对象,然后通过这个对象可以访问文档的段落、字符等元素。例如: ```java FileInputStream fis = new FileInputStream("document.doc"); HWPFDocument ...

    asp.mvc 在线查看doc文档 ppt、pdt、word、excel实例

    在这个实例中,我们将探讨如何使用ASP.NET MVC来实现在线查看多种文档格式的功能,包括.doc(Word文档)、.ppt(PowerPoint演示文稿)、.pdf(Portable Document Format)以及.xlsx(Excel电子表格)。这个功能在很...

Global site tag (gtag.js) - Google Analytics