`
rain_2372
  • 浏览: 684172 次
  • 性别: Icon_minigender_1
  • 来自: 上海
社区版块
存档分类
最新评论

java中lucene解析word工具类

    博客分类:
  • java
阅读更多
java中lucene解析word工具类(读取word文档并查询数据)的方法
packageextract;
importjava.io.*;
importorg.textmining.text.extraction.WordExtractor;
  
publicclassExtractorWord {
/**
* @param args
*/
publicstaticString getText(String file){
String s="";
String wordfile=file;
WordExtractor extractor=null;
try{
FileInputStream in=newFileInputStream(newFile(wordfile));
extractor=newWordExtractor();
s=extractor.extractText(in);
}catch(IOException e) {
// TODO Auto-generated catch block
e.printStackTrace();
}catch(Exception e) {
// TODO Auto-generated catch block
e.printStackTrace();
}
returns;
}
publicstaticvoidtoTextFile(String doc,String filename)throwsException{
String s="";
String wordfile=doc;
String txtfile=filename;
WordExtractor extractor=null;
try{
s=getText(wordfile);
PrintWriter pw=newPrintWriter(newFileWriter(newFile(filename)));
pw.write(s);
pw.flush();
pw.close();
System.out.print("成功写入文件!");
}catch(IOException e) {
// TODO Auto-generated catch block
e.printStackTrace();
}
}
/**
* @param args
*/
publicstaticvoidmain(String[] args) {
// TODO Auto-generated method stub
try{
String sc=getText("D:/workspace/testsearch2/htmls/ddd.doc");
System.out.print(sc);
toTextFile("D:/workspace/testsearch2/htmls/ddd.doc","D:/workspace/testsearch2/htmls/ddd.txt");
}catch(Exception e) {
// TODO Auto-generated catch block
e.printStackTrace();
}
  
}
}

转 http://www.ablanxue.com/prone_3331_1.html
分享到:
评论

相关推荐

    lucene全文检索工具包.zip

    这个工具包中包含了 Lucene 的核心组件,使得开发者能够方便地在应用程序中集成全文搜索功能。 1. **Lucene 概述** - Lucene 是 Java 编写的,它提供了索引和搜索文本的高级功能。 - 它支持倒排索引,这是一种...

    解密搜索引擎lucene & java

    在Java中,jieba分词提供了Java API,可以直接集成到Lucene项目中,进行索引构建和搜索。 文本分类(Text Classification)是将文本数据分配到预定义类别中的过程,常用于垃圾邮件过滤、新闻分类等场景。朴素贝叶斯...

    使用Lucene对doc、docx、pdf、txt文档进行全文检索功能的实现 - 干勾鱼的CSDN博客 - CSDN博客1

    在`LuceneCreateIndex` 类中,我们看到`Directory` 对象(这里是 `SimpleFSDirectory`)被用来存储索引文件,它代表了索引的物理位置。`Analyzer` 是用于分词的关键组件,`StandardAnalyzer` 是默认的分析器,它遵循...

    记录一下 Java 代码实现文件夹、文件的对比,主要包含 word、pdf、文本、图片等相关文件的对比计算,以及计算文本的相似率

    要在其他项目中使用这个JAR包,只需将其添加到项目的类路径中,然后通过`java -cp`命令行选项指定JAR包的位置,调用对应的类和方法。例如,文中提到的`WordCompare.compareWord()`方法可以直接在其他Java程序中调...

    lucene源码和程序

    总之,Lucene是一个强大的全文检索工具,通过其API,开发者可以轻松地在Java应用中实现高效、灵活的搜索功能。无论你是希望为网站添加搜索功能,还是构建大型的企业级搜索解决方案,Lucene都是值得信赖的选择。通过...

    lucene7例子

    7. **工具类**:在标签中提到的"工具",可能指的是Lucene提供的各种工具类,如`Directory`用于存储和加载索引,`Analyzer`用于文本分析,`Document`用于表示索引中的单个文档,以及`Field`用于定义文档字段及其属性...

    基于Java的实例源码-搜索引擎 Lucene.zip

    Lucene是一个强大的全文检索库,由Apache软件基金会开发并维护,它为Java开发者提供了文本搜索功能的工具集。这个"基于Java的实例源码-搜索引擎 Lucene.zip"包含了一个使用Java编写的Lucene搜索引擎的实例代码,版本...

    Lucene的原理完整版pdf

    Lucene是一个高性能、全文检索库,由Apache软件基金会开发并维护,是Java编程语言中广泛使用的搜索引擎库。它提供了一个简单但功能强大的API,用于索引和搜索文本数据,使得开发者可以轻松地在应用程序中实现复杂的...

    lucene in action第二版(word版)

    8. **解析常见文档格式**:Lucene支持解析多种常见的文档格式,如PDF、HTML、Word等,以便从中提取文本进行索引。 9. **工具和扩展**:除了核心库,Lucene还有一系列的工具和扩展,如索引工具、性能基准测试框架等...

    解析pdf、word2003、Excel2003、word2007、Excel2007、PowerPoint、Text jar 文件集合

    解析Word 2003文件涉及到读取其内部结构,例如XML数据,可以使用Apache POI库来实现。POI提供了HWPF组件,专门用于处理旧版的Word文档。 Excel 2003同样是Office套件的一部分,用于处理电子表格和数据分析。它的...

    Lucene,poi3.7等jar

    总的来说,Lucene和Apache POI是Java开发中的重要工具,它们极大地丰富了文本搜索和Office文档处理的能力,为开发者提供了强大的功能,帮助构建更高效、更灵活的应用程序。理解并熟练使用这两个库,对于提升Java...

    lucene3.0 in action

    针对文档检索场景,书中还特别提到了如何解析常见的文档格式,如PDF、Word、Excel等,确保能够从各种来源中提取文本并建立索引。 ### 工具和扩展 为了帮助开发者更好地利用Lucene,本书还介绍了一系列工具和扩展,...

    Lucene5.2.1jar

    作为Java开发者的重要工具,Lucene为构建复杂的全文检索应用提供了强大的支持。本文将深入探讨Lucene 5.2.1版本中的核心概念和技术。 一、Lucene基本架构 1. 文档索引:Lucene首先对文档进行索引,将文本数据转换...

    MMAnalyzer 分词必导入jar包(lucene-core-2.4.1.jar je-analysis-1.5.3.jar)

    你需要将`jeasy-analysis-1.5.3.jar`和`lucene-core-2.4.1.jar`添加到项目的类路径中。如果你使用的是Maven或Gradle这样的构建工具,可以在`pom.xml`或`build.gradle`文件中声明对应的依赖。对于Maven,可以添加如下...

    java开源包4

    PortGroper 是一款java写的开源拒绝服务测试工具,它不是僵尸网络类的ddos,而是使用大量的代理作为bots发起DDOS。Port Groper可以与用测试防火墙,干扰web 统计脚本的跟踪,为网站增加流量..往好了用什么都能干,就是...

    很多java 包 很实用 以及一个UML建模工具

    Java编程语言在软件开发中扮演着重要角色,而这些包和工具是Java开发者日常工作中不可或缺的部分。本压缩包集合了一些非常实用的Java库和一个UML建模工具,旨在提高开发效率和代码质量。 首先,Lucene是一个强大的...

    java开源包6

    PortGroper 是一款java写的开源拒绝服务测试工具,它不是僵尸网络类的ddos,而是使用大量的代理作为bots发起DDOS。Port Groper可以与用测试防火墙,干扰web 统计脚本的跟踪,为网站增加流量..往好了用什么都能干,就是...

    java开源包101

    PortGroper 是一款java写的开源拒绝服务测试工具,它不是僵尸网络类的ddos,而是使用大量的代理作为bots发起DDOS。Port Groper可以与用测试防火墙,干扰web 统计脚本的跟踪,为网站增加流量..往好了用什么都能干,就是...

    java开源包9

    PortGroper 是一款java写的开源拒绝服务测试工具,它不是僵尸网络类的ddos,而是使用大量的代理作为bots发起DDOS。Port Groper可以与用测试防火墙,干扰web 统计脚本的跟踪,为网站增加流量..往好了用什么都能干,就是...

    java开源包5

    PortGroper 是一款java写的开源拒绝服务测试工具,它不是僵尸网络类的ddos,而是使用大量的代理作为bots发起DDOS。Port Groper可以与用测试防火墙,干扰web 统计脚本的跟踪,为网站增加流量..往好了用什么都能干,就是...

Global site tag (gtag.js) - Google Analytics