下载:
http://mirrors.ibiblio.org/pub/mirrors/maven2/org/textmining/tm-extractors/0.4/
java代码如下:
package extract;
import java.io.*;
import org.textmining.text.extraction.WordExtractor;
public class ExtractorWord {
/**
* @param args
*/
public static String getText(String file){
String s="";
String wordfile=file;
WordExtractor extractor=null;
try {
FileInputStream in=new FileInputStream(new File(wordfile));
extractor=new WordExtractor();
s=extractor.extractText(in);
} catch (IOException e) {
// TODO Auto-generated catch block
e.printStackTrace();
} catch (Exception e) {
// TODO Auto-generated catch block
e.printStackTrace();
}
return s;
}
public static void toTextFile(String doc,String filename) throws Exception{
String s="";
String wordfile=doc;
String txtfile=filename;
WordExtractor extractor=null;
try {
s=getText(wordfile);
PrintWriter pw=new PrintWriter(new FileWriter(new File(filename)));
pw.write(s);
pw.flush();
pw.close();
System.out.print("成功写入文件!");
} catch (IOException e) {
// TODO Auto-generated catch block
e.printStackTrace();
}
}
/**
* @param args
*/
public static void main(String[] args) {
// TODO Auto-generated method stub
try {
String sc=getText("D:/workspace/testsearch2/htmls/ddd.doc");
System.out.print(sc);
toTextFile("D:/workspace/testsearch2/htmls/ddd.doc","D:/workspace/testsearch2/htmls/ddd.txt");
} catch (Exception e) {
// TODO Auto-generated catch block
e.printStackTrace();
}
}
}
效果如下:
分享到:
相关推荐
**全文搜索引擎Lucene入门** 全文搜索引擎Lucene是Apache软件基金会的一个开放源代码项目,它为Java开发者提供了一个高性能、可扩展的信息检索库。Lucene以其强大的文本搜索功能和高效的索引能力,在各种需要全文...
- **文档格式解析**:如何利用Lucene或其周边工具处理常见的文档格式(如PDF、Word等)。 - **工具与扩展**:介绍一些常用的Lucene工具和扩展组件,如Solr、Elasticsearch等。 - **端口移植**:探讨Lucene在不同平台...
4. **查询解析**: Lucene 提供了强大的查询解析器,可以处理各种复杂的查询语法,包括布尔操作符(AND、OR、NOT)、短语查询、通配符查询等。 5. **评分机制**: Lucene 使用 TF-IDF(Term Frequency-Inverse ...
【Lucene入门知识详解】 Lucene是一个基于Java的全文索引引擎工具包,它并不是一个完整的全文搜索引擎,而是提供了一套构建搜索引擎的基础组件。Lucene的主要目标是方便开发者将其集成到各类应用程序中,以实现高效...
这个"lucene-starter"项目看起来是一个入门资源,旨在帮助开发者快速上手并理解如何在自己的应用中使用Lucene。 在Lucene中,主要涉及以下几个核心概念和组件: 1. **索引**:Lucene首先需要对文档进行索引,这个...
Lucene 并没有规定数据源的格式,而只提供了一个通用的结构(Document 对象)来接受索引的输入,因此输入的数据源可以是:数据库、WORD 文档、PDF 文档、HTML 文档等,只要能够设计相应的解析转换器将数据源构造成 ...
- **文档格式解析:** Lucene可以解析常见的文档格式,如PDF、Word文档等,并从中提取文本内容用于索引。 - **性能调优:** 针对大型数据集和高并发场景,Lucene提供了丰富的工具和配置选项来优化性能,例如缓存策略...
- 讨论了如何使用Lucene处理常见的文档格式,如PDF、Word等。 - 包括了工具和技术的介绍。 - **第8章:工具和扩展** - 介绍了可用于增强Lucene功能的工具和插件。 - 包括第三方工具、实用程序等。 - **第9章:...
2. **文档分析(Document Analysis)**:在建立索引之前,Lucene会进行文本预处理,包括分词(Tokenization)、去除停用词(Stop Word Removal)、词形还原(Lemmatization)等步骤,以便更精确地匹配查询。...
《Lucene:中文全文搜索引擎库的入门指南》 Apache Lucene是一个开源的全文搜索引擎库,它为开发者提供了在Java应用程序中实现高级搜索功能的基础。在这个简单的入门程序中,我们将探讨如何利用Lucene进行索引创建...
针对文档检索场景,书中还特别提到了如何解析常见的文档格式,如PDF、Word、Excel等,确保能够从各种来源中提取文本并建立索引。 ### 工具和扩展 为了帮助开发者更好地利用Lucene,本书还介绍了一系列工具和扩展,...
- 这份描述暗示了文档内容详尽且深入,适合希望深入了解Lucene和Solr的读者。 #### 标签解释 - **标签**:“lucene solr 经典” - “经典”一词强调了这些资料在该领域的权威性和长期价值。 - “lucene”和...
2. **文档(Document)**:在Lucene中,每个待搜索的数据单元(如一本书)被视为一个文档。文档包含多个字段(Field),如书名、作者、出版社等。 3. **字段(Field)**:文档由多个字段组成,每个字段有特定的属性...
#### 二、Lucene入门实例 -Lucene是Apache基金会旗下的一个开源文本搜索库,它提供了全面的搜索功能。本章节通过一个简单的实例来介绍如何使用Lucene进行文本索引和搜索,让读者快速上手。 #### 三、Lucene索引的...
解析(Rendering)视图 7.7.6. 实用方法 7.7.7. 继承(Subclassing)动作控制器 7.8. 动作助手 7.8.1. 介绍 7.8.2. 初始化助手 7.8.3. 助手经纪人 7.8.4. 内建的动作助手 7.8.4.1. 动作堆栈(助手) 7.8....