lucene入门-解析word文档

deepfuture

浏览: 4397464 次
性别:
来自: 湛江

最近访客更多访客>>

linxl2011

mars36

jccz_zys

zkm0309

博主相关

博客

微博

相册

留言

关于我

博客专栏

: SQLite源码剖析
浏览量：80021

: WIN32汇编语言学习应用...
浏览量：69973

: 神奇的perl
浏览量：103283

: lucene等搜索引擎解析...
浏览量：285555

: 深入lucene3.5源码...
浏览量：15001

: VB.NET并行与分布式编...
浏览量：67489

: silverlight 5...
浏览量：32095

: 算法下午茶系列
浏览量：45963

文章分类

社区版块

存档分类

博客分类：

搜索引擎

lucene

下载:

http://mirrors.ibiblio.org/pub/mirrors/maven2/org/textmining/tm-extractors/0.4/

java代码如下：

package extract;

import java.io.*;
import org.textmining.text.extraction.WordExtractor;

public class ExtractorWord {

/**
* @param args
*/
public static String getText(String file){
String s="";
String wordfile=file;
WordExtractor extractor=null;
try {
FileInputStream in=new FileInputStream(new File(wordfile));
extractor=new WordExtractor();
s=extractor.extractText(in);
} catch (IOException e) {
// TODO Auto-generated catch block
e.printStackTrace();
} catch (Exception e) {
// TODO Auto-generated catch block
e.printStackTrace();
}
return s;
}
public static void toTextFile(String doc,String filename) throws Exception{
String s="";
String wordfile=doc;
String txtfile=filename;
WordExtractor extractor=null;
try {
s=getText(wordfile);
PrintWriter pw=new PrintWriter(new FileWriter(new File(filename)));
pw.write(s);
pw.flush();
pw.close();
System.out.print("成功写入文件！");
} catch (IOException e) {
// TODO Auto-generated catch block
e.printStackTrace();
}
}
/**
* @param args
*/
public static void main(String[] args) {
// TODO Auto-generated method stub
try {
String sc=getText("D:/workspace/testsearch2/htmls/ddd.doc");
System.out.print(sc);
toTextFile("D:/workspace/testsearch2/htmls/ddd.doc","D:/workspace/testsearch2/htmls/ddd.txt");
} catch (Exception e) {
// TODO Auto-generated catch block
e.printStackTrace();
}

}

}
效果如下:

0
顶

0
踩

分享到：

lucene入门-解析pdf(使用pdfbox解析英文PD ... | lucene入门-解析pdf(使用xpdf解析中文PDF ...

2009-12-23 18:39
浏览 2003
评论(0)
分类:编程语言
查看更多

发表评论

您还没有登录,请您登录后再发表评论