lucene-索引word文档

deepfuture

浏览: 4436877 次
性别:
来自: 湛江

最近访客更多访客>>

linxl2011

mars36

jccz_zys

zkm0309

博主相关

博客

微博

相册

留言

关于我

博客专栏

: SQLite源码剖析
浏览量：80442

: WIN32汇编语言学习应用...
浏览量：71002

: 神奇的perl
浏览量：104307

: lucene等搜索引擎解析...
浏览量：287891

: 深入lucene3.5源码...
浏览量：15200

: VB.NET并行与分布式编...
浏览量：68585

: silverlight 5...
浏览量：32685

: 算法下午茶系列
浏览量：46367

文章分类

社区版块

存档分类

博客分类：

搜索引擎

lucene

1、通过POI项目来索引。

public class POIWordDocHandler implements DocumentHandler{

public Document getDocument(InputStream is)throws DocumentHandlerException{

StringbodyText=null;

try{//提取文本字段,接收word文档的inputstream对象，允许把原文写入writer类，从wrtier类提取

WordDocument wd=new wordDocument(is);

StringWriterdocTextWriter=new StringWriter();

wd.writeAllText(bew PrintWriter(docTextWriter));

docTextWriter.close();

bodyText=docTextWriter.toString();

}

catch(Exception e){

throw new DocumentHandlerException("cannot extracttext from a word document",e);

}

if((bodyText!=null)&&(bodyText.trim().length()>0)){

Document doc=new Document();

doc.add(Field.UnStored("body",bodyText));

return doc;

}

returnnull;

}

public static void main() throwsException{

POIWordDocHandler handler=new POIWordDocHandler();

Documentdoc=handler.getDocument(new FileInputStream(newFile(args[0])));

System.out.println(doc);

}

2、使用TextMining.org包API,支持从WORD6/95

public class TextMiningWordDocHandler implementsDocumentHandler{

publicDocument getDocument throws DocumentHandlerException(){

String bodyText=null;

try{

bodyText=newWordExtractor().extractText(is);//从InputStream对象中提取文本

}

catch (Exception e){

throw new DocumentHandlerException("cannot extract text from a worddocument",e);

}

if((bodyText!=null)&&(bodyText.trim().length()>0)){

Document doc=new Document();

doc.add(Field.unStored("body",bodyText));

return doc;

}

return null;

}

publicstatic void main(String[] args) throws Exception{

TextMiningWordDocHandler handler=newTextMiningWordDocHandler();

Document doc=handler.getDocument(new FileInputStream(newFile(args[0])));

System.out.println(doc);

}

分享到：

lucene-索引HTML文档 | lucene-索引RTF文档

2009-12-24 13:30
浏览 2250
评论(0)
分类:编程语言
查看更多

发表评论

您还没有登录,请您登录后再发表评论