`
deepfuture
  • 浏览: 4375512 次
  • 性别: Icon_minigender_1
  • 来自: 湛江
博客专栏
073ec2a9-85b7-3ebf-a3bb-c6361e6c6f64
SQLite源码剖析
浏览量:79863
1591c4b8-62f1-3d3e-9551-25c77465da96
WIN32汇编语言学习应用...
浏览量:69456
F5390db6-59dd-338f-ba18-4e93943ff06a
神奇的perl
浏览量:102784
Dac44363-8a80-3836-99aa-f7b7780fa6e2
lucene等搜索引擎解析...
浏览量:284006
Ec49a563-4109-3c69-9c83-8f6d068ba113
深入lucene3.5源码...
浏览量:14910
9b99bfc2-19c2-3346-9100-7f8879c731ce
VB.NET并行与分布式编...
浏览量:66978
B1db2af3-06b3-35bb-ac08-59ff2d1324b4
silverlight 5...
浏览量:31807
4a56b548-ab3d-35af-a984-e0781d142c23
算法下午茶系列
浏览量:45791
社区版块
存档分类
最新评论

lucene-索引RTF文档

阅读更多

1、对RTF进行文本提取操作时可以使用部分JAVA标准类处理(javax.swing.text和javax.swing.text.rtf)

2、

public class JavaBuiltInRTFHanlder implementsDocumentHandler{

public DocumentgetDocument(InputSream is)throws DocumentHandlerException{

StringbodyText=null;

DefaultStyleDocument styledDoc=new DefaultSytldDocument();

try{

new RTFEditorKit().read(is,styledDoc,0);

//通过JAVA内置的RTFEditorKit类从RTF文档中提取文本的内容

botyText=sytledDoc.getText(0,styledDoc.getLength());

}

catch (IOException e){

throw new DocumentHandlerException("cannot extract text from a RTFdocument",e);

}

catch (BadLocationException e){

throw new DocumentHandlerException("cannot extract text from a RTFdocument",e);

}

if (bodyText!=null){

Document doc=new Document();

doc.add(Field.UnStored("body",bodyText));

return doc;

}

return null;

}

public static voidmain(String[] args) throws Exception{

JavaBuiltInRTFHandler handler=new JavaBuiltInRTFHandler();

Document doc=handler.getDocument(new FileInputStream(newFile(args[0]));

System.out.println(doc);

}

}

分享到:
评论

相关推荐

    lucene索引非txt文档笔记

    总的来说,要让 Lucene 支持非文本格式的文档搜索,关键在于使用适当的库将这些文档转换为纯文本,然后利用 Lucene 的 API 进行索引。通过这种方式,你可以实现对 Word、PDF、RTF、HTML 和 XML 文件的有效搜索。

    基于Jakarta Lucene的LIUS索引框架---下载不扣分,回帖加1分,欢迎下载,童叟无欺

    lius4compass的源码、文档、项目 下载不扣分,回帖加1分,欢迎下载,童叟无欺 下面是LIUS的介绍: LIUS是一个基于Jakarta Lucene项目的索引框架。LIUS为Lucene添加了对许多文件格式的进行索引功能如: Ms Word,Ms ...

    Lucene介绍的PPT

    1. **易于构建全文索引**:Lucene允许开发者快速为网站、文档(如RTF、PDF、XML)甚至数据库中的数据建立全文索引,并支持实时更新。 2. **免费与开放源码**:Lucene是开源的,遵循Apache许可证,鼓励分享和改进。 ...

    Lucene 全文检索实践.pdf

    3. **广泛支持文件格式**:Lucene不仅支持纯文本文件的索引,还提供了专门的文档类来处理HTML、XML、PDF和RTF等复杂格式的文档。 4. **丰富的搜索语法**:支持短语、布尔运算符、通配符、模糊搜索以及邻近度搜索等...

    自己动手写网络爬虫(基本全)

    以上是对《自己动手写网络爬虫》相关内容的知识点总结,涵盖了搜索引擎的基础概念、核心技术、数据获取、文档内容提取、自然语言处理以及索引库的创建和用户界面的设计等多个方面,旨在帮助读者全面了解并掌握构建一...

    web开发常用jar

    通过iText不仅可以生成PDF或rtf的文档,而且可以将XML、Html文件转化为PDF文件。 iTextAsian.jar itext中关于亚洲编码的类库,在这里用于中文字体的输入。 junit.jar Junit包,当你运行Hibernate自带的测试...

    解密搜索引擎技术实战:Lucene&Java精华版

    - **3.2.4 Rtf文件**:介绍了如何处理Rtf格式的文档。 - **3.2.5 Excel文件**:讲解了从Excel表格中抽取数据的技术。 - **3.2.6 PowerPoint文件**:探讨了从PPT文档中提取信息的方法。 - **3.3 提取垂直行业信息*...

    java开发常用jar包

    通过iText不仅可以生成PDF或rtf的文档,而且可以将XML、Html文件转化为PDF文件。 iTextAsian.jar itext中关于亚洲编码的类库,在这里用于中文字体的输入。 junit.jar Junit包,当你运行Hibernate自带的测试代码的...

    elasticSearch

    Elasticsearch 的插件可能提供了将 RTF 文档解析为可搜索的结构化数据的能力。 **5. 数据导入与索引** 在处理 RTF 数据时,通常需要先将数据转换成 Elasticsearch 可以理解的格式。这可能涉及到使用 Logstash 或...

    IndexFile (IFile):IFile,基于PHP的框架,用于在文档中建立索引和搜索-开源

    使用Lucene Seach Engine或MySql全文索引文档。 IFile支持多种类型的文档:富文本格式(.rtf); 运动图像专家组-1/2音频第3层(.mp3); 联合摄影专家组(.jpg-.jpeg); 标记图像文件格式(.tiff); Microsoft ...

    高清彩版 自己动手写搜索引擎

    - **5.3 文档排重**:避免重复文档被多次索引,提高搜索引擎的质量。 - **5.4 中文关键词提取**:通过各种算法和技术提取文档中的关键词。 - **5.5 相关搜索**:提供相关搜索建议,增强用户体验。 - **5.6 拼写检查*...

    Elasticsearch的javaapi使用.docx

    通过以上步骤,我们已经了解了如何使用Java API来操作Elasticsearch的基本功能,包括创建索引、添加文档和查询文档。这些操作是构建基于Elasticsearch的应用程序的基础。希望本文能够为正在学习使用Java API操作...

Global site tag (gtag.js) - Google Analytics