1、对RTF进行文本提取操作时可以使用部分JAVA标准类处理(javax.swing.text和javax.swing.text.rtf)
2、
public class JavaBuiltInRTFHanlder implementsDocumentHandler{
public DocumentgetDocument(InputSream is)throws DocumentHandlerException{
StringbodyText=null;
DefaultStyleDocument styledDoc=new DefaultSytldDocument();
try{
new RTFEditorKit().read(is,styledDoc,0);
//通过JAVA内置的RTFEditorKit类从RTF文档中提取文本的内容
botyText=sytledDoc.getText(0,styledDoc.getLength());
}
catch (IOException e){
throw new DocumentHandlerException("cannot extract text from a RTFdocument",e);
}
catch (BadLocationException e){
throw new DocumentHandlerException("cannot extract text from a RTFdocument",e);
}
if (bodyText!=null){
Document doc=new Document();
doc.add(Field.UnStored("body",bodyText));
return doc;
}
return null;
}
public static voidmain(String[] args) throws Exception{
JavaBuiltInRTFHandler handler=new JavaBuiltInRTFHandler();
Document doc=handler.getDocument(new FileInputStream(newFile(args[0]));
System.out.println(doc);
}
}
分享到:
相关推荐
lius4compass的源码、文档、项目 下载不扣分,回帖加1分,欢迎下载,童叟无欺 下面是LIUS的介绍: LIUS是一个基于Jakarta Lucene项目的索引框架。LIUS为Lucene添加了对许多文件格式的进行索引功能如: Ms Word,Ms ...
1. **易于构建全文索引**:Lucene允许开发者快速为网站、文档(如RTF、PDF、XML)甚至数据库中的数据建立全文索引,并支持实时更新。 2. **免费与开放源码**:Lucene是开源的,遵循Apache许可证,鼓励分享和改进。 ...
1. **索引构建**:Lucene 提供了 API 来解析文档、进行文本分词(词典和分词器)、创建倒排索引,并将这些索引存储在磁盘上。倒排索引是一种高效的数据结构,它允许快速查找包含特定单词的文档。 2. **查询解析**:...
3. **广泛支持文件格式**:Lucene不仅支持纯文本文件的索引,还提供了专门的文档类来处理HTML、XML、PDF和RTF等复杂格式的文档。 4. **丰富的搜索语法**:支持短语、布尔运算符、通配符、模糊搜索以及邻近度搜索等...
以上是对《自己动手写网络爬虫》相关内容的知识点总结,涵盖了搜索引擎的基础概念、核心技术、数据获取、文档内容提取、自然语言处理以及索引库的创建和用户界面的设计等多个方面,旨在帮助读者全面了解并掌握构建一...
通过iText不仅可以生成PDF或rtf的文档,而且可以将XML、Html文件转化为PDF文件。 iTextAsian.jar itext中关于亚洲编码的类库,在这里用于中文字体的输入。 junit.jar Junit包,当你运行Hibernate自带的测试...
- **索引库结构设计**:理解Lucene索引库的结构,并设计符合需求的索引结构。 - **创建和维护索引库**:包括创建索引、添加文档、删除文档、更新文档等操作。 - **读写并发控制**:确保索引库在高并发环境下的稳定性...
通过iText不仅可以生成PDF或rtf的文档,而且可以将XML、Html文件转化为PDF文件。 iTextAsian.jar itext中关于亚洲编码的类库,在这里用于中文字体的输入。 junit.jar Junit包,当你运行Hibernate自带的测试代码的...
Elasticsearch 的插件可能提供了将 RTF 文档解析为可搜索的结构化数据的能力。 **5. 数据导入与索引** 在处理 RTF 数据时,通常需要先将数据转换成 Elasticsearch 可以理解的格式。这可能涉及到使用 Logstash 或...
使用Lucene Seach Engine或MySql全文索引文档。 IFile支持多种类型的文档:富文本格式(.rtf); 运动图像专家组-1/2音频第3层(.mp3); 联合摄影专家组(.jpg-.jpeg); 标记图像文件格式(.tiff); Microsoft ...
- **5.3 文档排重**:避免重复文档被多次索引,提高搜索引擎的质量。 - **5.4 中文关键词提取**:通过各种算法和技术提取文档中的关键词。 - **5.5 相关搜索**:提供相关搜索建议,增强用户体验。 - **5.6 拼写检查*...
通过以上步骤,我们已经了解了如何使用Java API来操作Elasticsearch的基本功能,包括创建索引、添加文档和查询文档。这些操作是构建基于Elasticsearch的应用程序的基础。希望本文能够为正在学习使用Java API操作...