lucene-索引纯文本文档 - 深未来(深度创造未来)[deepfuture@yeah.net] - ITeye博客

`

deepfuture

浏览: 4436890 次
性别:
来自: 湛江

最近访客更多访客>>

linxl2011

mars36

jccz_zys

zkm0309

博主相关

博客

微博

相册

收藏

留言

关于我

博客专栏

: SQLite源码剖析
浏览量：80442

: WIN32汇编语言学习应用...
浏览量：71002

: 神奇的perl
浏览量：104307

: lucene等搜索引擎解析...
浏览量：287891

: 深入lucene3.5源码...
浏览量：15200

: VB.NET并行与分布式编...
浏览量：68585

: silverlight 5...
浏览量：32685

: 算法下午茶系列
浏览量：46367

文章分类

社区版块

存档分类

最新评论

yoyo837： counters15 写道目前只支持IE吗？插件的东西是跨浏览 ...
Silverlight 5 轻松开启绚丽的网页3D世界
shuiyunbing：直接在前台导出方式：excel中的单元格样式怎么处理，比如某行 ...
Flex导出Excel
di1984HIT：写的很好~
lucene入门-索引网页
rjguanwen：在win7 64位操作系统下，pygtk的Entry无法输入怎 ...
pygtk-entry
ldl_xz： http://www.9958.pw/post/php_exc ...
PHPExcel常用方法汇总(转载)

lucene-索引纯文本文档

博客分类：

搜索引擎

阅读更多

1、实现纯文本文档的DocumentHandler接口

2、

public class PlainTextHandler implements DocumentHandler

throws DocumentHandlerException{

String bodyText="";

try{

BufferReader br=new BufferedReader(new InputStreamReader(is));

String line=null;

while ((line==br.readline()!=null)){

bodyText+=line;

}

br.close();

}

catch(IOException e)}{

throw new DocumentHandlerException("cannot read the textdocument",e);

}

if(!bodyText.equals("")){

Documentdoc=new Document();

deoc.add(Field.Unstored("body",bodyText));

return doc;

}

return null;

}

public static void main(String[] args) throwsException{

PlainTextHandler handler=new PlainTextHandler();

Documentdoc=handler.getDocument(new File(args[0]));

System.out.println(doc);

}

}

分享到：

lucene-索引word文档 | lucene-创建文档索引处理框架

2009-12-24 13:25
浏览 1473
评论(0)
分类:编程语言
查看更多

评论

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

lucene-4.7.0全套jar包: 1. **分词与索引**：Lucene使用高效的分词器将文档内容分解成独立的词汇项（tokens），然后建立倒排索引。倒排索引是一种数据结构，它将每个词汇项映射到包含该词汇项的文档列表，极大地加速了搜索过程。 2. **搜索...

je-analysis-1.5.3、lucene-core-2.4.1分词组件: 当用户发起搜索请求时，Lucene会利用已建立的索引快速找到匹配的文档，从而返回搜索结果。在分词组件的选择上，"je-analysis-1.5.3"因其简洁的设计和良好的性能而受到青睐。然而，需要注意的是，版本号较旧的...

lucene-core-2.9.2.jar: 2. 索引过程：Lucene的索引过程包括分析（Analyzer）、术语文档表（Term Document Matrix）生成和倒排索引（Inverted Index）的构建。分析阶段将输入文本拆分成有意义的单元——术语，然后创建术语文档表，最后构建...

lucene-core-2.9.4，lucene-core-3.0.2，lucene-core-3.0.3，lucene-core-3.4.0: - **多线程支持**：在3.0系列中，Lucene增强了对多线程环境的支持，允许并发索引和检索操作，提升性能。 3. **Lucene 3.4.0** - **查询执行优化**：3.4.0版本对查询执行引擎进行了重大优化，包括更快的评分计算和...

lucene-core-3.0.2.jar,lucene-demos-3.0.2.jar: 这是Lucene的核心库，包含了所有用于创建、索引和搜索文档的基本组件。它提供了一个高效的倒排索引结构，使得文本搜索变得快速且高效。在3.0.2版本中，Lucene引入了诸多优化，比如更高效的内存管理、更快的搜索速度...

lucene-core-2.4.0.jar: 3. 索引（Index）：索引是Lucene的核心，通过索引，Lucene能够快速定位到相关文档。IndexWriter类用于创建和更新索引，而IndexReader则用于读取索引。 4. 查询解析（Query Parser）：查询解析器将用户的查询语句...

Lucene-core-2.0.0.jar: 首先，Lucene的核心概念包括文档（Document）、字段（Field）、索引（Index）和查询（Query）。一个文档可以包含多个字段，如标题、内容等，每个字段都可以被索引以便搜索。索引是Lucene的核心，它将文本数据转换...

lucene-索引（index）.pdf: Lucene索引的构建和查询都是基于反向索引进行的，这意味着当用户输入查询词时，Lucene能够迅速找到包含这些词的所有文档，而不必遍历整个文档集。 #### 索引文件格式 Lucene索引文件格式是其内部设计的关键部分，...

lucene-core-2.3.0 lucene-core2.4.0以及极易分词器 jar包: `lucene-core-2.3.0` 是Lucene的一个早期版本，它包含了构建基本搜索引擎所需的基本组件，如文档处理、索引创建、查询解析和结果排序等。这个版本可能不包含后来版本中的一些优化和特性，比如更先进的分词技术、性能...

lucene-5.0.0 完整资源(包含Jar包): 1. **分词和索引**：Lucene能够对输入文档进行分词，创建一个高效的倒排索引，使得在大量数据中快速查找匹配项成为可能。这个过程包括分析、tokenization、词干提取和停用词处理等步骤。 2. **查询解析**：用户输入...

最新全文检索 lucene-5.2.1 入门经典实例: - Lucene支持对已索引文档进行更新和删除，保证数据的实时性。在提供的"lucene5.2.1入门经典案例"中，你可以找到如何创建索引、执行查询、高亮显示结果等具体操作的示例代码。这些案例可以帮助初学者快速理解和...

lucene-codecs-4.4.0.zip: 在IT领域，Lucene是一个非常重要的开源全文搜索引擎库，它为开发者提供了强大的文本分析、索引和搜索功能。这里我们关注的是Lucene的4.4.0版本，通过解压"lucene-codecs-4.4.0.zip"，我们可以深入了解其内部机制和...

lucene-2.9.2.jar包+源码: 在Lucene-2.9.2中，索引过程涉及文档分析、字段存储、倒排索引和位图过滤等步骤。在这个过程中，中文分词是关键的一环。对于中文分词，Lucene-2.9.2提供了对多种分词器的支持，如IK分词器、SmartCN分词器等。这些...

最全的lucene-2.4.0jar包: 1. **Lucene核心库**：`lucene-core-2.4.0.jar` 是Lucene的核心组件，提供了索引和查询的基本功能，如文档的添加、删除、更新，以及查询解析和执行。 2. **Analyzer组件**：`lucene-analyzers-2.4.0.jar` 包含了...

lucene-4.6.1官方文档: 在4.6.1版本中，文档详细介绍了如何使用Analyzer对输入文本进行预处理，包括分词、去除停用词、词形还原等步骤，以及如何使用Document和Field对象将数据结构化为可索引的形式。 2. **搜索机制**： Lucene 提供了...

MMAnalyzer 分词必导入jar包（lucene-core-2.4.1.jar je-analysis-1.5.3.jar）: `lucene-core-2.4.1.jar`是Lucene的核心库，包含了Lucene的基础组件和API，如文档处理、索引操作、查询构造等，这些是MMAnalyzer进行分词工作所必需的。在实际项目中，正确导入这两个JAR包是确保MMAnalyzer正常...

lucene-memory-3.0.1.jar: Lucene的主要任务是将非结构化的文本数据转化为可供快速检索的结构化索引，从而提升搜索效率。而在3.0.1版本中，Lucene引入了内存索引（Memory Index）这一概念，即“lucene-memory-3.0.1.jar”，它允许用户在内存中...

lucene-4.7.0官方文档: Lucene提供了强大的文本分析和索引功能，使得开发者可以轻松地在大量数据中实现高效、精确的搜索功能。在Lucene 4.7.0的版本中，官方文档详细阐述了以下几个关键知识点： 1. **Lucene的基本概念**：包括倒排索引...

Lucene-core-2.0.0: - **索引**: Lucene通过分析文档内容，将其转换成倒排索引，使得搜索效率极高。倒排索引是Lucene的核心数据结构。 - **Analyzer**: 分析器负责将输入文本分解为关键词，进行标准化处理，如去除停用词、词形还原等...

Lucene-2.0学习文档: 这个文件是Lucene索引构建过程的核心，它负责将文本数据转换为可搜索的倒排索引。在Lucene中，索引的过程包括分析、文档添加和写入等步骤。`Indexer.java`中可能会包含对`Directory`（存储索引的容器）、`Analyzer`...

Global site tag (gtag.js) - Google Analytics