lucene分词 - 搜索-gcgmh - ITeye博客

`

gcgmh

浏览: 359219 次
性别:
来自: 北京

最近访客更多访客>>

kevin.shi

12697459

Yan_Sunny

leoeco2000

博主相关

博客

微博

相册

收藏

留言

关于我

文章分类

社区版块

存档分类

最新评论

menghuannvxia：您好，我通过java上传文件到hadoop速度特别慢，怎么回事 ...
hadoop hdfs 一些用法
ydsakyclguozi： ydsakyclguozi 写道david.org 写道错了. ...
hadoop修改默认的心跳检测的时间
ydsakyclguozi： david.org 写道错了. heartbeat.reche ...
hadoop修改默认的心跳检测的时间
mypotatolove：我现在想做用HttpClient从微博中爬取微博动态，能不能跟 ...
httpclient 设置user-agent
青春的、脚步：再者请教：如果查询的字段没有在配置文件的字段中加 termVe ...
solr morelikethis功能

lucene分词

博客分类：

Lucene

阅读更多

1.Analyzer里面有个重要的方法，就是

  public abstract TokenStream tokenStream(String fieldName, Reader reader);

一个TokenStream是用来走访Token的iterator(迭代器)，TokenStream类里面保存分词后的所有Token，里面有个最重要的方法就是next();方法，返回下一个Token。

public abstract class TokenStream {

 public abstract Token next() throws IOException;

 public void close() throws IOException {}

}

一个Tokenizer，is-a TokenStream（派生自TokenStream），其输入为Reader

public abstract class Tokenizer extends TokenStream {

 protected Reader input;

 protected Tokenizer() {}

 protected Tokenizer(Reader input) {

    this.input = input;

 }

 public void close() throws IOException {

    input.close();

 }

}

一个TokenFilter is–a TokenStream(派生自TokenStream)，其义如名就是用来完成对TokenStream的过滤操作，譬如去StopWords，将Token变为小写等。

public abstract class TokenFilter extends TokenStream {

 protected TokenStream input;

 protected TokenFilter() {}

 protected TokenFilter(TokenStream input) {

    this.input = input;

 }

 public void close() throws IOException {

    input.close();

 }

}

一个Analyzer就是一个TokenStream工厂

public abstract class Analyzer { 

 public TokenStream tokenStream(String fieldName, Reader reader)

 {

        return tokenStream(reader);

 }

 public TokenStream tokenStream(Reader reader)

 {

        return tokenStream(null, reader);

 }

}

1.每个词条就是一个Token。Token类就是记录这些词条的原始信息的。
3.Tokenizer继承于TokenStream。
4.

分享到：

solr faceting 用法 | 检查网页代码质量

2009-09-24 16:59
浏览 1087
评论(0)
查看更多

评论

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

lucene分词测试代码: 用java写的图形分词测试的小东西,用的分词器是: 来自“猎图网 www.richmap.cn”基于IKAnalyzer分词算法的准商业化Lucene中文分词器，其使用“正向全切分算法”，42万汉字字符/每秒的处理能力（IBM ThinkPad 酷睿I...

Lucene-Demo.rar Lucene分词的demo: 这个名为"Lucene-Demo.rar"的压缩包提供了一个基于Lucene的分词演示项目，可以帮助开发者快速理解和应用Lucene的分词功能。在这个压缩包中，有两个主要的文件：`lucene`目录和`Lucene-Demo`文件。 `lucene`目录很...

Lucene分词器资源包: **Lucene分词器资源包详解** Lucene是一款开源的全文搜索引擎库，广泛应用于Java开发中，用于构建高效、可扩展的信息检索应用。这个压缩包提供了Lucene分词时所必需的jar包，使得开发者能够方便地在项目中集成...

Lucene分词与查询详解: **Lucene分词与查询详解** Lucene是一个高性能、全文本搜索库，广泛应用于各种搜索引擎的开发中。它提供了一套强大的API，用于索引文本数据，并执行复杂的查询操作。在深入理解Lucene的分词与查询机制之前，我们...

Lucene4.X实战类baidu搜索的大型文档海量搜索系统-21.Lucene分词器2 共9页.pptx: 共6页19.Lucene过滤共4页20.Lucene分词器1 共3页21.Lucene分词器2 共9页22.Lucene分词器3 共4页23.Lucene项目实战1 共6页24.Lucene项目实战2 共6页25.Lucene项目实战3 共6页26.Lucene项目实战4 共6页27.Lucene项目...

Lucene4.X实战类baidu搜索的大型文档海量搜索系统-20.Lucene分词器1 共3页.pptx: 共6页19.Lucene过滤共4页20.Lucene分词器1 共3页21.Lucene分词器2 共9页22.Lucene分词器3 共4页23.Lucene项目实战1 共6页24.Lucene项目实战2 共6页25.Lucene项目实战3 共6页26.Lucene项目实战4 共6页27.Lucene项目...

Lucene4.X实战类baidu搜索的大型文档海量搜索系统-22.Lucene分词器3 共4页.pptx: 在这个系列中，我们特别关注了Lucene的分词器，尤其是第三部分——"Lucene分词器3"。 Lucene作为一款强大的全文搜索引擎库，其核心功能之一就是对输入的文本进行有效的分词处理，以便于后续的索引和搜索操作。分词...

lucene分词搜索,增量索引及全量索引: 《Lucene分词搜索、增量索引与全量索引详解》在现代信息检索系统中，搜索引擎扮演着至关重要的角色。Apache Lucene是一个高性能、全文本搜索库，被广泛应用于构建复杂的数据检索应用。本文将深入探讨Lucene的分词...

google，lucene分词包: google ，lucene分词应该是最好的分词工具

lucene分词包: lucene自带的中文分词器，将jar放入编译路径即可使用

Lucene分词查询: **Lucene分词查询**是搜索引擎开发中的关键一环，它是Apache Lucene库的核心功能之一。Lucene是一个高性能、全文本搜索库，为Java开发者提供了强大的文本搜索能力。在这个入门实例中，我们将深入理解如何利用Lucene...

Lucene中文分词器包: 来自“猎图网 www.richmap.cn”基于IKAnalyzer分词算法的准商业化Lucene中文分词器。 1. 正向全切分算法，42万汉字字符/每秒的处理能力（IBM ThinkPad 酷睿I 1.6G 1G内存 WinXP） 2. 对数量词、地名、路名的...

简单的LUCENE分词: 在JAVA下，用lucene的内置分词功能对XML文件进行分词，并取消无用词

lucene分词程序: 《深入理解Lucene分词程序》在信息技术领域，搜索引擎的构建是不可或缺的一部分，而Lucene作为开源全文检索库，为开发者提供了强大的文本检索功能。本文将深入探讨如何利用Java编程语言来添加自定义的分词程序到...

java lucene 实现分词和词干抽取: 用java实现的，利用了lucene里面的standardAnalyzer分析器实现的分词，可以去停用词，再利用波特算法实现词干提取最后排序和词频统计输出

IKAnalyzer和Lucene分词工具下载地址+使用方法: IKAnalyzer是一款基于Java语言开发的中文分词工具包，它在Lucene的基础上进行了优化和扩展，特别适用于全文检索和自然语言处理任务。IKAnalyzer提供了强大的中文分词能力，能够有效地识别和处理中文词汇，提高了搜索...

自己写的一个基于词库的lucene分词程序--ThesaurusAnalyzer: 传统的Lucene使用标准分词器（StandardAnalyzer），它主要依据词频数据库来分词，但对于专业领域或者特定需求，这种方法可能不够准确或全面。 ThesaurusAnalyzer的创新之处在于它利用了一个词库（wordlist.txt），...

Lucene中文分词源码详解: Lucene，作为一种全文搜索的辅助工具，为我们进行条件搜索，无论是像Google,Baidu之类的搜索引擎，还是论坛中的搜索功能，还是其它C/S架构的搜索，都带来了极大的便利和比较高的效率。本文主要是利用Lucene对MS Sql...

Lucene与中文分词技术的研究及应用: ### Lucene与中文分词技术的研究及应用 #### Lucene简介与原理 Lucene是一款高性能、全功能的文本搜索引擎库，由Java语言编写而成。它为开发者提供了构建全文搜索引擎的能力，而无需关注底层搜索机制的具体实现...

Global site tag (gtag.js) - Google Analytics