`
gcgmh
  • 浏览: 355846 次
  • 性别: Icon_minigender_1
  • 来自: 北京
社区版块
存档分类
最新评论

lucene分词

阅读更多
1.Analyzer里面有个重要的方法,就是
  public abstract TokenStream tokenStream(String fieldName, Reader reader);

    一个TokenStream是用来走访Token的iterator(迭代器),TokenStream类里面保存分词后的所有Token,里面有个最重要的方法就是next();方法,返回下一个Token。
public abstract class TokenStream {

 public abstract Token next() throws IOException;

 public void close() throws IOException {}

}


一个Tokenizer,is-a TokenStream(派生自TokenStream),其输入为Reader

public abstract class Tokenizer extends TokenStream {

 protected Reader input;

 protected Tokenizer() {}

 protected Tokenizer(Reader input) {

    this.input = input;

 }

 public void close() throws IOException {

    input.close();

 }

}




一个TokenFilter is–a TokenStream(派生自TokenStream),其义如名就是用来完成对TokenStream的过滤操作,譬如去StopWords,将Token变为小写等。

public abstract class TokenFilter extends TokenStream {

 protected TokenStream input;

 protected TokenFilter() {}

 protected TokenFilter(TokenStream input) {

    this.input = input;

 }

 public void close() throws IOException {

    input.close();

 }

}



一个Analyzer就是一个TokenStream工厂

public abstract class Analyzer { 

 public TokenStream tokenStream(String fieldName, Reader reader)

 {

        return tokenStream(reader);

 }

 public TokenStream tokenStream(Reader reader)

 {

        return tokenStream(null, reader);

 }

}





1.每个词条就是一个Token。Token类就是记录这些词条的原始信息的。
3.Tokenizer继承于TokenStream。
4.
分享到:
评论

相关推荐

    lucene分词测试代码

    用java写的图形分词测试的小东西,用的分词器是: 来自“猎图网 www.richmap.cn”基于IKAnalyzer分词算法的准商业化Lucene中文分词器,其使用“正向全切分算法”,42万汉字字符/每秒的处理能力(IBM ThinkPad 酷睿I...

    Lucene-Demo.rar Lucene分词的demo

    这个名为"Lucene-Demo.rar"的压缩包提供了一个基于Lucene的分词演示项目,可以帮助开发者快速理解和应用Lucene的分词功能。在这个压缩包中,有两个主要的文件:`lucene`目录和`Lucene-Demo`文件。 `lucene`目录很...

    Lucene分词器资源包

    **Lucene分词器资源包详解** Lucene是一款开源的全文搜索引擎库,广泛应用于Java开发中,用于构建高效、可扩展的信息检索应用。这个压缩包提供了Lucene分词时所必需的jar包,使得开发者能够方便地在项目中集成...

    Lucene分词与查询详解

    **Lucene分词与查询详解** Lucene是一个高性能、全文本搜索库,广泛应用于各种搜索引擎的开发中。它提供了一套强大的API,用于索引文本数据,并执行复杂的查询操作。在深入理解Lucene的分词与查询机制之前,我们...

    Lucene4.X实战类baidu搜索的大型文档海量搜索系统-21.Lucene分词器2 共9页.pptx

    共6页19.Lucene过滤 共4页20.Lucene分词器1 共3页21.Lucene分词器2 共9页22.Lucene分词器3 共4页23.Lucene项目实战1 共6页24.Lucene项目实战2 共6页25.Lucene项目实战3 共6页26.Lucene项目实战4 共6页27.Lucene项目...

    Lucene4.X实战类baidu搜索的大型文档海量搜索系统-20.Lucene分词器1 共3页.pptx

    共6页19.Lucene过滤 共4页20.Lucene分词器1 共3页21.Lucene分词器2 共9页22.Lucene分词器3 共4页23.Lucene项目实战1 共6页24.Lucene项目实战2 共6页25.Lucene项目实战3 共6页26.Lucene项目实战4 共6页27.Lucene项目...

    Lucene4.X实战类baidu搜索的大型文档海量搜索系统-22.Lucene分词器3 共4页.pptx

    在这个系列中,我们特别关注了Lucene的分词器,尤其是第三部分——"Lucene分词器3"。 Lucene作为一款强大的全文搜索引擎库,其核心功能之一就是对输入的文本进行有效的分词处理,以便于后续的索引和搜索操作。分词...

    lucene分词搜索,增量索引及全量索引

    《Lucene分词搜索、增量索引与全量索引详解》 在现代信息检索系统中,搜索引擎扮演着至关重要的角色。Apache Lucene是一个高性能、全文本搜索库,被广泛应用于构建复杂的数据检索应用。本文将深入探讨Lucene的分词...

    google,lucene分词包

    google ,lucene分词应该是最好的分词工具

    lucene分词包

    lucene自带的中文分词器,将jar放入编译路径即可使用

    Lucene分词查询

    **Lucene分词查询**是搜索引擎开发中的关键一环,它是Apache Lucene库的核心功能之一。Lucene是一个高性能、全文本搜索库,为Java开发者提供了强大的文本搜索能力。在这个入门实例中,我们将深入理解如何利用Lucene...

    Lucene中文分词器包

    来自“猎图网 www.richmap.cn”基于IKAnalyzer分词算法的准商业化Lucene中文分词器。 1. 正向全切分算法,42万汉字字符/每秒的处理能力(IBM ThinkPad 酷睿I 1.6G 1G内存 WinXP) 2. 对数量词、地名、路名的...

    简单的LUCENE分词

    在JAVA下,用lucene的内置分词功能对XML文件进行分词,并取消无用词

    lucene分词程序

    《深入理解Lucene分词程序》 在信息技术领域,搜索引擎的构建是不可或缺的一部分,而Lucene作为开源全文检索库,为开发者提供了强大的文本检索功能。本文将深入探讨如何利用Java编程语言来添加自定义的分词程序到...

    java lucene 实现分词和词干抽取

    用java实现的,利用了lucene里面的standardAnalyzer分析器实现的分词,可以去停用词,再利用波特算法实现 词干提取 最后排序 和词频统计输出

    IKAnalyzer和Lucene分词工具下载地址+使用方法

    IKAnalyzer是一款基于Java语言开发的中文分词工具包,它在Lucene的基础上进行了优化和扩展,特别适用于全文检索和自然语言处理任务。IKAnalyzer提供了强大的中文分词能力,能够有效地识别和处理中文词汇,提高了搜索...

    自己写的一个基于词库的lucene分词程序--ThesaurusAnalyzer

    传统的Lucene使用标准分词器(StandardAnalyzer),它主要依据词频数据库来分词,但对于专业领域或者特定需求,这种方法可能不够准确或全面。 ThesaurusAnalyzer的创新之处在于它利用了一个词库(wordlist.txt),...

    Lucene中文分词源码详解

    Lucene,作为一种全文搜索的辅助工具,为我们进行条件搜索,无论是像Google,Baidu之类的搜索引 擎,还是论坛中的搜索功能,还是其它C/S架构的搜索,都带来了极大的便利和比较高的效率。本文主要是利用Lucene对MS Sql...

    Lucene与中文分词技术的研究及应用

    ### Lucene与中文分词技术的研究及应用 #### Lucene简介与原理 Lucene是一款高性能、全功能的文本搜索引擎库,由Java语言编写而成。它为开发者提供了构建全文搜索引擎的能力,而无需关注底层搜索机制的具体实现...

Global site tag (gtag.js) - Google Analytics