`
xly_971223
  • 浏览: 1273750 次
  • 性别: Icon_minigender_1
  • 来自: 北京
社区版块
存档分类
最新评论

lucene的分词器的用法

    博客分类:
  • java
阅读更多
做全文搜索当然离不开lucene
但是要用好lucene可不简单

在开发过程中遇到这样一个问题
问题描述
要对用户名进行搜索 就像je的搜索频道那样
插入是没有问题的 用的StandardAnalyzer
查询出问题了 中文用户名都查不出来 英文名没有问题
用luke看也没乱码 
到底哪儿出了问题呢?

最好想到了StandardAnalyzer上
对汉字进行搜索是 StandardAnalyzer会对查询关键字进行分次 比如我们输入‘张学友’
分次后可能是 ‘张学’‘学友’ 等等 所以查不出我们想要的

怎么办呢? 更换分词器 用StopAnalyzer WhitespaceAnalyzer等都可以 只要不对汉字进行分词 ,让其精确匹配就可以了

还有一点值得一体  写索引是的分词器最好跟读时的分词器一致,否则未必找到你想要的结果

2
0
分享到:
评论
1 楼 卡拉阿风 2009-03-07  
更换分词器 用StopAnalyzer WhitespaceAnalyzer等都可以 只要不对汉字进行分词 ,让其精确匹配就可以了

这里不进行分词,精确匹配,能讲稍微详细点嘛

相关推荐

    Lucene中文分词器包

    来自“猎图网 www.richmap.cn”基于IKAnalyzer分词算法的准商业化Lucene中文分词器。 1. 正向全切分算法,42万汉字字符/每秒的处理能力(IBM ThinkPad 酷睿I 1.6G 1G内存 WinXP) 2. 对数量词、地名、路名的...

    Lucene-Demo.rar Lucene分词的demo

    **正文** ...通过深入研究这个Demo,开发者不仅可以理解Lucene的基本用法,还能掌握如何在实际项目中整合和优化分词过程。对于那些对自然语言处理或信息检索感兴趣的开发者来说,这是一个极好的学习资源。

    lucene.NET 中文分词

    2. **配置分词器**:在Lucene.NET的索引创建阶段,需要配置Analyzer类,指定使用特定的分词器。例如,使用IK Analyzer可以创建`IKAnalyzer analyzer = new IKAnalyzer();`。 3. **字段分析**:在创建Document对象时...

    Lucene4.X实战类baidu搜索的大型文档海量搜索系统-22.Lucene分词器3 共4页.pptx

    在这个系列中,我们特别关注了Lucene的分词器,尤其是第三部分——"Lucene分词器3"。 Lucene作为一款强大的全文搜索引擎库,其核心功能之一就是对输入的文本进行有效的分词处理,以便于后续的索引和搜索操作。分词...

    IKAnalyzer和Lucene分词工具下载地址+使用方法

    System.out.println("当前使用的分词器:" + analyzer.getClass().getSimpleName()); TokenStream tokenStream = analyzer.tokenStream("content", new StringReader(keyWord)); tokenStream.addAttribute...

    Lucene与中文分词技术的研究及应用

    3. **索引构建**:使用中文分词器构建索引。 4. **查询优化**:对查询语句进行预处理,提高搜索精度。 #### 应用实例 本论文中提到了基于Lucene的中文搜索引擎实例。在这个实例中,不仅实现了对多种文件格式的支持...

    Lucene分词与查询详解

    **Lucene分词与查询详解** Lucene是一个高性能、全文本搜索库,广泛应用于各种搜索引擎的开发中。它提供了一套强大的API,用于索引文本数据,并执行复杂的查询操作。在深入理解Lucene的分词与查询机制之前,我们...

    lucene中文分词工具包

    **正文** 标题:“lucene中文分词工具包” 在信息技术领域,中文分词是文本处理的一个关键步骤,尤其是在搜索引擎和自然语言处理应用中。...理解并掌握其工作原理和使用方法,对于提升中文文本处理的质量至关重要。

    盘古分词器+lucene .net4.0下编译

    将盘古分词器与Lucene.NET 4.0结合使用,可以提升中文文本搜索的性能和准确性。首先,我们需要将盘古分词器的重新编译版本(如PanGu.dll)引入项目中,作为Lucene.NET的自定义Analyzer。这通常涉及到创建一个继承自`...

    lucene、solr中文分词器

    它们提供了强大的信息检索和文本分析功能,但Lucene默认的分词器并不适用于中文处理。因此,对于中文索引和搜索,我们需要引入专门针对中文的分词器。本篇文章将深入探讨Lucene和Solr中的中文分词器及其重要性。 ...

    lucene+中文IK分词器 例子

    然后,使用Lucene的`Analyzer`接口创建一个IK分词器实例,将网页内容传递给分词器进行分词。接着,使用Lucene的`IndexWriter`将分词后的文档写入索引。 4. **查询索引** 当用户输入关键词时,使用同样的IK分词器...

    Lucene3.0分词系统.doc

    Lucene3.0分词系统的核心在于理解和应用其分词原理,无论是对于英文还是中文文本,这一过程都是构建高效搜索引擎的基础。以下是对Lucene3.0分词系统中涉及的关键知识点的深入解析。 ### 英文分词原理 英文分词相较...

    lucene中文分词(庖丁解牛)庖丁分词

    5. 搜索优化:在搜索阶段,同样可以使用庖丁分词器对用户输入的查询进行预处理,提高搜索的精确度。 四、庖丁分词的高级特性 1. 自定义词典:除了预设的词典,还可以通过编程方式动态加载自定义词典,适应变化的...

    IK分词器集成lucene4.5使用方法

    IK分词器是一款广泛应用于Java开发中的中文分词工具,主要为Lucene、Elasticsearch等全文搜索引擎提供支持。在本教程中,我们将探讨如何将IK分词器集成到Lucene 4.5版本中,以提升中文文本处理的效率和准确性。 ...

    自己写的一个基于词库的lucene分词程序--ThesaurusAnalyzer

    传统的Lucene使用标准分词器(StandardAnalyzer),它主要依据词频数据库来分词,但对于专业领域或者特定需求,这种方法可能不够准确或全面。 ThesaurusAnalyzer的创新之处在于它利用了一个词库(wordlist.txt),...

    盘古分词+Lucene

    总结来说,盘古分词和Lucene的结合使用,为中文全文检索提供了一套高效、精准的方法。通过合理的配置和优化,我们可以构建出性能优异的搜索引擎,服务于各类信息检索应用,提升用户的搜索体验。在信息技术领域,掌握...

    lucene分词搜索,增量索引及全量索引

    《Lucene分词搜索、增量索引与全量索引详解》 在现代信息检索系统中,搜索引擎扮演着至关重要的角色。Apache Lucene是一个高性能、全文本搜索库,被广泛应用于构建复杂的数据检索应用。本文将深入探讨Lucene的分词...

    lucene2.0与其分词工具包

    "je-analysis"可能是一个早期的中文分析器,用于对中文文本进行预处理,包括词典匹配、分词、去除停用词等步骤,以便于Lucene理解并处理中文内容。这在处理大量中文文档时尤其关键,因为中文没有明显的词边界,传统...

    IK分词器-Lucene与Solr学习中使用

    IK分词器是Java开发的一款高效、灵活的中文分词工具,特别适用于Lucene和Solr等全文搜索引擎的中文处理。...对于想要深入学习Lucene和Solr的开发者来说,理解和掌握IK分词器的使用方法是非常必要的。

    Lucene5学习之自定义同义词分词器简单示例

    总之,自定义Lucene分词器,尤其是添加同义词处理,是一项增强搜索质量和用户体验的关键技术。通过这个简单的示例,我们可以了解如何结合源码和工具来实现这一目标。在阅读给定的博文链接(已提供但不可访问)时,你...

Global site tag (gtag.js) - Google Analytics