lucene的分词器的用法 - 一生一火花 - ITeye博客

`

xly_971223

浏览: 1289971 次
性别:
来自: 北京

最近访客更多访客>>

doupeng

ymgjava

AndrewXing

sun80264629

博主相关

博客

微博

相册

收藏

留言

关于我

文章分类

社区版块

存档分类

最新评论

最后的攻城狮：这也太乱了
mybatis与spring事物处理日志
leo_soul：现在不能跨1级域名了吧？比如www.aaa.com，www.b ...
Cookie跨域操作
zy976133：怎么解决的
jaxws不支持SOAPBinding.Use.ENCODED
cuiyaoqiang：你好开发一个http接口给fs调用，这个http接口是自己 ...
freeswitch 动态加载号码
Jackromer：请问楼主知道如何通过主控方来删除与其有关的中间表记录？谢谢， ...
hibernate 多对多只删除中间表数据

lucene的分词器的用法

博客分类：

java

阅读更多

做全文搜索当然离不开lucene
但是要用好lucene可不简单

在开发过程中遇到这样一个问题
问题描述
要对用户名进行搜索就像je的搜索频道那样
插入是没有问题的用的StandardAnalyzer
查询出问题了中文用户名都查不出来英文名没有问题
用luke看也没乱码
到底哪儿出了问题呢？

最好想到了StandardAnalyzer上
对汉字进行搜索是 StandardAnalyzer会对查询关键字进行分次比如我们输入‘张学友’
分次后可能是 ‘张学’‘学友’ 等等所以查不出我们想要的

怎么办呢？更换分词器用StopAnalyzer WhitespaceAnalyzer等都可以只要不对汉字进行分词，让其精确匹配就可以了

还有一点值得一体写索引是的分词器最好跟读时的分词器一致，否则未必找到你想要的结果

2
顶

0
踩

分享到：

关于‘最近访客’的一些想法 | 雷军：互联网创业葵花宝典简简单单就四点

2009-03-04 11:12
浏览 2739
评论(1)
查看更多

评论

1 楼卡拉阿风 2009-03-07

更换分词器用StopAnalyzer WhitespaceAnalyzer等都可以只要不对汉字进行分词，让其精确匹配就可以了

这里不进行分词，精确匹配，能讲稍微详细点嘛

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

Lucene中文分词器包: 来自“猎图网 www.richmap.cn”基于IKAnalyzer分词算法的准商业化Lucene中文分词器。 1. 正向全切分算法，42万汉字字符/每秒的处理能力（IBM ThinkPad 酷睿I 1.6G 1G内存 WinXP） 2. 对数量词、地名、路名的...

Lucene-Demo.rar Lucene分词的demo: **正文** ...通过深入研究这个Demo，开发者不仅可以理解Lucene的基本用法，还能掌握如何在实际项目中整合和优化分词过程。对于那些对自然语言处理或信息检索感兴趣的开发者来说，这是一个极好的学习资源。

lucene.NET 中文分词: 2. **配置分词器**：在Lucene.NET的索引创建阶段，需要配置Analyzer类，指定使用特定的分词器。例如，使用IK Analyzer可以创建`IKAnalyzer analyzer = new IKAnalyzer();`。 3. **字段分析**：在创建Document对象时...

Lucene4.X实战类baidu搜索的大型文档海量搜索系统-22.Lucene分词器3 共4页.pptx: 在这个系列中，我们特别关注了Lucene的分词器，尤其是第三部分——"Lucene分词器3"。 Lucene作为一款强大的全文搜索引擎库，其核心功能之一就是对输入的文本进行有效的分词处理，以便于后续的索引和搜索操作。分词...

lucene+中文IK分词器例子: 然后，使用Lucene的`Analyzer`接口创建一个IK分词器实例，将网页内容传递给分词器进行分词。接着，使用Lucene的`IndexWriter`将分词后的文档写入索引。 4. **查询索引** 当用户输入关键词时，使用同样的IK分词器...

IKAnalyzer和Lucene分词工具下载地址+使用方法: System.out.println("当前使用的分词器：" + analyzer.getClass().getSimpleName()); TokenStream tokenStream = analyzer.tokenStream("content", new StringReader(keyWord)); tokenStream.addAttribute...

Lucene与中文分词技术的研究及应用: 3. **索引构建**：使用中文分词器构建索引。 4. **查询优化**：对查询语句进行预处理，提高搜索精度。 #### 应用实例本论文中提到了基于Lucene的中文搜索引擎实例。在这个实例中，不仅实现了对多种文件格式的支持...

Lucene分词与查询详解: **Lucene分词与查询详解** Lucene是一个高性能、全文本搜索库，广泛应用于各种搜索引擎的开发中。它提供了一套强大的API，用于索引文本数据，并执行复杂的查询操作。在深入理解Lucene的分词与查询机制之前，我们...

lucene中文分词工具包: **正文** 标题：“lucene中文分词工具包” 在信息技术领域，中文分词是文本处理的一个关键步骤，尤其是在搜索引擎和自然语言处理应用中。...理解并掌握其工作原理和使用方法，对于提升中文文本处理的质量至关重要。

盘古分词器+lucene .net4.0下编译: 将盘古分词器与Lucene.NET 4.0结合使用，可以提升中文文本搜索的性能和准确性。首先，我们需要将盘古分词器的重新编译版本（如PanGu.dll）引入项目中，作为Lucene.NET的自定义Analyzer。这通常涉及到创建一个继承自`...

lucene、solr中文分词器: 它们提供了强大的信息检索和文本分析功能，但Lucene默认的分词器并不适用于中文处理。因此，对于中文索引和搜索，我们需要引入专门针对中文的分词器。本篇文章将深入探讨Lucene和Solr中的中文分词器及其重要性。 ...

Lucene3.0分词系统.doc: Lucene3.0分词系统的核心在于理解和应用其分词原理，无论是对于英文还是中文文本，这一过程都是构建高效搜索引擎的基础。以下是对Lucene3.0分词系统中涉及的关键知识点的深入解析。 ### 英文分词原理英文分词相较...

lucene中文分词（庖丁解牛）庖丁分词: 5. 搜索优化：在搜索阶段，同样可以使用庖丁分词器对用户输入的查询进行预处理，提高搜索的精确度。四、庖丁分词的高级特性 1. 自定义词典：除了预设的词典，还可以通过编程方式动态加载自定义词典，适应变化的...

IK分词器集成lucene4.5使用方法: IK分词器是一款广泛应用于Java开发中的中文分词工具，主要为Lucene、Elasticsearch等全文搜索引擎提供支持。在本教程中，我们将探讨如何将IK分词器集成到Lucene 4.5版本中，以提升中文文本处理的效率和准确性。 ...

lucene2.0与其分词工具包: "je-analysis"可能是一个早期的中文分析器，用于对中文文本进行预处理，包括词典匹配、分词、去除停用词等步骤，以便于Lucene理解并处理中文内容。这在处理大量中文文档时尤其关键，因为中文没有明显的词边界，传统...

盘古分词+Lucene: 总结来说，盘古分词和Lucene的结合使用，为中文全文检索提供了一套高效、精准的方法。通过合理的配置和优化，我们可以构建出性能优异的搜索引擎，服务于各类信息检索应用，提升用户的搜索体验。在信息技术领域，掌握...

lucene分词搜索,增量索引及全量索引: 《Lucene分词搜索、增量索引与全量索引详解》在现代信息检索系统中，搜索引擎扮演着至关重要的角色。Apache Lucene是一个高性能、全文本搜索库，被广泛应用于构建复杂的数据检索应用。本文将深入探讨Lucene的分词...

IK分词器-Lucene与Solr学习中使用: IK分词器是Java开发的一款高效、灵活的中文分词工具，特别适用于Lucene和Solr等全文搜索引擎的中文处理。...对于想要深入学习Lucene和Solr的开发者来说，理解和掌握IK分词器的使用方法是非常必要的。

Lucene5学习之自定义同义词分词器简单示例: 总之，自定义Lucene分词器，尤其是添加同义词处理，是一项增强搜索质量和用户体验的关键技术。通过这个简单的示例，我们可以了解如何结合源码和工具来实现这一目标。在阅读给定的博文链接（已提供但不可访问）时，你...

lucene分词程序: 《深入理解Lucene分词程序》在信息技术领域，搜索引擎的构建是不可或缺的一部分，而Lucene作为开源全文检索库，为开发者提供了强大的文本检索功能。本文将深入探讨如何利用Java编程语言来添加自定义的分词程序到...

Global site tag (gtag.js) - Google Analytics