关于Lucene分词的一些总结 - - ITeye博客

`

a1b19pm

浏览: 10469 次

最近访客更多访客>>

_梦里梦见梦中梦

yss1605

VincentBoy

hae

博主相关

博客

微博

相册

收藏

留言

关于我

文章分类

社区版块

存档分类

最新评论

关于Lucene分词的一些总结

博客分类：

Lucene

阅读更多

Lucene3.6与7.2版在声明变量上本存比较大差异

这两个版本可以概括Lucene前期版本和后期版本的大概变化

QueryParser qp = new QueryParser( f, a);

query = qp.parse(queryStr);

QueryParser已经包含了其他搜索器的实现，只要在搜索结果加上相应的搜索方式就可以达到用同样搜索器的效果

在搜索时创建索引和搜索时所使用的分词器会影响搜索的结果

中文分词

如果创建索引时，分词器为一元分词器，则搜索时可以按最细分词颗粒度来搜索。

例如：

“百度一下”

如果用一元分词器分词的结果是：

百，度，一，下

此时搜索可以按单个字来搜索。

但如果用的是只能中文分词器，则会把搜索内容以词组的方式作为索引。此时单个字搜索是没有结果。因为创建索引时，分词颗粒度不是最细，分词是以词组的方式才能被搜索。

例如：

用智能中文分词器分词的结果是：

百度，一下

此时搜索单个字时不能搜索出结果。

分享到：

tomcat连接数配置和最大post数据量配置

2018-04-20 11:10
浏览 529
评论(0)
分类:开源软件
查看更多

评论

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

Lucene关于几种中文分词的总结: 《Lucene关于几种中文分词的总结》在搜索引擎和信息检索系统中，中文分词是文本处理的关键步骤。Lucene作为一款强大的全文检索库，虽然内置了StandardAnalyzer，但其对中文分词的支持并不完全满足所有应用需求。...

Lucene3.0分词系统.doc: Lucene3.0分词系统的核心在于理解和应用其分词原理，无论是对于英文还是中文文本，这一过程都是构建高效搜索引擎的基础。以下是对Lucene3.0分词系统中涉及的关键知识点的深入解析。 ### 英文分词原理英文分词相较...

IKAnalyzer和Lucene分词工具下载地址+使用方法: IKAnalyzer是一款基于Java语言开发的中文分词工具包，它在Lucene的基础上进行了优化和扩展，特别适用于全文检索和自然语言处理任务。IKAnalyzer提供了强大的中文分词能力，能够有效地识别和处理中文词汇，提高了搜索...

Lucene4.0 IK分词器使用pdf: ### Lucene4.0 IK分词器使用概览 #### IKAnalyzer：中文分词利器 IKAnalyzer是一款基于Java开发的开源中文分词工具包，自2006年首次发布以来，历经多个版本的迭代，已成为业界广泛认可的中文分词解决方案。其最初...

盘古分词+Lucene: 总结来说，盘古分词和Lucene的结合使用，为中文全文检索提供了一套高效、精准的方法。通过合理的配置和优化，我们可以构建出性能优异的搜索引擎，服务于各类信息检索应用，提升用户的搜索体验。在信息技术领域，掌握...

lucene 中文分词庖丁解牛: 《Lucene中文分词：庖丁解牛》在信息技术高速发展的今天，全文搜索引擎已经成为网站内容检索不可或缺的一部分。其中，Apache Lucene作为一个开源的全文检索库，被广泛应用于各种项目中，尤其对于处理中文文本，...

lucene分词搜索,增量索引及全量索引: 《Lucene分词搜索、增量索引与全量索引详解》在现代信息检索系统中，搜索引擎扮演着至关重要的角色。Apache Lucene是一个高性能、全文本搜索库，被广泛应用于构建复杂的数据检索应用。本文将深入探讨Lucene的分词...

lucene3庖丁解牛中文分词器: 总结起来，"庖丁解牛"中文分词器是Lucene 3全中文索引解决方案的重要组成部分，它的引入能显著提升中文文本处理的效率和精确性。对于从事信息检索和自然语言处理的开发者来说，掌握并合理运用庖丁解牛，无疑能为你的...

lucene+中文IK分词器例子: 总结来说，"lucene3.5 + ik中文分词器例子"是一个展示如何使用Lucene进行中文全文检索的示例，它涵盖了从数据抓取、分词处理、索引建立到查询执行的全过程。通过这个实例，开发者可以更好地理解和掌握Lucene与IK分词...

lucene的分词的测试工程: 《Lucene分词测试工程详解》在信息技术领域，搜索引擎的构建是不可或缺的一部分，而Lucene作为Java领域内的搜索引擎库，扮演着至关重要的角色。本文将深入探讨一个以"lucene的分词的测试工程"为主题的项目，涵盖...

lucene引擎和sqlite数据库分词查询: 总结起来，Lucene引擎和SQLite数据库的结合，为分词查询提供了强大的解决方案。通过 Lucene 的高效索引和搜索功能，配合SQLite的数据存储能力，我们可以轻松实现单词频率统计和重点信息的提取。这种结合方式在新闻...

lucene.net中文分词器: 总结来说，这个Lucene.NET中文分词器的出现，不仅解决了.NET开发者在处理中文文本时的痛点，也提供了一个实践和研究中文分词技术的实例。通过对最大向前匹配算法的运用，开发者可以在自己的项目中实现高效且相对准确...

拼音分词 Pinyin4j+pinyinAnalyzer+lucene-analyzers: 标题中的“拼音分词 Pinyin4j+pinyinAnalyzer+lucene-analyzers”指的是这个压缩包包含的三个核心组件，它们都是在处理中文文本时非常重要的工具。Pinyin4j是一个Java库，主要用于将汉字转换为拼音，这对于进行基于...

lucene.net+盘古分词: 总结来说，Lucene.NET与盘古分词的结合，使得.NET开发者能够轻松构建功能强大的中文全文搜索引擎。通过合理地配置和优化，我们可以实现快速的数据索引、精确的查询匹配以及友好的结果显示，从而提升应用的搜索体验。...

Lucene3.0.3+盘古分词资源汇总: 总结，Lucene 3.0.3与盘古分词的结合，为开发者提供了一套强大的中文搜索引擎解决方案。通过合理利用提供的资源，我们可以构建出响应迅速、准确度高的搜索系统，满足用户的信息需求。同时，不断优化字典和分词算法，...

Lucene5+HanLP分词例子: 5. **优化和调优**：根据实际需求，可能还需要进行一些优化工作，例如调整`HanLP`的分词参数，或者对`Lucene5`的索引配置进行微调，以提高搜索效率和精度。在`Lucene5DemoHanLP`这个压缩包中，应该包含了实现上述...

jieba结巴分词支持lucene5: 总结来说，jieba结巴分词是一个强大的中文分词工具，它对lucene5的支持使得在全文检索场景下，中文处理变得更加方便。如果你正在构建一个需要处理大量中文文本的搜索引擎，jieba和它的lucene分析器将是不可或缺的...

最新版Lucene.Net盘古分词2.0: 总结，`Lucene.Net`与盘古分词2.0的结合，是中文全文检索领域的一次重要升级，它标志着.NET平台在信息检索技术上迈出了坚实的一步。开发者可以借助这一强大工具，为各种应用提供更加精准、快速的信息查询服务。

lucene个人总结: 根据提供的文件信息，以下是对Lucene 3.5版本的核心知识点进行的详细解析与总结： ### Lucene 3.5 概述 Lucene 3.5 是一款高性能的全文检索引擎工具包，广泛应用于搜索引擎、文档管理和内容管理等领域。Lucene 的...

lucene3.5中文分词案例: 总结，Lucene 3.5在处理中文分词上提供了强大的支持，结合IK Analyzer或其他分词库，开发者可以轻松构建出高效、准确的中文信息检索系统。通过理解分词原理，配置合适的Analyzer，以及不断优化和调整，我们可以...

Global site tag (gtag.js) - Google Analytics