http://lucene.apache.org/solr/tutorial.html
Analysis Debugging
写道
There is a handy analysis debugging page where you can see how a text value is broken down into words, and shows the resulting tokens after they pass through each filter in the chain.
这个功能可以很方便的看到在经过多个过滤器后切词后我们得到的分词情况
http://localhost:8983/solr/admin/analysis.jsp?name=name&val=Canon+PowerShot+SD500
本地启动的solr 分析Canon PowerShot SD500后分词的结果为
Index Analyzer
Canon |
Power |
Shot |
SD |
500 |
PowerShot |
canon |
power |
shot |
sd |
500 |
powershot |
canon |
power |
shot |
sd |
500 |
powershot |
canon |
power |
shot |
sd |
500 |
powershot |
写道
Selecting verbose output will show more details, such as the name of each analyzer component in the chain, token positions, and the start and end positions of the token in the original text.
Selecting highlight matches when both index and query values are provided will take the resulting terms from the query value and highlight all matches in the index value analysis.
verbose output
更多分词细节描述
highlight matches
在 http://localhost:8983/solr/admin/analysis.jsp 页面输入 Field value (Query)
将同时得到 搜索结果,可高亮显示。
Index Analyzer
Canon |
Power |
Shot |
SD |
500 |
PowerShot |
canon |
power |
shot |
sd |
500 |
powershot |
canon |
power |
shot |
sd |
500 |
powershot |
canon |
power |
shot |
sd |
500 |
powershot |
Query Analyzer
分享到:
相关推荐
Solr分词器是Apache Solr搜索引擎中的一个重要组件,它负责对输入的文本进行分词处理,以便于索引和查询。在理解Solr分词器之前,我们首先要明白Solr是一个开源的企业级搜索平台,它提供了高效、可扩展的全文检索、...
### Solr分词器使用手册知识点详解 #### 一、Solr概述 - **定义**:Solr是一款基于Java开发的、由Apache基金会维护的顶级开源项目,它是一款高性能的全文检索服务器。Solr不仅继承了Lucene的核心索引与搜索能力,还...
**JAVA+Solr分词项目工程实例** 在Java开发中,搜索引擎和文本处理是一个重要的领域,而Apache Solr是其中一个非常流行的开源全文搜索平台。这个项目工程实例是关于如何使用Java与Solr进行集成,实现分词搜索功能的...
自定义的Solr 分词器,可以通过竖线"|"来分词,可以在博客http://blog.csdn.net/jiangchao858/article/details/68954044看到生成过程与使用步骤。
5. 测试分词效果,可通过Solr的分析器接口查看分词结果。 五、优化与进阶 1. 词典优化:根据实际业务需求,定制词典,添加专业词汇或停用词。 2. 分词效果评估:使用标准测试集进行评估,例如NIST评测数据集。 3. ...
标题中的"JAVA+Solr分词项目工程实例Java实用源码整理learns"指的是一个基于Java编程语言并结合Solr搜索引擎的项目实例。这个项目主要关注于文本处理和信息检索,利用Solr的分词功能来提升搜索效率和准确性。Solr是...
solr-ik分词器的资源包,包括:ext.dic;ikanalyzer.cfg.xml;ik-analyzer-solr5-5.x.jar;solr-analyzer-ik-5.1.0.jar;stopword.dic 五个文件
"solr中文分词高版本"的标题表明我们在这里讨论的是适用于Solr 6.5及以上版本的中文分词解决方案,因为默认的Solr分词器可能不支持这些较高版本,或者在使用过程中会出现问题。 描述中提到的“网上提供的solr中文...
总结,Solr分词项目工程实例涵盖了从配置分词器和过滤器到实际应用的过程,涉及到文档解析、分词、过滤等关键技术,通过"data"文件导入数据并建立索引,实现高效、精准的全文搜索。在实际操作中,开发者需要根据业务...
Solr分词器是搜索引擎Apache Solr中的一个重要组件,它负责对输入的文本进行分析,将其拆分成可索引的基本单元——词语。"k-analyzer-solr" 是一个特定的分词器实现,用于优化Solr的文本处理流程。在Solr中,分词器...
5. **更新字段类型和配置**:完成上述配置后,别忘了重新启动你的Solr服务器,使改动生效。 6. **测试分词器**:最后,你可以通过Solr的分析界面(通常在`http://your-solr-url/admin/analysis.jsp`)输入文本,...
"solr分词 IKAnalyzer2012FF_hf1.rar" 包含的是一个针对Solr优化的IK分词器版本,即IKAnalyzer2012FF_hf1。这个版本在原版IKAnalyzer的基础上进行了改进,提高了对中文词汇的处理能力,特别是对于复杂语境和新词识别...
5. **测试验证**:通过Solr的Admin界面或API,提交中文文本进行搜索,观察分词结果是否符合预期。 标签中的"ik-ana"是Ik Analyzer的简称,"solr 中文分词"强调了这个分词器在Solr中的应用场景。文件列表中的"ik-...
"solr 中文分词" 主要涉及的是 Solr 如何对中文文档进行有效的分词处理,以便于搜索和匹配。 1. **中文分词的重要性** 中文与英文不同,单词之间没有明显的分隔符,如空格。因此,为了准确地理解和检索中文内容,...
Ik分词器是Solr中一个非常重要的组件,尤其对于中文处理,它是不可或缺的一部分。Ik分词器全称为Intelligent Chinese Analyzer,是由国内开发者基于Lucene开发的一款高性能的中文分词工具,专门针对中文的特性进行了...
solr搜索框架的中文分词器文件及配置详解供大家下载,亲测可用.解压出来的jar包放到apache-tomcat-9.0.20\webapps\solr\WEB-INF\lib下(Tomcat项目里solr项目)其他三个文件放到apache-tomcat-9.0.20\webapps\solr\...
**Solr分词器IKAnalyzer详解** Solr是一款强大的全文搜索引擎服务器,而IKAnalyzer是针对中文的开源分词器,广泛应用于Solr和Elasticsearch等搜索引擎中。IKAnalyzer的设计目标是提供一个灵活且易扩展的中文分词...