WordDelimiterFilter把单词分割为子单词
例如:
* - split on intra-word delimiters (by default, all non alpha-numeric characters).
* - "Wi-Fi" -> "Wi", "Fi"
* - split on case transitions
* - "PowerShot" -> "Power", "Shot"
* - "//hello---there, 'dude'" -> "hello", "there", "dude"
* - trailing "'s" are removed for each subword
* - "O'Neil's" -> "O", "Neil"
这样,如果文件包含"Wi-Fi",搜索"wifi"或者"wi fi"都会match。
属性autoGeneratePhraseQueries="true" (缺省值)会将搜索的词分割成为短语查询。
例如,WordDelimiterFilter会解析“pdp-11”生成短语“pdp 11”而不是两个词PDP或者11
autoGeneratePhraseQueries="true"对于不是用空格分割的语言效果不佳。
这样,搜索“Wi-Fi”就相当于搜索“Wi Fi”
分享到:
相关推荐
#### 一、Lucene与SOLR的关系及全文搜索概念 1. **Lucene原理**:Lucene是Apache软件基金会4 Jakarta项目中的一个子项目,是一个高性能、全功能的文本搜索引擎库。它不是一个完整的应用,而是一个Java开发包...
Solr安装与使用 Solr是一款功能强大的搜索引擎,能够帮助我们快速搭建企业搜索平台。在本文中,我们将详细介绍Solr的安装和使用过程。 一、安装Solr 首先,我们需要下载Solr的安装包。这里我们使用的是Solr 1.3...
3. **修改Solr配置**:在`solrconfig.xml`中,添加IK Analyzer的相关配置,比如资源加载路径,以便Solr启动时能正确加载分词器: ```xml ${solr.install.dir}/dist/" regex=".*analyzer-.*\.jar" /> ``` 4. **...
标题中提到的"ikanalyzer-solr中文分词包兼容solr7.5"意味着这个分词器已经过优化,可以与Solr 7.5版本无缝集成,确保在该版本的Solr环境中正常运行。 首先,我们来了解一下ikanalyzer的核心组件: 1. `ik-...
标题“solr与tomcat整合”涉及的是将Apache Solr搜索引擎集成到Apache Tomcat应用服务器的过程。Solr是一款基于Lucene的开源搜索平台,而Tomcat是Java Servlet和JavaServer Pages的容器。整合这两者可以方便地在Web...
"solr中文分词高版本"的标题表明我们在这里讨论的是适用于Solr 6.5及以上版本的中文分词解决方案,因为默认的Solr分词器可能不支持这些较高版本,或者在使用过程中会出现问题。 描述中提到的“网上提供的solr中文...
Solr是中国最流行的全文...通过以上步骤和注意事项,你应该能够成功地在Solr 5.5和6.0中集成和使用IK分词器,从而提升中文文本的检索效果。所提供的资料将有助于这个过程,帮助你解决可能出现的问题和优化分词性能。
通过以上步骤,我们就能在Solr 5.4中成功配置并使用中文分词库。这个过程对于提升中文文档的检索效率和准确性至关重要,因为正确的分词可以极大地提高搜索结果的相关性。同时,根据实际需求,还可以对分词库进行定制...
1. **下载与安装**:首先,你需要从官方或第三方源下载最新的 IKAnalyzer 版本,将其解压到 Solr 的 `lib` 目录下,确保 Solr 可以访问到 `IKAnalyzer.jar` 文件。 2. **配置分析器**:在 Solr 的配置文件中,如 `...
### Solr 4.10.2 与 Tomcat 6 的整合详解 #### 一、Solr 与 Tomcat 整合概述 Solr 是一个高性能、采用 Java 开发的全文搜索引擎,常用于网站搜索功能的搭建。而 Apache Tomcat 是一个免费开源的 Servlet 容器,...
这些缓存机制与`SolrIndexSearcher`紧密关联,`SolrIndexSearcher`是Solr中进行索引查询的核心组件。当`SolrIndexSearcher`被创建或销毁时,相应的缓存也会随之创建或清空。 #### 二、SolrCache接口实现类 Solr...
下面我们将详细探讨Solr集群的构建与使用,以及IK分词器和Zookeeper的角色。 首先,让我们来看看Solr集群的构建。一个Solr集群是由多个独立的Solr实例组成,它们通过Zookeeper进行协调和管理。Zookeeper是一个...
要在 Solr 中使用 IK Analyzer,首先需要将其添加到 Solr 的类路径中,然后在 Solr 的 schema.xml 或 managed-schema 文件中配置字段类型(fieldType),指定使用 IK Analyzer。同时,可以设置自定义词典路径,以...
### Solr中的MMSeg4J中文分词器安装与配置详解 #### 一、MMSeg4J简介 MMSeg4J是一款高效的Java实现的中文分词工具包,它基于统计和规则混合的方法来处理中文文本的分词问题。在搜索引擎如Solr中,通过集成MMSeg4J...
在Solr中使用中文分词器需要在配置文件中指定。通常在`schema.xml`或`managed-schema`中定义字段类型(FieldType),并设置对应的分词器。例如,使用IK Analyzer: ```xml <fieldType name="text_ik" class="solr....
《easynet.solr开发与使用》 在现代信息技术领域,搜索引擎已经成为不可或缺的一部分,而Apache Solr作为一款强大的开源搜索引擎,被广泛应用于各种数据检索场景。为了方便开发者更高效地集成和操作Solr,Easynet...
Solr是一款强大的全文搜索引擎,广泛应用于各种大数据检索场景。在处理中文内容时,分词是...总之,Ik Analyzer 7.5.0是Solr处理中文文本的得力工具,通过合理的配置和使用,可以提升Solr在中文搜索中的性能和准确性。
3. **配置Schema.xml**:在 Solr 的 schema.xml 文件中,我们需要定义字段类型(FieldType)并指定使用 ikanalyzer。例如,可以创建一个名为 `text_ik` 的字段类型,并设置其`analyzer_class`属性为 `org.apache....