英文应用分词器和过滤器一般配置顺序
索引(index):
1:空格 WhitespaceTokenizer
2:过滤词(停用词,如:on、of、a、an等) StopFilter
3:拆字WordDelimiterFilter
4:小写过滤LowerCaseFilter
5:英文相近词EnglishPorterFilter
6:去除重复词RemoveDuplicatesTokenFilter
查询(query):(首先也是加入分词方法)
1:查询同义词 SynonymFilter
2:过滤词 StopFilter
3:拆字 WordDelimiter
4:小写过滤 LowerCaseFilter
5:英文相近词 EnglishPorterFilter
6:去除重复词 RemoveDuplicatesTokenFilter
示例配置如下:
<fieldtype name="text" class="solr.TextField" positionIncrementGap="100"> <analyzer type="index"> <tokenizer class="solr.WhitespaceTokenizerFactory"/> <filter class="solr.StopFilterFactory" ignoreCase="true" words="stopwords.txt"/> <filter class="solr.WordDelimiterFilterFactory" generateWordParts="1" generateNumberParts="1" catenateWords="1" catenateNumbers="1" catenateAll="0"/> <filter class="solr.LowerCaseFilterFactory"/> <filter class="solr.EnglishPorterFilterFactory" protected="protwords.txt"/> <filter class="solr.RemoveDuplicatesTokenFilterFactory"/> </analyzer> <analyzer type="query"> <tokenizer class="solr.WhitespaceTokenizerFactory"/> <filter class="solr.SynonymFilterFactory" synonyms="synonyms.txt" ignoreCase="true" expand="true"/> <filter class="solr.StopFilterFactory" ignoreCase="true" words="stopwords.txt"/> <filter class="solr.WordDelimiterFilterFactory" generateWordParts="1" generateNumberParts="1" catenateWords="0" catenateNumbers="0" catenateAll="0"/> <filter class="solr.LowerCaseFilterFactory"/> <filter class="solr.EnglishPorterFilterFactory" protected="protwords.txt"/> <filter class="solr.RemoveDuplicatesTokenFilterFactory"/> </analyzer> </fieldtype>
这样配置以后,字段类型为“text”的就会有以上的一些处理,如下,name就会有以上的处理了。
<field name="name" type="text" indexed="true" stored="true" multiValued="true"/>
更多的过滤器配置可以参照solr wiki:http://wiki.apache.org/solr/FrontPage
相关推荐
在这个"增加了分词器后的配置文件"中,我们可以预期看到一些关于分词器(Tokenizers)和过滤器(Filters)的配置,这些是Solr处理文本的关键组件。 分词器是将输入的文本分解成一系列独立的词语或标记的组件。例如...
在Solr7版本中,IK分词器进行了优化和升级,提供了更优秀的全文检索体验。 首先,我们来了解下什么是分词器。在自然语言处理中,分词是将连续的文本切分成有意义的词语单位,这是进行信息检索、文本挖掘等任务的...
-- 可以添加其他过滤器,如删除英文、数字等 --> <filter class="solr.StopFilterFactory" words="stopwords.txt" ignoreCase="true"/> <!-- 同上,也可以添加其他查询分析器过滤器 --> ``` 这里,...
Solr的核心功能是建立索引和执行查询,通过插件机制,可以灵活地扩展各种分析器和过滤器,以适应不同语言和应用场景的需求。 二、中文分词的重要性 中文分词是自然语言处理中的基础步骤,对于搜索引擎而言,正确的...
在Solr中,拼音分词主要依赖于特定的分析器和过滤器。这些组件在索引和查询阶段处理文本,将汉字转化为拼音,以便于匹配。例如,"北京大学"会被转化为"bei da xue jia"。Solr 提供了若干种实现这个功能的插件,如...
3. 在Solr的配置文件中,如`solrconfig.xml`,确保分词相关的过滤器和分析器已经正确配置。 4. 重启Solr服务,使配置生效。 5. 创建或者更新Solr的索引,让新的分词器对文本进行处理。 通过以上步骤,你就可以在...
Solr分词器是Apache Solr搜索引擎中的一个重要组件,它负责对输入的文本进行分词处理,以便于索引和查询。在理解Solr分词器之前,我们首先要明白Solr是一个开源的企业级搜索平台,它提供了高效、可扩展的全文检索、...
用户可以通过修改或添加词典文件来优化分词效果,也可以编写自定义的过滤器或扩展词典格式。源码中会有相关的接口和类供开发者参考。 7. **打包成JAR**: 解压后的源码需要通过Maven或其他构建工具(如Gradle)...
- 根据实际需求调整 IK 分词器的配置参数,如启用/禁用某些过滤器,设置自定义词汇表等。 **IK 分词器的特性** - 支持动态加载自定义扩展词典,便于进行个性化的分词处理。 - 内置了英文分词,对于混合中英文的...
#### 四、Solr分词器的配置 - **配置文件**:Solr的分词器配置通常位于每个Solr Core的`conf`目录下,主要通过`schem.xml`文件来进行配置。 - **示例**:例如,配置一个使用StandardTokenizerFactory的字段分词器。...
文件`ikanalyzer-solr5`可能是一个包含IK分词器的Solr插件包,用于Solr 5版本,虽然与标题中的Solr 6.5不完全匹配,但在实际应用中,IK分词器的版本通常与Solr版本保持一致,以确保最佳兼容性和性能。如果需要在Solr...
3. **扩展性**:除了基本的分词功能,Ik Analyzer还提供了诸如过滤、去停用词、词性标注等扩展插件,可以满足更复杂的文本处理需求。 4. **与Solr的整合**:Ik Analyzer为Solr提供了专门的配置,可以无缝对接,实现...
5. **API使用**:在Solr中集成mmseg4j,需要配置Solr的schema.xml和solrconfig.xml文件,设置分析器和过滤器链。同时,开发者可能需要了解mmseg4j提供的API,以便自定义分词规则或进行特殊需求的处理。 6. **性能...
Ik分词器(IK Analyzer)是一个专门为Java设计的中文分词库,广泛应用于Solr和Elasticsearch等搜索引擎中。 标题中的"solr(ik分词器)需要的jar包"指的是为了在Solr中使用IK分词器,我们需要下载并添加相应的Java ...
在Solr中,分词器(Analyzer)和过滤器(Filter)共同作用于输入文本,完成诸如分词、去除停用词、词形还原等任务,以便提高搜索质量和效率。 **Solr分词器配置** 配置Solr分词器主要涉及以下几个步骤: 1. **...
2. 分词器(Tokenizer)、过滤器(Filter)和字符过滤器(CharFilter)的作用和工作流程。 3. 如何在Solr中配置和使用自定义分词器,如IK Analyzer。 4. 分词器的源码阅读和理解,以进行定制或优化。 5. 开发工具的...
总结,Solr分词项目工程实例涵盖了从配置分词器和过滤器到实际应用的过程,涉及到文档解析、分词、过滤等关键技术,通过"data"文件导入数据并建立索引,实现高效、精准的全文搜索。在实际操作中,开发者需要根据业务...
IK分词器提供了扩展接口,允许开发人员根据需求定制自己的过滤器或分词策略。 - **热更新** 使用IK分词器的热更新功能,可以在不重启Solr的情况下动态加载新词库,提高系统的灵活性。 总结来说,集成和使用IK...
"solr中文分词高版本"的标题表明我们在这里讨论的是适用于Solr 6.5及以上版本的中文分词解决方案,因为默认的Solr分词器可能不支持这些较高版本,或者在使用过程中会出现问题。 描述中提到的“网上提供的solr中文...