同义词加中文分词的话可以采用mmseg4j,mmseg4j的配置步骤如下:
1: 下载地址:
http://code.google.com/p/mmseg4j/downloads/list.
2.解压mmseg4j-1.9.0.v20120712-SNAPSHOT.zip
用到下面文件:
mmseg4j-all-1.9.0.v20120712-SNAPSHOT.jar 放到之前安装$CATALINA_HOME/webapps/solr/WEB-INF/lib/目录下
data 目录,建议拷贝下面内容到$SOLR_HOME\collection1\conf\mm4jdic
3.设置mmseg4j中文分词和同义词
修改$SOLR_HOME/collection1/conf/schema.xml,在<types></types>中增加如下内容:
<fieldType name="textMaxWord" class="solr.TextField" > <analyzer type="index"> <tokenizer class="com.chenlb.mmseg4j.solr.MMSegTokenizerFactory" mode="max-word"/> <filter class="solr.StopFilterFactory" ignoreCase="false" words="stopwords.txt"/> <filter class="solr.StandardFilterFactory"/> <filter class="solr.RemoveDuplicatesTokenFilterFactory"/> </analyzer> <analyzer type="query"> <tokenizer class="com.chenlb.mmseg4j.solr.MMSegTokenizerFactory" mode="max-word"/> <filter class="solr.SynonymFilterFactory" synonyms="synonyms.txt" ignoreCase="true" expand="true"/> <filter class="solr.StopFilterFactory" ignoreCase="false" words="stopwords.txt"/> <filter class="solr.StandardFilterFactory"/> <filter class="solr.RemoveDuplicatesTokenFilterFactory"/> </analyzer> </fieldType>
同样要定义相关类型的字段
<field name="title_copy" type="textMaxWord" indexed="true" stored="true" termVectors="true"/>
4: 导入数据库索引,这个可以参看dataImport,至于synonyms的配置可以参看上一贴没做改动。
测试输入日本,结果显示了都是相关中国的内容,基本达到了同义词的效果。
相关推荐
ikanalyzer 提供了丰富的扩展性,用户可以根据自己的需求定制词典,支持自定义停用词、同义词等,以满足不同场景的分词需求。同时,ikanalyzer 还提供了全模式和最细粒度模式两种分词策略,全模式尽可能切出更多的词...
Solr中文分词器是Apache Solr搜索引擎系统中用于处理中文文本的核心组件,它使得Solr能够对中文文档进行有效的索引和搜索。在Solr中,分词器(Tokenizer)是分析器(Analyzer)的一部分,负责将输入的文本拆分成可被...
中文分词是将连续的汉字序列切分成具有语义的词汇单元的过程,因为中文没有像英文那样的自然分隔符(如空格),所以分词是中文信息处理的基础步骤。准确的分词能够提升搜索结果的相关性和准确性。 IK中文分词工具...
支持Spring-data-solr1.5的ik分词器,并且修改了代码,添加一个新的类,用于支持同义词,目前可以同时支持分词和同义词的功能。 修改 managed-schema,添加 <fieldType name="text_lk" class="solr.TextField"> ...
本篇文章将详细讲解如何搭建Solr 5.0,并使用IK分词器进行中文分词处理,提升搜索效果。 首先,我们需要下载Solr 5.0的安装包。你可以访问Apache官方站点或者镜像站点获取最新版本的Solr。解压缩下载的文件后,你会...
在查询时,除了相同的分词及过滤过程外,还会额外使用SynonymFilterFactory来处理同义词。 #### 五、Solr安装与配置 - **下载与安装**: - **下载地址**:官方下载地址为http://lucene.apache.org/solr/。 - **...
同时,通过调整分词策略,还可以实现同义词扩展、词语关系挖掘等高级功能。 总的来说,"solr 7.2.1 IK分词jar包"是Solr中处理中文文本的关键组件,它的正确配置和使用对于提升中文搜索体验至关重要。通过理解IK分词...
关于标签,我们看到“同义词”、“增量创建索引”、“创建索引”和“中文分词”。这些是Solr在实际应用中涉及的重要概念: 1. **同义词**:在Solr中,可以使用Solr的同义词扩展来处理词汇的同义关系。例如,"车"和...
4. 高级分词处理:例如短语分析、同义词扩展等,这可以通过自定义分词组件实现。 二、Solr分词器与过滤器 Solr内置了多种分词器和过滤器,例如: 1. StandardTokenizer:标准分词器,遵循HTML和XML规范,处理常见...
同义词库通常是一个文本文件,包含多对同义词,IKAnalyzer在分词过程中会识别并处理这些同义词,使得搜索时能够匹配到更多相关的结果。 **Solr配置步骤** 1. **下载与安装**:首先,你需要下载Apache Solr的对应...
Solr 6.0 是一个强大的全文搜索引擎,它允许开发者对海量数据进行高效、精确的检索。...在实际应用中,根据具体的业务场景,可能还需要结合其他技术,如停用词过滤、同义词扩展等,以进一步提升搜索体验。
jcseg是使用Java开发的一个开源中文分词器,使用流行的mmseg算法实现,并且提供了最高版本的lucene-4.x和最高版本solr-4.x的分词接口. 1。目前最高版本:jcseg-1.9.2。兼容最高版本lucene-4.x和最高版本solr-4.x 2...
5. **停用词和同义词处理**:IK Analyzer还支持停用词(如“的”、“和”等常见无意义词汇)过滤和同义词扩展,以提高搜索结果的相关性。 6. **优化性能**:在高并发环境下,IK Analyzer的性能优化很重要。这可能...
Jcseg是基于 mmseg 算法的一个轻量级中文分词器,...Jcseg自带了一个 jcseg.properties 文件用于快速配置而得到适合不同场合的分词应用,例如:最大匹配词长,是否开启中文人名识别,是否追加拼音,是否追加同义词等!
IKAnalyzer,作为一款高效、易用的中文分词组件,能够有效地将连续的汉字序列切分成具有语义的词汇单元,提升搜索结果的相关性和准确性。 **IKAnalyzer的特性与优势:** 1. **灵活定制**:IKAnalyzer支持自定义词典...
5. **智能分析**:除了基本的分词功能,IK还具备了同义词扩展、英文单词识别、数字识别等智能分析能力,提升了分词效果。 在Solr 6中集成IK分词器,可以显著提升中文文档的检索性能和准确性。Solr是一个开源的企业...
过滤器可以进一步修改分词器产生的结果,比如去除数字、标点符号,或者执行同义词替换。查询分析器则负责处理用户的查询字符串,确保它们与索引中的分词保持一致。 总结来说,"分词器6659282.zip"是一个与Solr搜索...
4. **扩展性**:Ik Analyzer提供了一些插件接口,方便开发者根据需求进行扩展,例如停用词过滤、同义词扩展等。 5. **兼容性**:Ik Analyzer与多个版本的Solr和Lucene兼容,包括在这个压缩包中的Solr 7.x版本。 将...
- **同义词联想**:通过关联一组具有相似意义的词汇,可以提高搜索的覆盖范围。 - **语义转换**:将文本转换为其语义等价形式,例如将“buying”转换为“purchasing”。 #### 四、文本分析实战:分析微博文本 以...