`
ren00317574
  • 浏览: 11722 次
  • 性别: Icon_minigender_1
  • 来自: 北京
社区版块
存档分类
最新评论

solr3.5同时配置paoding,IKAnalyzer,mmseg4j三种分词器词库

    博客分类:
  • solr
阅读更多
solr同时配置三种中文分词器到schema.xml。
关键点在三种分词器的词库配置。


先下载三种不同版本的分词器
mmseg4j-1.8.5.zip;
IKAnalyzer3.2.8 bin.zip
paoding-analysis-2.0.4-beta.zip
solr版本:3.5
web服务器:tomcat6

开始配置到schema.xml
(1)mmseg4j-1.8.5.zip
关键点在dicPath

<fieldType name="随便叫" class="solr.TextField" positionIncrementGap="100">
      <analyzer type="index">     <tokenizer class="com.chenlb.mmseg4j.solr.MMSegTokenizerFactory" mode="max-word" dicPath="zip包中的dic文件夹,dic放哪里就指定哪里"/>
	<filter SynonymFilterFactory StopFilterFactory WordDelimiterFilterFactory...很多filter/>		
</analyzer>
	<analyzer type="query">
			<tokenizer class="com.chenlb.mmseg4j.solr.MMSegTokenizerFactory" mode="max-word" dicPath="zip包中的dic文件夹,dic放哪里就指定哪里"/>
<filter SynonymFilterFactory StopFilterFactory WordDelimiterFilterFactory...很多filter/>		</fieldType>

(2)paoding-analysis-2.0.4-beta.zip 
词库信息在zip包中的dic文件夹,把整个文件夹拷入TOMCAT_HOME/webapps\solr\WEB-INF\classes;
把zip包中的src下的所有properties文件放入同样位置;
很关键一点,每次修改了dic文件夹中的dic文件,必须删除.compiled文件夹,重启后会再次生成
<fieldType name="随便叫" class="solr.TextField" positionIncrementGap="100">
      <analyzer type="index">    <tokenizer class="net.paoding.analysis.analyzer.solr.ChineseTokenizerFactory" mode="most-words" />	<filter SynonymFilterFactory StopFilterFactory WordDelimiterFilterFactory...很多filter/>		
</analyzer>
	<analyzer type="query">
			<tokenizer class="net.paoding.analysis.analyzer.solr.ChineseTokenizerFactory" mode="most-words" /><filter SynonymFilterFactory StopFilterFactory WordDelimiterFilterFactory...很多filter/>		</fieldType>

(3)IKAnalyzer3.2.8 bin.zip
把zip包中的IKAnalyzer.cfg.xml文件拷入TOMCAT_HOME/webapps\solr\WEB-INF\classes;
zip包中的ext_stopword.dic文件拷入同样位置,可以使用任意*.dic词库,但必须修改成mydict.dic文件名,放入同样位置;
修改IKAnalyzer.cfg.xml,放开注释即可,打开都能看明白
<fieldType name="随便叫" class="solr.TextField" positionIncrementGap="100">
      <analyzer type="index">  <tokenizer class="org.wltea.analyzer.solr.IKTokenizerFactory"  isMaxWordLength="false"/>  	<filter SynonymFilterFactory StopFilterFactory WordDelimiterFilterFactory...很多filter/>		
</analyzer>
	<analyzer type="query">
			<tokenizer class="org.wltea.analyzer.solr.IKTokenizerFactory"  isMaxWordLength="false"/>  <filter SynonymFilterFactory StopFilterFactory WordDelimiterFilterFactory...很多filter/>		</fieldType>



如果有一些帮助,来个关注吧,马上会加上热门搜索词汇,搜索提示等实例功能
分享到:
评论

相关推荐

    兼容solr4.10.2的ik-mmseg4j-paoding分词器

    能兼容solr-4.10.2的分词器,大礼包...包括IK分词器,mmseg4j分词器,庖丁分词器.都是经本人测试可用,其中mmseg4j与庖丁都是下载源码,修改重编译并测试生成的.希望大家喜欢.至于与solr的整合方式,网上很多,这里就不介绍了.

    ikanalyzer-solr8.4.0_solr8_solr_ikanalyzer_中文分词_

    同时,ikanalyzer 还提供了全模式和最细粒度模式两种分词策略,全模式尽可能切出更多的词,而最细粒度模式则更注重词语的完整度。 总之,ikanalyzer-solr8.4.0 是 Solr 8.4.0 版本下用于中文分词的重要工具,通过...

    兼容solr4.10.3的mmseg4j-1.9.1分词器

    "兼容solr4.10.3的mmseg4j-1.9.1分词器" 这个标题表明我们正在讨论的是一个针对Solr 4.10.3版本优化的mmseg4j分词器,版本号为1.9.1。mmseg4j是一款广泛使用的Java实现的中文分词库,它提供了高效且精准的中文分词...

    solr 分词器 mmseg4j IKAnalyzer

    提到的两个分词器,mmseg4j 和 IKAnalyzer,都是为中文处理设计的。 1. **mmseg4j** 是一款由 Java 实现的中文分词库,它采用了 MaxMatch(最大匹配)算法。mmseg4j 提供了多种分词模式,如简短模式、精确模式、全...

    ik+mmseg分词器

    在 Solr 6.1 版本中,IK+MMSEG 分词器的整合意味着用户可以在享受 IK Analyzer 高效分词性能的同时,利用 MMSEG 的复杂词汇处理能力。这种组合可以处理各种复杂的中文文本,包括网络语言、专业术语等,对于提升搜索...

    solr6配置mmseg4j

    4. **配置schema.xml**:在Solr的schema.xml文件中,为需要进行分词的字段指定mmseg4j分词器。例如: ``` &lt;fieldType name="text_mmseg" class="solr.TextField" positionIncrementGap="100"&gt; &lt;analyzer type=...

    ik-analyzer-solr7.zip

    在描述中提到的"ik-analyzer-solr7.zip"是一个专门为Apache Solr 7.x版本定制的IKAnalyzer分词器插件。Solr是Apache软件基金会的一个项目,它是一款强大的全文搜索服务器,提供了诸如索引、搜索、高亮显示、拼写检查...

    solr中文分词jar包ik-analyzer 含class配置 ik-analyzer-7.5.0

    4. **与Solr的整合**:Ik Analyzer为Solr提供了专门的配置,可以无缝对接,实现对Solr索引的中文分词处理。 在实际应用中,Ik Analyzer的集成步骤大致如下: 1. **下载与解压**:获取ik-analyzer-7.5.0.jar文件,...

    mmseg4j-solr-2.4.0.jar

    通常,这涉及到创建一个新的字段类型,并配置对应的分析器,如`&lt;fieldType name="text_mmseg" class="solr.TextField"&gt;`,然后在`&lt;analyzer&gt;`标签内指定`&lt;tokenizer class="com.chenlb.mmseg4j.solr....

    solr6.x的IKAnalyzer配置智能分词

    - **下载与解压**:首先需要从官方或第三方源获取IKAnalyzer的jar包,同时确保已经安装并运行了Solr 6.6。 - **修改schema.xml**:在Solr的`conf`目录下,找到`schema.xml`文件,这是定义字段类型和字段的配置文件...

    在tomcat环境下搭建solr3.5和mmseg4j搜索引擎

    通过以上步骤,我们已经完成了在Tomcat环境下搭建Solr 3.5及MMSEG4J中文分词器的基础配置工作。这些配置使得Solr能够更好地处理中文文档,并提供更准确的中文检索结果。此外,通过MMSEG4J提供的不同分词模式,可以...

    solr4.X所用IKAnalyzer中文分词器jar包

    总的来说,IKAnalyzer中文分词器为Solr4.X提供了强大的中文处理能力,通过合理配置和使用,可以极大地提升中文搜索的质量和效率。在实际应用中,用户可以根据自身需求进行定制化配置,以满足特定场景的分词要求。

    mmseg4j-solr-2.1.0-with-mmseg4j-core.zip

    《mmseg4j-solr-2.1.0-with-mmseg4j-core.zip:Solr4.8与mmseg4j分词器的集成详解》 在信息检索和文本挖掘领域,搜索引擎扮演着至关重要的角色,而Apache Solr作为一款高效、可扩展的开源全文搜索平台,被广泛应用...

    IKAnalyzer源码+配置+智能分词类

    IKAnalyzer是一款基于Java实现的开源中文分词器,主要应用于搜索引擎和文本分析领域。它是由尹国平(iK)发起并维护的项目,旨在提供一个高效且易用的中文分词解决方案。IKAnalyzer支持自定义扩展字典,允许用户根据...

    solr mmseg4j 中文分词器

    mmseg4j-solr-2.3.0.jar 支持 solr5.x 版本以上 分词器本身并未做升级还是mmseg4j-core-1.10.0 和 mmseg4j-analysis-1.9.1.jar为了方便也一并上传

    几种分词工具的jar包(IKAnalyzer、hanlp、mmseg4j-analysis)

    几种分词工具都试过,对于中文来说的的话个人觉得IKAnalyzer 最好用,不同版本的IKAnalyzer jar包,包括IKAnalyzer6.5.0、IKAnalyzer5.0、IKAnalyzer2012,IKAnalyzer6.5.0可完美兼容Lucene6+,IKAnalyzer5.0兼容...

    mmseg4j-solr-2.2.0-with-mmseg4j-core.zip

    安装这个插件后,只需在Solr的配置文件中指定mmseg4j作为默认的分词器,即可开启中文分词功能。同时,mmseg4j提供了丰富的参数调整选项,如词语长度限制、分词模式等,以适应不同场景的需求。 README.md文件通常...

    solr配置ikanalyzer分词文件以使用说明

    在这个说明中,我们将详细讲解如何在Solr 6.0中配置ikanalyzer分词文件,以实现对中文文本的有效处理。 1. **ikanalyzer简介** ikanalyzer是一款专门为Java语言设计的开源中文分词库,它基于Apache Lucene项目,...

    分词器 ikanalyzer-solr6.5

    ikanalyzer-solr6.5 是一个专门为Solr 6.5版本设计的中文分词器,它基于ikanalyzer,并且进行了优化以更好地适应Solr的索引和搜索需求。ikanalyzer是一个开源的、基于Java实现的中文分词库,主要用于解决中文文本...

    solr 中文分词其IKAnalyzer 支持solr版本5.X-7.X

    1. **安装与配置**:首先,将`ikanalyzer-solr5`这样的压缩包解压,并将其中的IKAnalyzer相关的JAR文件添加到Solr的lib目录下,确保Solr启动时能加载到该分词器。 2. **配置schema.xml**:在Solr的配置文件`schema....

Global site tag (gtag.js) - Google Analytics