`
longxia1987
  • 浏览: 35533 次
  • 性别: Icon_minigender_1
  • 来自: 上海
社区版块
存档分类
最新评论

IKAnalyzer 扩展词典(强制分词)

 
阅读更多

前面说到solr+IKAnalyzer来配置中文分词;在实际中我们有些需求是需要将特定的词作为一个分词来处理,那么我们就需要设置自己的词典

例子:连帽上衣

希望将 “连帽” 作为一个词来处理,并不希望作为 连,帽 来处理


默认分词:



做法:

IKAnalyzer.cfg.xml放到solr的tomcat中:..../webapp/WEB-INF/classes/IKAnalyzer.cfg.xml,并配置 IKAnalyzer.cfg.xml文件

<?xml version="1.0" encoding="UTF-8"?>
<!DOCTYPE properties SYSTEM "http://java.sun.com/dtd/properties.dtd">  
<properties>  
	<comment>IK Analyzer 扩展配置</comment>
	<!--用户可以在这里配置自己的扩展字典--> 
	<entry key="ext_dict">/mydict.dic;</entry> 
	 
	 <!--用户可以在这里配置自己的扩展停止词字典-->
	<entry key="ext_stopwords">/ext_stopword.dic</entry> 
	
</properties>

我是将 mydict.dic 文件和 IKAnalyzer.cfg.xml 放在同一个目录,也可以放在别的地方,配置好路径就可以了

mydict.dic 文件中就只有“连帽” 这个词;

经典问题来了:mydict.dic 必须是 utf-8 的无BOM格式编码。

配置好之后重启solr,再次查看分词:


这样连帽就能匹配的到了。

搞了好久,才知道是文件的编码格式不对。我日的,还必须是无BOM格式。


分享到:
评论

相关推荐

    IKAnalyzer配置文件、扩展词典和停用词词典.zip

    通过添加到扩展词典,IKAnalyzer在处理文本时能更好地识别这些词汇,提高分词的覆盖率和准确性。 3. **stopword.dic**:停用词词典,包含一些在分析文本时通常不需要考虑的常用词汇,如“的”、“是”、“在”等。...

    使用IK Analyzer实现中文分词之Java实现

    从 2006年 12 月推出 1.0 版开始, IKAnalyzer 已经推出了 4 个大版本。最初,它是以开源项目Luence 为应用主体的,结合词典分词和文法分析算法的中文分词组件。 从 3.0 版本开始,IK 发展为面向 Java 的公用分词...

    IK-Analyzer 分词器所需要的配置文件、扩展词典及停用词词典 完整包下载

    IKAnalyzer是一个开源的,基于java语言开发的轻量级的中文分词工具包。 采用了特有的“正向迭代最细粒度切分算法”,具有60万字/秒的高速处理能力。 采用了多子处理器分析模式,支持:英文字母(IP地址、Email、...

    IKAnalyzer 分词器所需要的停用词词典 ext_stopword.dic 下载

    IKAnalyzer 分词器所需要的停用词词典 ext_stopword.dic 下载 Solr中使用IK-Analyzer实现中文分词器的配置详情 : http://blog.csdn.net/hello_world_qwp/article/details/78890904

    基于IKAnalyzer.NET的分词工具(包含dll)

    IKAnalyzer最初由尹吉欢开发,设计目标是提供一个灵活的、可扩展的中文分词解决方案,支持自定义词典和词典热更新。它采用了基于HMM(隐马尔科夫模型)的词典查词策略,同时结合了基于字典的分词方法和基于统计的...

    关于IKAnalyzer3.2.8扩展词典配置的个人心得和意见

    IKAnalyzer3.2.8作为一款强大的中文分词工具,在扩展词典配置方面有着严格的规范。通过正确配置`mydict.txt`和`ext_stopword.txt`文件,可以显著提升中文文本的分词质量。此外,遵循上述步骤和注意事项,不仅能够...

    IKAnalyzer 中文分词 完整java项目demo

    IKAnalyzer非常易用的java分词工具。可以自定义扩展词汇。 这个是一个完整的java项目demo。直接可以用,不用再去google下载了。添加了几个自定义词汇,测试好用。 运行ika.java里的main方法即可

    IKAnalyzer中文分词计算句子相似度

    3. **扩展性**:IKAnalyzer提供了一套插件机制,允许开发者进行二次开发,比如增加新的分词算法或者过滤规则。 4. **高性能**:由于采用了高效的算法和数据结构,IKAnalyzer在处理大量中文文本时表现出良好的性能。...

    IK Analyzer 中文分词器下载

    5. **插件扩展**:IK Analyzer支持插件化开发,可以方便地增加新的分词策略或功能。 在实际应用中,IK Analyzer常与全文检索框架如Lucene、Elasticsearch结合使用,提升中文搜索的效率和准确性。例如,在搭建企业级...

    IKAnalyzer2012_u6中文分词器jar包

    IKAnalyzer2012_u6中文分词器jar包 IKAnalyzer2012_u6中文分词器jar包 IKAnalyzer2012_u6中文分词器jar包 IKAnalyzer2012_u6中文分词器jar包 IKAnalyzer2012_u6中文分词器jar包

    ikanalyzer-solr8.4.0_solr8_solr_ikanalyzer_中文分词_

    ikanalyzer 提供了丰富的扩展性,用户可以根据自己的需求定制词典,支持自定义停用词、同义词等,以满足不同场景的分词需求。同时,ikanalyzer 还提供了全模式和最细粒度模式两种分词策略,全模式尽可能切出更多的词...

    IKAnalyzer分词器

    标题中的"IKAnalyzer分词器"指的是IKAnalyzer这个软件工具,它是一个基于Java的全文检索分析引擎。它的主要任务是对中文文本进行分词,即将连续的汉字序列切分成一个个有意义的词汇,这是中文信息处理中的关键步骤。...

    IKAnalyzer中文分词器 java

    IKAnalyzer采用基于词典的分词方法,结合正向最大匹配(FMM)和逆向最大匹配算法,同时考虑词语的上下文信息,提高分词的准确性。此外,它还支持用户自定义词典,以处理特定领域的专业词汇。 3. **包含的文件** - ...

    IKAnalyzer中文分词器V3.2使用

    总之,IKAnalyzer中文分词器以其高效、易用和可扩展性在Java领域的中文处理中占有一席之地。通过深入理解和灵活运用,我们可以利用它来改善信息检索和文本分析的性能。在实际项目中,根据具体需求进行定制和优化,...

    使用IK Analyzer实现中文分词之Java实现(包含所有工具包)

    1、lucene-core-3.6.0.jar 2、IKAnalyzer2012.jar(主jar包) 3、IKAnalyzer.cfg.xml(分词器扩展配置文件) 4、stopword.dic(停止词典) 5、IkSegmentation.java(样例类)

    Lucene的IK Analyzer 3.0 中文分词器 全解

    - 分词器能够准确识别并处理各种文本,例如在一段介绍IK Analyzer的文字中,它能够正确将“IKAnalyzer”拆分为“ik-analyzer”,同时处理日期、版本号等非标准格式的词汇。 - 在处理公司名称时,如“永和服装饰品...

    IKAnalyzer中文分词器

    IKAnalyzer是一款专为中文处理设计的开源分词器,它主要应用于搜索引擎、信息检索系统、文本挖掘等领域。这款工具能够高效地对中文文本进行分词,使得计算机可以更好地理解和处理中文信息。IKAnalyzer的名字来源于...

    IKAnalyzer中文分词.rar

    IKAnalyzer继承Lucene的Analyzer抽象类,使用IKAnalyzer和Lucene自带的分析器方法一样,将Analyzer测试代码改为IKAnalyzer测试中文分词效果。 如果使用中文分词器ik-analyzer,就需要在索引和搜索程序中使用一致的...

    基于IKAnalyzer2012的分词小例子

    2. **扩展词典**:IKAnalyzer2012支持用户自定义扩展词典,你可以根据实际需求添加新的词汇或者短语,比如“T恤”这样的特殊商品名。 3. **动态配置**:除了词典扩展,IKAnalyzer2012还允许开发者在代码中进行...

    ikanalyzer-solr中文分词包兼容solr7.5

    ikanalyzer-solr中文分词包是专门为Apache Solr设计的一款强大的中文分词工具,它在处理中文文本时能够有效地进行词语切分,提高搜索准确性和效率。标题中提到的"ikanalyzer-solr中文分词包兼容solr7.5"意味着这个...

Global site tag (gtag.js) - Google Analytics