`
mywebcode
  • 浏览: 1071640 次
文章分类
社区版块
存档分类
最新评论

IKAnalyzer 独立使用 配置扩展词库

 
阅读更多

网上已有不少教程了。

http://www.cnblogs.com/dennisit/archive/2013/04/07/3005847.html

http://blog.sina.com.cn/s/blog_4c9d7da201013wv2.html


这里只说两点:

  1. dic文件要用 “无dom的UTF-8”格式编码
  2. dic文件最好是放在项目的src文件夹下。
我的一个范例截图


对应的IKAnalyzer.cfg.xml文件设置如下:
<?xml version="1.0" encoding="UTF-8"?>
<!DOCTYPE properties SYSTEM "http://java.sun.com/dtd/properties.dtd">  
<properties>  
	<comment>IK Analyzer 扩展配置</comment>
	<!--用户可以在这里配置自己的扩展字典 -->
	<entry key="ext_dict">./dic/scut.dic;</entry> 
	
	<!--用户可以在这里配置自己的扩展停止词字典-->
	<entry key="ext_stopwords">./dic/stopword.dic;</entry> 
	
</properties>


分享到:
评论

相关推荐

    分词器 ikanalyzer-solr6.5

    4. 对于高级用法,ikanalyzer还提供了禁用某些词语、动态扩展词典等功能,可以通过调整配置来满足不同场景的需求。 ikanalyzer-solr6.5 的优势在于其对Solr的优化和对中文文本处理的专属性,可以提高索引效率和搜索...

    IKAnalyzer

    使用IKAnalyzer通常涉及以下步骤: 1. 添加IKAnalyzer的依赖到项目中,如Maven或Gradle构建系统。 2. 配置词典,包括核心词典和自定义词典。 3. 初始化IKAnalyzer实例。 4. 对输入的文本进行分词操作。 5. 分析结果...

    IKAnalyzer2012FF_hf1.zip

    IKAnalyzer2012FF_hf1.zip是一个包含IK Analyzer 2012FF_hf1版本的压缩包,主要用于中文分词处理。IK Analyzer是一款高效、灵活且易用的开源中文分词工具,广泛应用于搜索引擎、信息检索系统以及文本挖掘等领域。在...

    IK Analyzer 2012_u6_source

    4. **配置文件**:IK Analyzer 可以通过配置文件调整其行为,如停用词表、扩展词典等。 **四、使用与定制** 要使用 IK Analyzer,开发者需要将库导入到项目中,然后创建 Analyzer 实例,调用其 analyze 方法对文本...

    IKAnalyzer2012FF_u1.jar

    IKAnalyzer的设计目标是易于扩展和配置,以适应不同的应用场景和需求。它支持自定义词典,用户可以根据具体业务需求添加或删除词汇,提高分词的准确性。 在Solr中,IKAnalyzer作为分词器插件被使用,Solr是一款强大...

    IKAnalyzer2012FF_u1 ik solr分词器

    IKAnalyzer2012FF_u1是一款针对中文分词的开源工具,主要应用于搜索引擎和文本分析领域,尤其在Solr中被广泛使用。这个版本是IK Analyzer的2012最终版更新1(Final Full Update 1),它提供了一种高效、灵活的中文...

    java单独整合ikanalyzer中文分词器提取关键字及动态拓展词库并兼容lucene高版本

    IKAnalyzer是一款开源的、基于Java实现的中文分词工具,它最初是为Lucene搜索引擎设计的,但随着时间的发展,已经逐渐成为一个独立的、可扩展的分词系统,能够很好地兼容高版本的Lucene。 首先,我们需要了解IK...

    IKAnalyzer中文分词器V2012使用手册.pdf

    对于安装部署,IKAnalyzer的安装包通常包含了使用手册,指导用户如何正确安装和配置IKAnalyzer分词器。该手册还包括了对于词表的扩展使用方法,以及如何针对Solr搜索引擎进行分词器应用扩展的相关说明。 通过这份...

    ik分词器ik-analyzer-5.3.0和ikanalyzer-solr6.5-2018

    标题 "ik分词器ik-analyzer-5.3.0和ikanalyzer-solr6.5-2018" 涉及的是两个不同版本的IK分词器,一个是ik-analyzer-5.3.0,适用于Solr 5.5.0,另一个是ikanalyzer-solr6.5-2018,适用于Solr 7.0.0。IK分词器是Java...

    ik中文分词词库,包含不低于20万词

    Ik分词器支持自定义词典,可以根据具体需求扩展和更新词库,以适应不同领域的专业术语和新兴词汇。 该压缩包中的“中文分词词库.txt”文件,就是ik分词器的核心资源之一,它包含了大量预定义的词汇。这些词汇通常...

    ik-analyzer.rar

    例如,我们可以在字段类型定义中设置Analyzer为"org.wltea.analyzer.lucene.IKAnalyzer",这样Solr就会使用ik-analyzer进行分词。 标签中提到的“ik-analyzer-solr”表明这是一个专门为Solr优化的版本,可能包含了...

    IK中文分词及配置文件.zip

    4. **配置文件IKAnalyzer.cfg.xml**: 这个XML配置文件用于定制IK Analyzer的行为。用户可以在这里设置词典路径、停用词列表、是否开启全模式分词等参数。通过调整这些配置,可以优化分词性能,满足特定的应用场景...

    中文常见搜索引擎分词库

    在实际应用中,安装IK Analyzer插件到Elasticsearch后,用户可以通过配置分析器来指定使用IK分词器。这样,当Elasticsearch处理中文文档时,会自动使用IK进行分词,提高搜索的准确性。 例如,以下是在Elasticsearch...

    支持solr5.5 solr6.0中IK分词需要的资料

    &lt;tokenizer class="org.wltea.analyzer.lucene.IKAnalyzer"/&gt; &lt;/analyzer&gt; &lt;analyzer type="query"&gt; &lt;tokenizer class="org.wltea.analyzer.lucene.IKAnalyzer"/&gt; &lt;/analyzer&gt; ``` 4. **重启Solr**:保存...

    solr 中文分词

    提到的 "IKAnalyzer-master" 文件名表明我们可能正在使用 IK Analyzer,这是一个专门为 Java 开发的开源中文分词器。IK 分词器支持多种扩展策略,可以方便地进行自定义词典添加和分词规则调整,以适应不同的应用...

    solr 3.4 中文分词配置问题

    在Solr中,通常会使用第三方分词库,如ikanalyzer、jieba分词或者pkuseg等,这些库能处理中文的复杂性,如多音字、成语和词语的组合。 在配置Solr的中文分词时,有以下几个关键步骤: 1. **安装分词库**:下载并...

    ik分词器7.17.10

    ik分词器是为Elasticsearch(ES)设计的一款高效、可扩展的中文分词工具,它能有效地将中文文本拆分成一个个独立的词语,便于后续的索引和查询操作。ik分词器7.17.10是该工具的一个版本,适用于Elasticsearch 7.x...

    18-文本分词1

    在IKAnalyzer中,可以通过修改配置文件(如`IKAnalyzer.cfg.xml`)来添加停用词库,例如添加中文停用词库`chinese_stopword.dic`。 总的来说,中文分词是中文自然语言处理的核心技术之一,不同的分词框架各有特点,...

    企业级搜索应用服务器solr

    例如,使用IK Analyzer时,需要配置queryAnalyzer和indexAnalyzer,指定对应的分词器类。同时,可能还需要在schema.xml中定义字段类型,指定使用哪种分词器进行分词。 除了基础的配置,Solr还支持高级功能,如 ...

    ElasticSearch7.4.2-ik分词.zip

    同时,IK 分词器还支持同义词扩展,通过配置同义词库,可以实现同义词的搜索匹配,进一步提高用户体验。 总的来说,Elasticsearch 7.4.2 结合 IK 分词插件,为中文环境的全文检索和数据分析提供了强大的工具,它们...

Global site tag (gtag.js) - Google Analytics