网上已有不少教程了。
http://www.cnblogs.com/dennisit/archive/2013/04/07/3005847.html
http://blog.sina.com.cn/s/blog_4c9d7da201013wv2.html
这里只说两点:
- dic文件要用 “无dom的UTF-8”格式编码
- dic文件最好是放在项目的src文件夹下。
我的一个范例截图
对应的IKAnalyzer.cfg.xml文件设置如下:
<?xml version="1.0" encoding="UTF-8"?>
<!DOCTYPE properties SYSTEM "http://java.sun.com/dtd/properties.dtd">
<properties>
<comment>IK Analyzer 扩展配置</comment>
<!--用户可以在这里配置自己的扩展字典 -->
<entry key="ext_dict">./dic/scut.dic;</entry>
<!--用户可以在这里配置自己的扩展停止词字典-->
<entry key="ext_stopwords">./dic/stopword.dic;</entry>
</properties>
分享到:
相关推荐
4. 对于高级用法,ikanalyzer还提供了禁用某些词语、动态扩展词典等功能,可以通过调整配置来满足不同场景的需求。 ikanalyzer-solr6.5 的优势在于其对Solr的优化和对中文文本处理的专属性,可以提高索引效率和搜索...
使用IKAnalyzer通常涉及以下步骤: 1. 添加IKAnalyzer的依赖到项目中,如Maven或Gradle构建系统。 2. 配置词典,包括核心词典和自定义词典。 3. 初始化IKAnalyzer实例。 4. 对输入的文本进行分词操作。 5. 分析结果...
IKAnalyzer2012FF_hf1.zip是一个包含IK Analyzer 2012FF_hf1版本的压缩包,主要用于中文分词处理。IK Analyzer是一款高效、灵活且易用的开源中文分词工具,广泛应用于搜索引擎、信息检索系统以及文本挖掘等领域。在...
4. **配置文件**:IK Analyzer 可以通过配置文件调整其行为,如停用词表、扩展词典等。 **四、使用与定制** 要使用 IK Analyzer,开发者需要将库导入到项目中,然后创建 Analyzer 实例,调用其 analyze 方法对文本...
IKAnalyzer的设计目标是易于扩展和配置,以适应不同的应用场景和需求。它支持自定义词典,用户可以根据具体业务需求添加或删除词汇,提高分词的准确性。 在Solr中,IKAnalyzer作为分词器插件被使用,Solr是一款强大...
IKAnalyzer2012FF_u1是一款针对中文分词的开源工具,主要应用于搜索引擎和文本分析领域,尤其在Solr中被广泛使用。这个版本是IK Analyzer的2012最终版更新1(Final Full Update 1),它提供了一种高效、灵活的中文...
IKAnalyzer是一款开源的、基于Java实现的中文分词工具,它最初是为Lucene搜索引擎设计的,但随着时间的发展,已经逐渐成为一个独立的、可扩展的分词系统,能够很好地兼容高版本的Lucene。 首先,我们需要了解IK...
对于安装部署,IKAnalyzer的安装包通常包含了使用手册,指导用户如何正确安装和配置IKAnalyzer分词器。该手册还包括了对于词表的扩展使用方法,以及如何针对Solr搜索引擎进行分词器应用扩展的相关说明。 通过这份...
标题 "ik分词器ik-analyzer-5.3.0和ikanalyzer-solr6.5-2018" 涉及的是两个不同版本的IK分词器,一个是ik-analyzer-5.3.0,适用于Solr 5.5.0,另一个是ikanalyzer-solr6.5-2018,适用于Solr 7.0.0。IK分词器是Java...
Ik分词器支持自定义词典,可以根据具体需求扩展和更新词库,以适应不同领域的专业术语和新兴词汇。 该压缩包中的“中文分词词库.txt”文件,就是ik分词器的核心资源之一,它包含了大量预定义的词汇。这些词汇通常...
例如,我们可以在字段类型定义中设置Analyzer为"org.wltea.analyzer.lucene.IKAnalyzer",这样Solr就会使用ik-analyzer进行分词。 标签中提到的“ik-analyzer-solr”表明这是一个专门为Solr优化的版本,可能包含了...
4. **配置文件IKAnalyzer.cfg.xml**: 这个XML配置文件用于定制IK Analyzer的行为。用户可以在这里设置词典路径、停用词列表、是否开启全模式分词等参数。通过调整这些配置,可以优化分词性能,满足特定的应用场景...
在实际应用中,安装IK Analyzer插件到Elasticsearch后,用户可以通过配置分析器来指定使用IK分词器。这样,当Elasticsearch处理中文文档时,会自动使用IK进行分词,提高搜索的准确性。 例如,以下是在Elasticsearch...
<tokenizer class="org.wltea.analyzer.lucene.IKAnalyzer"/> </analyzer> <analyzer type="query"> <tokenizer class="org.wltea.analyzer.lucene.IKAnalyzer"/> </analyzer> ``` 4. **重启Solr**:保存...
提到的 "IKAnalyzer-master" 文件名表明我们可能正在使用 IK Analyzer,这是一个专门为 Java 开发的开源中文分词器。IK 分词器支持多种扩展策略,可以方便地进行自定义词典添加和分词规则调整,以适应不同的应用...
在Solr中,通常会使用第三方分词库,如ikanalyzer、jieba分词或者pkuseg等,这些库能处理中文的复杂性,如多音字、成语和词语的组合。 在配置Solr的中文分词时,有以下几个关键步骤: 1. **安装分词库**:下载并...
ik分词器是为Elasticsearch(ES)设计的一款高效、可扩展的中文分词工具,它能有效地将中文文本拆分成一个个独立的词语,便于后续的索引和查询操作。ik分词器7.17.10是该工具的一个版本,适用于Elasticsearch 7.x...
在IKAnalyzer中,可以通过修改配置文件(如`IKAnalyzer.cfg.xml`)来添加停用词库,例如添加中文停用词库`chinese_stopword.dic`。 总的来说,中文分词是中文自然语言处理的核心技术之一,不同的分词框架各有特点,...
例如,使用IK Analyzer时,需要配置queryAnalyzer和indexAnalyzer,指定对应的分词器类。同时,可能还需要在schema.xml中定义字段类型,指定使用哪种分词器进行分词。 除了基础的配置,Solr还支持高级功能,如 ...
同时,IK 分词器还支持同义词扩展,通过配置同义词库,可以实现同义词的搜索匹配,进一步提高用户体验。 总的来说,Elasticsearch 7.4.2 结合 IK 分词插件,为中文环境的全文检索和数据分析提供了强大的工具,它们...