IKAnalyzer 独立使用配置扩展词库 - - ITeye博客

`

mywebcode

浏览: 1071640 次

最近访客更多访客>>

u012363178

qq_33632159

cshui

dd_9921

博主相关

博客

微博

相册

收藏

留言

关于我

文章分类

全部博客 (2181)

社区版块

存档分类

2014-04 ( 138)
2014-03 ( 64)
2014-02 ( 54)
更多存档...

最新评论

ITOYO1234567890： [flash=200,200][url][img][/img] ...
《在线音乐网站系统》开发全程回忆
sanrenxing_1：我觉得这种东西自己开发太麻烦了，就别自己捣鼓了，找个第三方，方 ...
tornado websocket

IKAnalyzer 独立使用配置扩展词库

阅读更多

网上已有不少教程了。

http://www.cnblogs.com/dennisit/archive/2013/04/07/3005847.html

http://blog.sina.com.cn/s/blog_4c9d7da201013wv2.html

这里只说两点：

dic文件要用 “无dom的UTF-8”格式编码
dic文件最好是放在项目的src文件夹下。

我的一个范例截图

对应的IKAnalyzer.cfg.xml文件设置如下：

<?xml version="1.0" encoding="UTF-8"?>
<!DOCTYPE properties SYSTEM "http://java.sun.com/dtd/properties.dtd">  
<properties>  
	<comment>IK Analyzer 扩展配置</comment>
	<!--用户可以在这里配置自己的扩展字典 -->
	<entry key="ext_dict">./dic/scut.dic;</entry> 
	
	<!--用户可以在这里配置自己的扩展停止词字典-->
	<entry key="ext_stopwords">./dic/stopword.dic;</entry> 
	
</properties>

分享到：

Solr 3.6.2索引MySQL数据库配置过程 | 《在线音乐网站系统》开发全程回忆

2013-07-08 10:27
浏览 343
评论(0)
查看更多

评论

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

分词器 ikanalyzer-solr6.5: 4. 对于高级用法，ikanalyzer还提供了禁用某些词语、动态扩展词典等功能，可以通过调整配置来满足不同场景的需求。 ikanalyzer-solr6.5 的优势在于其对Solr的优化和对中文文本处理的专属性，可以提高索引效率和搜索...

IKAnalyzer: 使用IKAnalyzer通常涉及以下步骤： 1. 添加IKAnalyzer的依赖到项目中，如Maven或Gradle构建系统。 2. 配置词典，包括核心词典和自定义词典。 3. 初始化IKAnalyzer实例。 4. 对输入的文本进行分词操作。 5. 分析结果...

IKAnalyzer2012FF_hf1.zip: IKAnalyzer2012FF_hf1.zip是一个包含IK Analyzer 2012FF_hf1版本的压缩包，主要用于中文分词处理。IK Analyzer是一款高效、灵活且易用的开源中文分词工具，广泛应用于搜索引擎、信息检索系统以及文本挖掘等领域。在...

IK Analyzer 2012_u6_source: 4. **配置文件**：IK Analyzer 可以通过配置文件调整其行为，如停用词表、扩展词典等。 **四、使用与定制** 要使用 IK Analyzer，开发者需要将库导入到项目中，然后创建 Analyzer 实例，调用其 analyze 方法对文本...

IKAnalyzer2012FF_u1.jar: IKAnalyzer的设计目标是易于扩展和配置，以适应不同的应用场景和需求。它支持自定义词典，用户可以根据具体业务需求添加或删除词汇，提高分词的准确性。在Solr中，IKAnalyzer作为分词器插件被使用，Solr是一款强大...

IKAnalyzer2012FF_u1 ik solr分词器: IKAnalyzer2012FF_u1是一款针对中文分词的开源工具，主要应用于搜索引擎和文本分析领域，尤其在Solr中被广泛使用。这个版本是IK Analyzer的2012最终版更新1（Final Full Update 1），它提供了一种高效、灵活的中文...

java单独整合ikanalyzer中文分词器提取关键字及动态拓展词库并兼容lucene高版本: IKAnalyzer是一款开源的、基于Java实现的中文分词工具，它最初是为Lucene搜索引擎设计的，但随着时间的发展，已经逐渐成为一个独立的、可扩展的分词系统，能够很好地兼容高版本的Lucene。首先，我们需要了解IK...

IKAnalyzer中文分词器V2012使用手册.pdf: 对于安装部署，IKAnalyzer的安装包通常包含了使用手册，指导用户如何正确安装和配置IKAnalyzer分词器。该手册还包括了对于词表的扩展使用方法，以及如何针对Solr搜索引擎进行分词器应用扩展的相关说明。通过这份...

ik分词器ik-analyzer-5.3.0和ikanalyzer-solr6.5-2018: 标题 "ik分词器ik-analyzer-5.3.0和ikanalyzer-solr6.5-2018" 涉及的是两个不同版本的IK分词器，一个是ik-analyzer-5.3.0，适用于Solr 5.5.0，另一个是ikanalyzer-solr6.5-2018，适用于Solr 7.0.0。IK分词器是Java...

ik中文分词词库，包含不低于20万词: Ik分词器支持自定义词典，可以根据具体需求扩展和更新词库，以适应不同领域的专业术语和新兴词汇。该压缩包中的“中文分词词库.txt”文件，就是ik分词器的核心资源之一，它包含了大量预定义的词汇。这些词汇通常...

ik-analyzer.rar: 例如，我们可以在字段类型定义中设置Analyzer为"org.wltea.analyzer.lucene.IKAnalyzer"，这样Solr就会使用ik-analyzer进行分词。标签中提到的“ik-analyzer-solr”表明这是一个专门为Solr优化的版本，可能包含了...

IK中文分词及配置文件.zip: 4. **配置文件IKAnalyzer.cfg.xml**：这个XML配置文件用于定制IK Analyzer的行为。用户可以在这里设置词典路径、停用词列表、是否开启全模式分词等参数。通过调整这些配置，可以优化分词性能，满足特定的应用场景...

中文常见搜索引擎分词库: 在实际应用中，安装IK Analyzer插件到Elasticsearch后，用户可以通过配置分析器来指定使用IK分词器。这样，当Elasticsearch处理中文文档时，会自动使用IK进行分词，提高搜索的准确性。例如，以下是在Elasticsearch...

支持solr5.5 solr6.0中IK分词需要的资料: <tokenizer class="org.wltea.analyzer.lucene.IKAnalyzer"/> </analyzer> <analyzer type="query"> <tokenizer class="org.wltea.analyzer.lucene.IKAnalyzer"/> </analyzer> ``` 4. **重启Solr**：保存...

solr 中文分词: 提到的 "IKAnalyzer-master" 文件名表明我们可能正在使用 IK Analyzer，这是一个专门为 Java 开发的开源中文分词器。IK 分词器支持多种扩展策略，可以方便地进行自定义词典添加和分词规则调整，以适应不同的应用...

solr 3.4 中文分词配置问题: 在Solr中，通常会使用第三方分词库，如ikanalyzer、jieba分词或者pkuseg等，这些库能处理中文的复杂性，如多音字、成语和词语的组合。在配置Solr的中文分词时，有以下几个关键步骤： 1. **安装分词库**：下载并...

ik分词器7.17.10: ik分词器是为Elasticsearch（ES）设计的一款高效、可扩展的中文分词工具，它能有效地将中文文本拆分成一个个独立的词语，便于后续的索引和查询操作。ik分词器7.17.10是该工具的一个版本，适用于Elasticsearch 7.x...

18-文本分词1: 在IKAnalyzer中，可以通过修改配置文件（如`IKAnalyzer.cfg.xml`）来添加停用词库，例如添加中文停用词库`chinese_stopword.dic`。总的来说，中文分词是中文自然语言处理的核心技术之一，不同的分词框架各有特点，...

企业级搜索应用服务器solr: 例如，使用IK Analyzer时，需要配置queryAnalyzer和indexAnalyzer，指定对应的分词器类。同时，可能还需要在schema.xml中定义字段类型，指定使用哪种分词器进行分词。除了基础的配置，Solr还支持高级功能，如 ...

ElasticSearch7.4.2-ik分词.zip: 同时，IK 分词器还支持同义词扩展，通过配置同义词库，可以实现同义词的搜索匹配，进一步提高用户体验。总的来说，Elasticsearch 7.4.2 结合 IK 分词插件，为中文环境的全文检索和数据分析提供了强大的工具，它们...

Global site tag (gtag.js) - Google Analytics