Lucene 学习 分词器
Analyzer analyzer = new IKAnalyzer();
分词器词典扩展方法:
1.基于API的词典扩展
IK 分词器支持使用API编程模型扩充您的词典和停止词典。如果您的个性化词典是存
储于数据库中,这个方式应该对您适用。API如下:
类org.wltea.analyzer.dic.Dictionary
说明: IK 分词器的词典对象。它负责中文词汇的加载,内存管理和匹配检索。
public static void addWords(Collection<String> words)
说明:加载用户扩展的词汇列表到IK 的主词典中,增加分词器的可识别词语。
参数1:Collection<String> words , 扩展的词汇列表
返回值:无
public static void disableWords(Collection<String> words)
说明:屏蔽词典中的词元
参数1:Collection<String> words, 待删除的词列表
返回值:无
Dictionary dictionary = Dictionary.initial(Configuration.getInstance());
List<String> wordList = new ArrayList<String>();
wordList.add("用例");
dictionary.addWords(wordList);
2.基于配置的词典扩充
IK 分词器还支持通过配置IKAnalyzer.cfg.xml 文件来扩充您的专有词典以及停止词典
(过滤词典)。
1. 部署IKAnalyzer.cfg.xml
IKAnalyzer.cfg.xml 部 署 在 代 码 根 目 录 下 ( 对 于web项 目 , 通 常 是
WEB-INF/classes目录)同hibernate、log4j等配置文件相同。
2. 词典文件的编辑与部署
分词器的词典文件格式是无BOM的UTF-8编码的中文文本文件,文件扩展名不
限。词典中,每个中文词汇独立占一行,使用\r\n的DOS方式换行。(注,如果您不
了解什么是无BOM的UTF-8格式, 请保证您的词典使用UTF-8存储,并在文件的
头部添加一空行)。您可以参考分词器源码org.wltea.analyzer.dic包下的.dic 文件。
词典文件应部署在Java 的资源路径下,即ClassLoader能够加载的路径中。(推
荐同IKAnalyzer.cfg.xml放在一起)
3. IKAnalyzer.cfg.xml 文件的配置
<?xml version="1.0" encoding="UTF-8"?>
<!DOCTYPE properties SYSTEM "http://java.sun.com/dtd/properties.dtd">
<properties>
<comment>IK Analyzer 扩展配置</comment>
<!--用户可以在这里配置自己的扩展字典
<entry key="ext_dict">ext.dic;</entry>
-->
<entry key="ext_dict">myext1.dic</entry>
<!--用户可以在这里配置自己的扩展停止词字典-->
<entry key="ext_stopwords">stopword.dic;</entry>
</properties>
分享到:
相关推荐
ikanalyzer分词器是一款在Java环境下广泛使用的中文分词工具,尤其在搜索引擎和文本分析领域中扮演着重要角色。它的核心是ikanalyzer.jar类库,这个库包含了分词算法和其他必要的支持类,使得开发者能够轻松地集成到...
solr的IK分词器JAR及配置文件 jar包和配置文件的放置位置不一样,详情可搜索 IK Analyzer 是一个开源的,基于java语言开发的轻量级的中文分词工具包。...org.wltea.analyzer.lucene.IKAnalyzer jar
这个中文分词器是基于Morfologik算法,对中文文本进行有效的分词,从而提高搜索的准确性。在使用IKAnalyzer之前,需要将其配置到Lucene的分析器中,这样在建立索引时,输入的中文文本会被自动切分成关键词。IK...
IK Analyzer 是一个开源的、基于Java实现的中文分词器,专为全文检索或信息提取等任务设计。它由尹力(Wu Li)在2006年发起,最初是为了改善Lucene的中文处理能力。自那时起,IK Analyzer已经发展成为一个广泛使用的...
IKAnalyzer分词器版本 2012 兼容Lucene3.3以上版本 对solr1.4提供接口实现 使用IK分词器,应为该集群使用到的solr版本为4.10.3-cdh5.7.5,所以使用的 IK 包为IKAnalyzer2012FF_u1.jar,如果是3x的solr,使用IK...
IKAnalyzer是一个开源的,基于Java语言开发的轻量级的中文分词语言包,它是以Lucene为应用主体,结合词典分词和文法分析算法的中文词组组件。从3.0版本开始,IK发展为面向java的公用分词组件,独立Lucene项目,同时...
- 分词器能够准确识别并处理各种文本,例如在一段介绍IK Analyzer的文字中,它能够正确将“IKAnalyzer”拆分为“ik-analyzer”,同时处理日期、版本号等非标准格式的词汇。 - 在处理公司名称时,如“永和服装饰品...
本文将深入探讨Lucene的核心组件及其与IKAnalyzer分词器的结合使用。 首先,我们来了解一下Lucene的核心组件。`lucene-core-3.6.1.jar`是Lucene的核心库,包含了索引和搜索的主要功能,如文档的添加、删除和更新,...
lucene3.5 IKAnalyzer3.2.5 实例中文分词通过,目前在网上找的lucene 和IKAnalyzer 的最新版本测试通过。内含:示例代码,以及最新jar包。 lucene lucene3.5 IKAnalyzer IKAnalyzer3.2.5 jar 中文 分词
IKAnalyzer非常易用的java分词工具。可以自定义扩展词汇。 这个是一个完整的java项目demo。直接可以用,不用再去google下载了。添加了几个自定义词汇,测试好用。 运行ika.java里的main方法即可
由于林良益先生在2012之后未对IKAnalyzer进行更新,后续lucene分词接口发生变化,导致不可使用,所以此jar包支持lucene6.0以上版本
提示:IKAnalyzer中文分词器支持Lucene6.0以上,IKAnalyzer中文分词器支持Lucene6.0以上。
**IKAnalyzer分词器**是Java开发的一款高性能的中文分词工具,主要应用于搜索引擎和文本分析领域。它的设计目标是提供一个轻量级、高效能的解决方案,支持自定义词典,可以方便地集成到各种系统中。在本资源中,我们...
总之,IKAnalyzer作为一款强大的中文分词器,能够很好地适应Lucene的各个高版本,提供稳定、高效的分词服务。无论是用于Lucene的原生应用,还是在Solr这样的搜索服务器中,它都是处理中文文本的理想选择。随着技术的...
在Lucene索引构建过程中,你可以将IKAnalyzer作为Analyzer,这样分词器会自动处理文本的分词工作,提升搜索精度。 总之,IKAnalyzer中文分词器以其高效、易用和可扩展性在Java领域的中文处理中占有一席之地。通过...
**IKanalyzer分词器详解** IKAnalyzer是一款开源的、基于Java实现的中文分词工具,主要用于对中文文本进行分词处理。它以其高效、灵活的特性,在许多Java开发的搜索引擎和自然语言处理项目中得到广泛应用。这个"IK...
在Lucene中,你可以通过创建`Analyzer`实例,然后使用`Document`对象来添加字段,如药品名称和功能主治,这些字段会被分词器处理。 在索引建立完成后,可以使用Lucene提供的搜索API来进行查询。这通常涉及到创建`...
**IK Analyzer中文分词器详解** IK Analyzer是一个在IT领域广泛应用的开源项目,它专注于Java平台上的中文分词处理。中文分词是自然语言处理(NLP)中的基础任务,对于信息检索、文本挖掘、机器翻译等领域至关重要...
**IKAnalyzer分词器** IKAnalyzer是一款开源的、基于Java实现的中文分词器,它在中文信息处理领域有着广泛的应用。这个分词工具最初由尹吉团队开发,旨在为Java开发者提供一个简单易用、性能高效的中文分词库。在...
在这个说明中,我们将详细讲解如何在Solr 6.0中配置ikanalyzer分词文件,以实现对中文文本的有效处理。 1. **ikanalyzer简介** ikanalyzer是一款专门为Java语言设计的开源中文分词库,它基于Apache Lucene项目,...