`
zdb_cn
  • 浏览: 124321 次
  • 性别: Icon_minigender_1
  • 来自: 上海
社区版块
存档分类
最新评论

lucene学习 IKAnalyzer分词器

 
阅读更多

Lucene 学习   分词器

 

 

Analyzer analyzer = new IKAnalyzer();

 

 

分词器词典扩展方法:

1.基于API的词典扩展

 

IK 分词器支持使用API编程模型扩充您的词典和停止词典。如果您的个性化词典是存

储于数据库中,这个方式应该对您适用。API如下: 

   类org.wltea.analyzer.dic.Dictionary 

说明: IK 分词器的词典对象。它负责中文词汇的加载,内存管理和匹配检索。 

   public static void addWords(Collection<String> words) 

说明:加载用户扩展的词汇列表到IK 的主词典中,增加分词器的可识别词语。 

参数1:Collection<String> words , 扩展的词汇列表 

返回值:无 

  public static void disableWords(Collection<String> words) 说明:屏蔽词典中的词元 参数1:Collection<String> words, 待删除的词列表 返回值:无

 

Dictionary dictionary = Dictionary.initial(Configuration.getInstance());
List<String> wordList = new ArrayList<String>();
wordList.add("用例");
dictionary.addWords(wordList);

2.基于配置的词典扩充 

 

IK 分词器还支持通过配置IKAnalyzer.cfg.xml 文件来扩充您的专有词典以及停止词典

(过滤词典)。 

 1.  部署IKAnalyzer.cfg.xml 

IKAnalyzer.cfg.xml 部 署 在 代 码 根 目 录 下 ( 对 于web项 目 , 通 常 是

WEB-INF/classes目录)同hibernate、log4j等配置文件相同。 

 2.  词典文件的编辑与部署 

 

分词器的词典文件格式是无BOM的UTF-8编码的中文文本文件,文件扩展名不

限。词典中,每个中文词汇独立占一行,使用\r\n的DOS方式换行。(注,如果您不

了解什么是无BOM的UTF-8格式, 请保证您的词典使用UTF-8存储,并在文件的

头部添加一空行)。您可以参考分词器源码org.wltea.analyzer.dic包下的.dic 文件。 

词典文件应部署在Java 的资源路径下,即ClassLoader能够加载的路径中。(推

荐同IKAnalyzer.cfg.xml放在一起) 

 3.  IKAnalyzer.cfg.xml 文件的配置 

 

<?xml version="1.0" encoding="UTF-8"?>
<!DOCTYPE properties SYSTEM "http://java.sun.com/dtd/properties.dtd">  
<properties>  
	<comment>IK Analyzer 扩展配置</comment>
	<!--用户可以在这里配置自己的扩展字典 
	<entry key="ext_dict">ext.dic;</entry> 
	-->
	<entry key="ext_dict">myext1.dic</entry>
	<!--用户可以在这里配置自己的扩展停止词字典-->
	<entry key="ext_stopwords">stopword.dic;</entry> 
	
</properties>
分享到:
评论

相关推荐

    ikanalyzer分词器

    ikanalyzer分词器是一款在Java环境下广泛使用的中文分词工具,尤其在搜索引擎和文本分析领域中扮演着重要角色。它的核心是ikanalyzer.jar类库,这个库包含了分词算法和其他必要的支持类,使得开发者能够轻松地集成到...

    org.wltea.analyzer.lucene.IKAnalyzer jar

    solr的IK分词器JAR及配置文件 jar包和配置文件的放置位置不一样,详情可搜索 IK Analyzer 是一个开源的,基于java语言开发的轻量级的中文分词工具包。...org.wltea.analyzer.lucene.IKAnalyzer jar

    模糊查询-lucene-IKAnalyzer

    这个中文分词器是基于Morfologik算法,对中文文本进行有效的分词,从而提高搜索的准确性。在使用IKAnalyzer之前,需要将其配置到Lucene的分析器中,这样在建立索引时,输入的中文文本会被自动切分成关键词。IK...

    IK Analyzer 中文分词器下载

    IK Analyzer 是一个开源的、基于Java实现的中文分词器,专为全文检索或信息提取等任务设计。它由尹力(Wu Li)在2006年发起,最初是为了改善Lucene的中文处理能力。自那时起,IK Analyzer已经发展成为一个广泛使用的...

    IKAnalyzer分词器 下载IKAnalyzer2012FF_u1.jar

    IKAnalyzer分词器版本 2012 兼容Lucene3.3以上版本 对solr1.4提供接口实现 使用IK分词器,应为该集群使用到的solr版本为4.10.3-cdh5.7.5,所以使用的 IK 包为IKAnalyzer2012FF_u1.jar,如果是3x的solr,使用IK...

    用于Lucene的IKAnalyzer分词器

    IKAnalyzer是一个开源的,基于Java语言开发的轻量级的中文分词语言包,它是以Lucene为应用主体,结合词典分词和文法分析算法的中文词组组件。从3.0版本开始,IK发展为面向java的公用分词组件,独立Lucene项目,同时...

    Lucene的IK Analyzer 3.0 中文分词器 全解

    - 分词器能够准确识别并处理各种文本,例如在一段介绍IK Analyzer的文字中,它能够正确将“IKAnalyzer”拆分为“ik-analyzer”,同时处理日期、版本号等非标准格式的词汇。 - 在处理公司名称时,如“永和服装饰品...

    lucene 所有jar包 包含IKAnalyzer分词器

    本文将深入探讨Lucene的核心组件及其与IKAnalyzer分词器的结合使用。 首先,我们来了解一下Lucene的核心组件。`lucene-core-3.6.1.jar`是Lucene的核心库,包含了索引和搜索的主要功能,如文档的添加、删除和更新,...

    lucene3.5 IKAnalyzer3.2.5 实例中文分词通过

    lucene3.5 IKAnalyzer3.2.5 实例中文分词通过,目前在网上找的lucene 和IKAnalyzer 的最新版本测试通过。内含:示例代码,以及最新jar包。 lucene lucene3.5 IKAnalyzer IKAnalyzer3.2.5 jar 中文 分词

    IKAnalyzer 中文分词 完整java项目demo

    IKAnalyzer非常易用的java分词工具。可以自定义扩展词汇。 这个是一个完整的java项目demo。直接可以用,不用再去google下载了。添加了几个自定义词汇,测试好用。 运行ika.java里的main方法即可

    IKAnalyzer中文分词支持lucene6.5.0版本

    由于林良益先生在2012之后未对IKAnalyzer进行更新,后续lucene分词接口发生变化,导致不可使用,所以此jar包支持lucene6.0以上版本

    IKAnalyzer中文分词器支持Lucene6.0以上

    提示:IKAnalyzer中文分词器支持Lucene6.0以上,IKAnalyzer中文分词器支持Lucene6.0以上。

    IKAnalyzer分词器源码+可直接使用jar包

    **IKAnalyzer分词器**是Java开发的一款高性能的中文分词工具,主要应用于搜索引擎和文本分析领域。它的设计目标是提供一个轻量级、高效能的解决方案,支持自定义词典,可以方便地集成到各种系统中。在本资源中,我们...

    IKAnalyzer 支持高版本最新Lucene 5.x、6.x、7.x

    总之,IKAnalyzer作为一款强大的中文分词器,能够很好地适应Lucene的各个高版本,提供稳定、高效的分词服务。无论是用于Lucene的原生应用,还是在Solr这样的搜索服务器中,它都是处理中文文本的理想选择。随着技术的...

    IKAnalyzer中文分词器V3.2使用

    在Lucene索引构建过程中,你可以将IKAnalyzer作为Analyzer,这样分词器会自动处理文本的分词工作,提升搜索精度。 总之,IKAnalyzer中文分词器以其高效、易用和可扩展性在Java领域的中文处理中占有一席之地。通过...

    IKanalyzer 分词小测试例子

    **IKanalyzer分词器详解** IKAnalyzer是一款开源的、基于Java实现的中文分词工具,主要用于对中文文本进行分词处理。它以其高效、灵活的特性,在许多Java开发的搜索引擎和自然语言处理项目中得到广泛应用。这个"IK...

    Lucene4.7+IK Analyzer中文分词入门教程

    在Lucene中,你可以通过创建`Analyzer`实例,然后使用`Document`对象来添加字段,如药品名称和功能主治,这些字段会被分词器处理。 在索引建立完成后,可以使用Lucene提供的搜索API来进行查询。这通常涉及到创建`...

    IK Analyzer中文分词器

    **IK Analyzer中文分词器详解** IK Analyzer是一个在IT领域广泛应用的开源项目,它专注于Java平台上的中文分词处理。中文分词是自然语言处理(NLP)中的基础任务,对于信息检索、文本挖掘、机器翻译等领域至关重要...

    IKAnalyzer分词器

    **IKAnalyzer分词器** IKAnalyzer是一款开源的、基于Java实现的中文分词器,它在中文信息处理领域有着广泛的应用。这个分词工具最初由尹吉团队开发,旨在为Java开发者提供一个简单易用、性能高效的中文分词库。在...

    solr配置ikanalyzer分词文件以使用说明

    在这个说明中,我们将详细讲解如何在Solr 6.0中配置ikanalyzer分词文件,以实现对中文文本的有效处理。 1. **ikanalyzer简介** ikanalyzer是一款专门为Java语言设计的开源中文分词库,它基于Apache Lucene项目,...

Global site tag (gtag.js) - Google Analytics