`

分词器之IK Analyzer

阅读更多

IK Analyzer 是基于Lucene的中文分词框架。

一:下载分词器

 IK Analyzer 2012FF 百度网盘下载地址:http://pan.baidu.com/s/1boFDd9d

IKAnalyzer-5.0 百度网盘下载地址:http://pan.baidu.com/s/1dE5zBrV

 

 

二:IK Analyzer 分词器使用

 在项目中引入如下:

a,IKAnalyzer2012FF_u1.jar 或者IKAnalyzer-5.0.jar

b,IKAnalyzer.cfg.xml

c,mydict.dic

d,ext_stopword.dic

 

示例代码: Lucene的版本是6.1.0

 

package com.lucene.analyzer;

import java.io.IOException;
import java.io.StringReader;

import org.apache.lucene.analysis.Analyzer;
import org.apache.lucene.analysis.TokenStream;
import org.apache.lucene.analysis.tokenattributes.CharTermAttribute;
import org.wltea.analyzer.lucene.IKAnalyzer;

/**
 * 分词器测试类
 * @author luorufeng
 * @date  2016年8月2日
 */
public class TestAnalyzer {
	public static void main(String[] args) throws IOException {
//		Analyzer analyzer = new MyIKAnalyzer();//庖丁分词器  2012  
		//http://blog.sina.com.cn/s/blog_69a69e1a0102w8br.html
		Analyzer analyzer = new IKAnalyzer();//庖丁分词器        

		String text = "lucene是一个很高大上、很牛逼的java搜索引擎工具包,大家快点来学习";
		testAnalyzer(analyzer,text);
	}
	
	/**
	 * 分词器测试方法
	 * @author luorufeng
	 * @date  2016年8月2日
	 * @param analyzer
	 * @param text
	 * @throws IOException 
	 */
	public static void testAnalyzer(Analyzer analyzer,String text) throws IOException{
		System.out.println("当前分词器:"+analyzer.getClass().getSimpleName());
		//分词  
		TokenStream tokenStream = analyzer.tokenStream("content", new StringReader(text));
		CharTermAttribute charTermAttribute = tokenStream.addAttribute(CharTermAttribute.class);
		tokenStream.reset();
		//遍历
		while(tokenStream.incrementToken()){
			System.out.print(charTermAttribute+"|");
		}

		tokenStream.end();
		tokenStream.close();
	}
}
 

 

 

运行后的运行结果:

 

 当前分词器:IKAnalyzer

加载扩展词典:mydict.dic

加载扩展停止词典:ext_stopword.dic

lucene|是|一个|一|个|很高|高大上|高大|上|很|牛逼|java|搜索引擎|搜索|索引|引擎|工具包|工具|包|大家|快点|点来|学习|

 

 

分享到:
评论

相关推荐

    使用IK Analyzer实现中文分词之Java实现

    从 2006年 12 月推出 1.0 版开始, IKAnalyzer 已经推出了 4 个大版本。最初,它是以开源项目Luence 为应用主体的,结合词典分词和文法分析算法的中文分词组件。 从 3.0 版本开始,IK 发展为面向 Java 的公用分词...

    IKAnalyzer分词器 下载IKAnalyzer2012FF_u1.jar

    IKAnalyzer分词器版本 2012 兼容Lucene3.3以上版本 对solr1.4提供接口实现 使用IK分词器,应为该集群使用到的solr版本为4.10.3-cdh5.7.5,所以使用的 IK 包为IKAnalyzer2012FF_u1.jar,如果是3x的solr,使用IK...

    IK分词器_ikanalyzer-solr5

    总的来说,IK分词器ikanalyzer-solr5是为Solr 5版本量身定制的中文分词解决方案,它提供了高效的分词性能和灵活的定制能力,对于处理中文文本搜索有着显著的优势。在实际应用中,我们可以通过合理的配置和优化,...

    IKAnalyzer中文分词.rar

    IKAnalyzer继承Lucene的Analyzer抽象类,使用IKAnalyzer和Lucene自带的分析器方法一样,将Analyzer测试代码改为IKAnalyzer测试中文分词效果。 如果使用中文分词器ik-analyzer,就需要在索引和搜索程序中使用一致的...

    IKAnalyzer分词器

    IKAnalyzer是一款专为Java平台设计的开源中文分词器,主要应用于搜索引擎、信息检索系统以及文本分析等领域。这款工具在中文处理方面具有高效、灵活和易扩展的特点,为开发者提供了强大的支持。 标题中的"IK...

    IK Analyzer 中文分词器下载

    IK Analyzer 是一个开源的、基于Java实现的中文分词器,专为全文检索或信息提取等任务设计。它由尹力(Wu Li)在2006年发起,最初是为了改善Lucene的中文处理能力。自那时起,IK Analyzer已经发展成为一个广泛使用的...

    solr中文分词jar包ik-analyzer 含class配置 ik-analyzer-7.5.0

    标签中的"ik-ana"是Ik Analyzer的简称,"solr 中文分词"强调了这个分词器在Solr中的应用场景。文件列表中的"ik-analyzer-7.5.0.jar"即是我们需要集成到Solr中的核心组件。 总之,Ik Analyzer 7.5.0是Solr处理中文...

    IKAnalyzer2012_u6中文分词器jar包

    IKAnalyzer2012_u6中文分词器jar包 IKAnalyzer2012_u6中文分词器jar包 IKAnalyzer2012_u6中文分词器jar包 IKAnalyzer2012_u6中文分词器jar包 IKAnalyzer2012_u6中文分词器jar包

    IK-Analyzer 中文分词器必须依赖的 IKAnalyzer2012FF_u1.jar包 下载

    IKAnalyzer是一个开源的,基于java语言开发的轻量级的中文分词工具包。 采用了特有的“正向迭代最细粒度切分算法”,具有60万字/秒的高速处理能力。 采用了多子处理器分析模式,支持:英文字母(IP地址、Email、...

    IKAnalyzer中文分词器 java

    IKAnalyzer是一款针对中文的开源分词器,专为Java平台设计。它在处理中文文本时,能够有效地进行词语切分,提升文本分析的准确性和效率。这个工具在信息检索、自然语言处理、文本挖掘等领域有着广泛的应用。 1. **...

    IK分词器.IKAnalyzer2012_u6zip

    在标题中提到的"IKAnalyzer2012_u6zip"是IK分词器的一个特定版本,发布于2012年,并且以.zip格式封装。这个版本的分词器在当时被广泛使用,且被描述为“实际使用无问题”,意味着它在大多数场景下都能稳定运行。 ...

    IKAnalyzer 中文分词 完整java项目demo

    IKAnalyzer非常易用的java分词工具。可以自定义扩展词汇。 这个是一个完整的java项目demo。直接可以用,不用再去google下载了。添加了几个自定义词汇,测试好用。 运行ika.java里的main方法即可

    IKAnalyzer中文分词器

    IKAnalyzer是一款专为中文处理设计的开源分词器,它主要应用于搜索引擎、信息检索系统、文本挖掘等领域。这款工具能够高效地对中文文本进行分词,使得计算机可以更好地理解和处理中文信息。IKAnalyzer的名字来源于...

    中文分词器IK Analyzer 2012

    **中文分词器IK Analyzer 2012详解** IK Analyzer 是一款专为处理中文文本分词问题而设计的开源工具,尤其适用于信息检索、搜索引擎和自然语言处理等领域。这款分词器以其高效、灵活和易用性在IT行业中广受好评。在...

    中文分词器-IKAnalyzer2012FF_u1.jar

    IKAnalyzer是中国著名的开源中文分词器,主要用于处理中文文本的分词问题,广泛应用于搜索引擎、信息检索、自然语言处理等领域。这款工具的核心是IKAnalyzer2012FF_u1.jar文件,它包含了分词器的主要算法和实现。在...

    ikanalyzer分词器

    ikanalyzer分词器是一款在Java环境下广泛使用的中文分词工具,尤其在搜索引擎和文本分析领域中扮演着重要角色。它的核心是ikanalyzer.jar类库,这个库包含了分词算法和其他必要的支持类,使得开发者能够轻松地集成到...

    ik分词器ik-analyzer-5.3.0和ikanalyzer-solr6.5-2018

    标题 "ik分词器ik-analyzer-5.3.0和ikanalyzer-solr6.5-2018" 涉及的是两个不同版本的IK分词器,一个是ik-analyzer-5.3.0,适用于Solr 5.5.0,另一个是ikanalyzer-solr6.5-2018,适用于Solr 7.0.0。IK分词器是Java...

    使用IK Analyzer实现中文分词之Java实现(包含所有工具包)

    1、lucene-core-3.6.0.jar 2、IKAnalyzer2012.jar(主jar包) 3、IKAnalyzer.cfg.xml(分词器扩展配置文件) 4、stopword.dic(停止词典) 5、IkSegmentation.java(样例类)

    word分词器、ansj分词器、mmseg4j分词器、ik-analyzer分词器分词效果评估

    本话题将深入探讨四种常用的Java分词工具:word分词器、ansj分词器、mmseg4j分词器以及ik-analyzer,以及它们在实际应用中的效果评估。 首先,ansj分词器是由李弄潮开发的一款开源分词工具,它具有强大的词典支持和...

Global site tag (gtag.js) - Google Analytics