`
阿杜杜不是阿木木
  • 浏览: 21396 次
  • 性别: Icon_minigender_1
  • 来自: 沈阳
社区版块
存档分类
最新评论

java语言开发的轻量级的中文分词工具包

 
阅读更多
package com.haha.test;

import java.io.IOException;
import java.io.StringReader;
import org.apache.lucene.analysis.Analyzer;
import org.apache.lucene.analysis.TokenStream;
import org.apache.lucene.analysis.tokenattributes.CharTermAttribute;
import org.wltea.analyzer.lucene.IKAnalyzer;

public class SplitWords {
	public static void main(String[] args) throws IOException {
		String text="基于java语言开发的轻量级的中文分词工具包";
		//创建分词对象
		Analyzer anal=new IKAnalyzer(true);		
		StringReader reader=new StringReader(text);
		//分词
		TokenStream ts=anal.tokenStream("", reader);
		CharTermAttribute term=ts.getAttribute(CharTermAttribute.class);
		//遍历分词数据
		while(ts.incrementToken()){
			System.out.print(term.toString()+"|");
		}
		reader.close();
		System.out.println();
	}

}

版权声明:本文为博主原创文章,未经博主允许不得转载。

分享到:
评论

相关推荐

    基于java语言开发的轻量级的中文分词工具包.zip

    基于Java语言开发的轻量级中文分词工具包,为处理中文文本数据提供了高效且实用的解决方案。分词是自然语言处理(NLP)中的基础步骤,它将连续的文本字符串分解为有意义的词汇单元,这对于信息检索、文本分析、机器...

    IKAnalyzer开源轻量级中文分词工具包2012u6

    IK Analyzer是一个开源的,基于java语言开发的轻量级的中文分词工具包。从2006年12月推出1.0版开始, IKAnalyzer已经推出了4个大版本。最初,它是以开源项目Luence为应用主体的,结合词典分词和文法分析算法的中文...

    lucene中文分词工具包

    这个工具包的核心是IKAnalyzer,它是一个开源且基于Java语言开发的轻量级中文分词工具,旨在提升中文文本处理的效率和准确性。 **IKAnalyzer详解** IKAnalyzer的设计目标是易于使用和高度可扩展。它采用了模块化的...

    使用IK Analyzer实现中文分词之Java实现

    IK Analyzer 是一个开源的,基于 java 语言开发的轻量级的中文分词工具包。从 2006年 12 月推出 1.0 版开始, IKAnalyzer 已经推出了 4 个大版本。最初,它是以开源项目Luence 为应用主体的,结合词典分词和文法分析...

    基于Java的中文分词工具包 smallseg.zip

    SmallSeg是一款基于Java实现的高效、轻量级的中文分词工具包,旨在解决中文文本处理中的分词难题。本文将对SmallSeg进行详细介绍,探讨其设计理念、工作原理以及如何在实际项目中应用。 首先,让我们理解一下什么是...

    基于java的中文分词工具包 smallseg.zip

    SmallSeg是由国内开发者开发的一款轻量级、高效的中文分词工具,它专为Java环境设计,旨在简化中文文本处理的复杂性。这个工具包的出现,极大地提高了Java开发者处理中文文本的效率,降低了分词技术的学习门槛。 ...

    java分词工具

    IK Analyzer还提供了轻量级和全模式两种工作模式,满足不同性能需求。 2. **HanLP**:由厦门云知声信息技术有限公司开发,是一款高性能的自然语言处理工具包,包括分词、词性标注、命名实体识别、依存句法分析等。...

    IkAnalyzer分词工具

    IK Analyzer 是一个开源的,基于java 语言开发的轻量级的中文分词工具包。从2006 年12 月推出1.0 版开始, IKAnalyzer 已经推出了3 个大版本。最初,它是以开源项目 Luence 为应用主体的,结合词典分词和文法分析...

    Java IKAnalyzer 中文分词器

    IK-Analyzer是一个开源的,基于java语言开发的轻量级的中文分词工具包,也就是可以将一串中文字符分割成一个个的词组或者字词 文件中包含分词工具 ikanalyzer-2012_u6.jar 中文分词配置 IKAnalyzer.cfg..xml

    IKAnalyzer中文分词.rar

    IK Analyzer是什么呢,就是我们需要的这个工具,是基于java开发的轻量级的中文分词工具包。它是以开源项目Luence为主体的,结合词典分词和文法分析算法的中文分词组件。 IKAnalyzer继承Lucene的Analyzer抽象类,使用...

    搜索引擎资料 IKAnalyzer中文分词器V2012-FF使用手册 共16页.pdf

    IK Analyzer 是一个开源的,基亍java 语言开发的轻量级的中文分词工具包。从2006年12 月推出1.0 版开始, IKAnalyzer 已经推出了4 个大版本。最初,它是以开源项目Luence 为应用主体的,结合词典分词和文法分析算法...

    IK-Analyzer 中文分词器必须依赖的 IKAnalyzer2012FF_u1.jar包 下载

    IKAnalyzer是一个开源的,基于java语言开发的轻量级的中文分词工具包。 采用了特有的“正向迭代最细粒度切分算法”,具有60万字/秒的高速处理能力。 采用了多子处理器分析模式,支持:英文字母(IP地址、Email、...

    IK分词器-lin.zip

    IK Analyzer 是一个开源的,基于java语言开发的轻量级的中文分词工具包。从2006年12月推出1.0版开始, IKAnalyzer已经推出了4个大版本。最初,它是以开源项目Luence为应用主体的,结合词典分词和文法分析算法的中文...

    lucene.NET 中文分词

    - **IK Analyzer**:是一个开源的、基于Java的轻量级中文分词工具,也有.NET版本。它具有灵活的词典管理、支持用户自定义词典和智能分析模式。 - **HanLP**:由百度开发,是一款高性能的自然语言处理工具,其.NET...

    IK-Analyzer 分词器所需要的配置文件、扩展词典及停用词词典 完整包下载

    IKAnalyzer是一个开源的,基于java语言开发的轻量级的中文分词工具包。 采用了特有的“正向迭代最细粒度切分算法”,具有60万字/秒的高速处理能力。 采用了多子处理器分析模式,支持:英文字母(IP地址、Email、...

    IK切词jar包

    IK Analyzer是一个开源的,基于java语言开发的轻量级的中文分词工具包。从2006年12月推出1.0版开始, IKAnalyzer已经推出了4个大版本。最初,它是以开源项目Luence为应用主体的,结合词典分词和文法分析算法的中文...

    ik6.8.1.zip

    IKAnalyzer(IK分词器)是一个开源的,基于java语言开发的轻量级的中文分词工具包。从2006年12月推出1.0版开始,IKAnalyzer已经推出 了3个大版本。最初,它是以开源项目Lucene为应用主体的,结合词典分词和文法分析...

    IKAnalyzer中文分词器

    1. 对于一段标准的中文描述,“IKAnalyzer是一个开源的,基于java语言开发的轻量级的中文分词工具包。”,IKAnalyzer能够精准地识别并分割出诸如“ikanalyzer”、“是”、“一个”、“开源”、“的”、“基于”、...

    IKAnalyzer中文分词器 3.2.0 源码包.rar

    IKAnalyzer是一个开源的,基于java语言开发的轻量级的中文分词工具包。从2006年12月推出1.0版开始,IKAnalyzer已经推出了3个大版本。最初,它是以开源项目Luence为应用主体的,结合词典分词和文法分析算法的中文分词...

Global site tag (gtag.js) - Google Analytics