IKAnalyzer中文分词 -

huangyongxing310

浏览: 508784 次
性别:
来自: 广州

最近访客更多访客>>

hiroada

lixiaoxin

u012363178

wangyy

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

IKAnalyzer中文分词

博客分类：

互联网

IKAnalyzer中文分词

IKAnalyzer中文分词

例子：

import java.io.IOException;
import java.io.StringReader;
import java.util.ArrayList;
import java.util.List;

import org.apache.lucene.analysis.Analyzer;
import org.apache.lucene.analysis.TokenStream;
import org.apache.lucene.analysis.tokenattributes.CharTermAttribute;
import org.wltea.analyzer.lucene.IKAnalyzer;

public class IkAnalyzerTest {
	public static void main(String[] args) {
		// String keyWord =
		// "IKAnalyzer的分词效果到底怎么样呢，我们来看一下吧IKAnalyzer的分词效果到底怎么样呢，我们来看一下吧我们我们我们我们我们我们我们我们";
		String keyWord = "排骨猪肉的write,猪 牛,肉猪肉的,猪 牛,肉";
		// String keyWord = "";
		// 创建IKAnalyzer中文分词对象
		IKAnalyzer analyzer = new IKAnalyzer();
		// 使用智能分词
		analyzer.setUseSmart(true);
		// 打印分词结果
		try {
			printAnalysisResult(analyzer, keyWord);
		} catch (Exception e) {
			e.printStackTrace();
		}
	}

	/**
	 * 打印出给定分词器的分词结果
	 *
	 * @param analyzer分词器
	 * @param keyWord关键词
	 * @throws Exception
	 */
	private static String[] printAnalysisResult(Analyzer analyzer, String keyWord) throws Exception {
		System.out.println("[" + keyWord + "]分词效果如下");
		String logString = "GetKeyWordArray getKeyWordArray ";

		String[] returnMsgArray = null;
		String returnMsgTemp = "";

		TokenStream tokenStream = analyzer.tokenStream("content", new StringReader(keyWord));
		tokenStream.addAttribute(CharTermAttribute.class);
		try {
			while (tokenStream.incrementToken()) {
				CharTermAttribute charTermAttribute = tokenStream.getAttribute(CharTermAttribute.class);
				if (charTermAttribute != null) {
					System.out.println(logString + "charTermAttribute  ====== " + charTermAttribute.toString());

					if (charTermAttribute.toString() != null) {
						returnMsgTemp += charTermAttribute.toString();
						returnMsgTemp += ",";
					} else {
						System.out.println(logString + "charTermAttribute.toString() is null");
					}
				} else {
					System.out.println(logString + "charTermAttribute is null");
				}

			}
		} catch (IOException e) {
			// TODO Auto-generated catch block
			e.printStackTrace();
		}

		System.out.println(logString + "returnMsgTemp == " + returnMsgTemp);
		returnMsgArray = returnMsgTemp.split(",");
		if (returnMsgArray == null) {
			System.out.println(logString + "returnMsgArray is null");
			return null;
		}

		System.out.println(logString + "returnMsgArray len == " + returnMsgArray.length);

		// 去掉数组中重复元素
		List<String> list = new ArrayList<String>();
		for (int i = 0; i < returnMsgArray.length; i++) {
			if (!list.contains(returnMsgArray[i])) {// 如果数组 list不包含当前项，则增加该项到数组中
				if (returnMsgArray[i].equals("")) {
					System.out.println(logString + "returnMsgArray[" + i + "].equals(\"\")");
					continue;
				}
				list.add(returnMsgArray[i]);
			}
		}

		String[] newStr = list.toArray(new String[1]);
		if (newStr == null) {
			System.out.println(logString + "newStr is null");
			return null;
		}

		returnMsgTemp = "";
		System.out.println(logString + "newStr.length ==" + newStr.length);
		for (int i = 0; i < newStr.length; i++) {
			if (newStr[i] == null) {
				System.out.println(logString + "newStr[" + i + "] is null");
			}
			returnMsgTemp = returnMsgTemp + "[" + newStr[i] + "]";
		}
		System.out.println(logString + "returnMsgArray ==" + returnMsgTemp);
		System.out.println(logString + "newStr ==" + newStr.toString());
		return newStr;
	}
}

jar包下载:附件

IKAnalyzer2012_u6.jar (1.1 MB)
下载次数: 1

分享到：

memcached简单应用 | Spring AOP(面向方面编程)

2016-09-30 10:53
浏览 699
评论(0)
分类:互联网
查看更多

发表评论

您还没有登录,请您登录后再发表评论

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

IKAnalyzer中文分词

评论

发表评论

相关推荐

最近访客 更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

IKAnalyzer中文分词

评论

发表评论

相关推荐

选举算法

elasticSearch使用

IDEA 快捷键

zookeeper dubbo 安装

将博客搬至CSDN

docker mysql 主从安装

rocketmq安装部署.txt

百度人脸识别

springBoot tomcat配置参数说明

技术选型

方便开发调试和问题跟踪

Jenkins脚本

base64与file 相互转换

钉钉开发

安卓模拟器使用

ZLTest

要同步回来的文件

画相关图表的工具

JVM 监控工具

Hystrix

最近访客更多访客>>