- 浏览: 495978 次
- 性别:
- 来自: 广州
文章分类
- 全部博客 (502)
- Java (70)
- Linux (10)
- 数据库 (38)
- 网络 (10)
- WEB (13)
- JSP (4)
- 互联网 (71)
- JavaScript (30)
- Spring MVC (19)
- HTML (13)
- CSS (3)
- AngularJS (18)
- Redis (5)
- Bootstrap CSS (1)
- ZooKeeper (4)
- kafka (6)
- 服务器缓存 (4)
- Storm (1)
- MongoDB (9)
- Spring boot (16)
- log4j (2)
- maven (3)
- nginx (5)
- Tomcat (2)
- Eclipse (4)
- Swagger (2)
- Netty (5)
- Dubbo (1)
- Docker (7)
- Hadoop (12)
- OAuth (1)
- webSocket (4)
- 服务器性能 (7)
- Session共享 (1)
- tieye修改 (1)
- 工作 (1)
- 有用的语录 (0)
- https (2)
- common (5)
- 产品开发管理 (1)
- CDN 工作原理 (1)
- APNS、GCM (1)
- 架构图 (3)
- 功能实现分析 (1)
- JMX (1)
- 服务器相关操作命令 (1)
- img02 (0)
- 服务器环境搭建 (9)
- goodMenuBook (1)
- CEInstantPot (0)
- 有用数据 (1)
- 百度地图WEB API (2)
- 正则表达式 (1)
- 样式例子 (2)
- staticRecipePressureCooker.zip (1)
- jCanvas (1)
- 网站攻击方法原理 (1)
- 架构设计 (3)
- 物联网相关 (3)
- 研发管理 (7)
- 技术需求点 (1)
- 计划 (1)
- spring cloud (11)
- 服务器开发的一些实用工具和方法 (1)
- 每天学到的技术点 (4)
- Guava (1)
- ERP 技术注意要点 (2)
- 微信小程序 (1)
- FineRepor (1)
- 收藏夹 (1)
- temp (5)
- 服务架构 (4)
- 任职资格方案 (0)
- osno_test (1)
- jquery相关 (3)
- mybatis (4)
- ueditor (1)
- VueJS (7)
- python (10)
- Spring EL (1)
- shiro (1)
- 前端开发原理与使用 (7)
- YARN (1)
- Spark (1)
- Hbase (2)
- Pig (2)
- 机器学习 (30)
- matplotlib (1)
- OpenCV (17)
- Hystrix (1)
- 公司 (1)
- miniui (4)
- 前端功能实现 (3)
- 前端插件 (1)
- 钉钉开发 (2)
- Jenkins (1)
- elasticSearch使用 (2)
- 技术规范 (4)
- 技术实现原理 (0)
最新评论
IKAnalyzer中文分词
例子:
jar包下载:附件
例子:
import java.io.IOException; import java.io.StringReader; import java.util.ArrayList; import java.util.List; import org.apache.lucene.analysis.Analyzer; import org.apache.lucene.analysis.TokenStream; import org.apache.lucene.analysis.tokenattributes.CharTermAttribute; import org.wltea.analyzer.lucene.IKAnalyzer; public class IkAnalyzerTest { public static void main(String[] args) { // String keyWord = // "IKAnalyzer的分词效果到底怎么样呢,我们来看一下吧IKAnalyzer的分词效果到底怎么样呢,我们来看一下吧我们我们我们我们我们我们我们我们"; String keyWord = "排骨猪肉的write,猪 牛,肉猪肉的,猪 牛,肉"; // String keyWord = ""; // 创建IKAnalyzer中文分词对象 IKAnalyzer analyzer = new IKAnalyzer(); // 使用智能分词 analyzer.setUseSmart(true); // 打印分词结果 try { printAnalysisResult(analyzer, keyWord); } catch (Exception e) { e.printStackTrace(); } } /** * 打印出给定分词器的分词结果 * * @param analyzer分词器 * @param keyWord关键词 * @throws Exception */ private static String[] printAnalysisResult(Analyzer analyzer, String keyWord) throws Exception { System.out.println("[" + keyWord + "]分词效果如下"); String logString = "GetKeyWordArray getKeyWordArray "; String[] returnMsgArray = null; String returnMsgTemp = ""; TokenStream tokenStream = analyzer.tokenStream("content", new StringReader(keyWord)); tokenStream.addAttribute(CharTermAttribute.class); try { while (tokenStream.incrementToken()) { CharTermAttribute charTermAttribute = tokenStream.getAttribute(CharTermAttribute.class); if (charTermAttribute != null) { System.out.println(logString + "charTermAttribute ====== " + charTermAttribute.toString()); if (charTermAttribute.toString() != null) { returnMsgTemp += charTermAttribute.toString(); returnMsgTemp += ","; } else { System.out.println(logString + "charTermAttribute.toString() is null"); } } else { System.out.println(logString + "charTermAttribute is null"); } } } catch (IOException e) { // TODO Auto-generated catch block e.printStackTrace(); } System.out.println(logString + "returnMsgTemp == " + returnMsgTemp); returnMsgArray = returnMsgTemp.split(","); if (returnMsgArray == null) { System.out.println(logString + "returnMsgArray is null"); return null; } System.out.println(logString + "returnMsgArray len == " + returnMsgArray.length); // 去掉数组中重复元素 List<String> list = new ArrayList<String>(); for (int i = 0; i < returnMsgArray.length; i++) { if (!list.contains(returnMsgArray[i])) {// 如果数组 list不包含当前项,则增加该项到数组中 if (returnMsgArray[i].equals("")) { System.out.println(logString + "returnMsgArray[" + i + "].equals(\"\")"); continue; } list.add(returnMsgArray[i]); } } String[] newStr = list.toArray(new String[1]); if (newStr == null) { System.out.println(logString + "newStr is null"); return null; } returnMsgTemp = ""; System.out.println(logString + "newStr.length ==" + newStr.length); for (int i = 0; i < newStr.length; i++) { if (newStr[i] == null) { System.out.println(logString + "newStr[" + i + "] is null"); } returnMsgTemp = returnMsgTemp + "[" + newStr[i] + "]"; } System.out.println(logString + "returnMsgArray ==" + returnMsgTemp); System.out.println(logString + "newStr ==" + newStr.toString()); return newStr; } }
jar包下载:附件
- IKAnalyzer2012_u6.jar (1.1 MB)
- 下载次数: 1
发表评论
-
选举算法
2022-06-17 08:48 427选举算法 常用的选举 ... -
elasticSearch使用
2022-04-27 08:42 416ElasticSearch 基于Apache Lucene构建 ... -
IDEA 快捷键
2022-03-02 16:55 245大小写转换快捷键 ctr+shift+u IDEA ... -
zookeeper dubbo 安装
2021-12-04 19:27 315docker-machine ssh default d ... -
将博客搬至CSDN
2021-11-18 19:57 189将博客搬至CSDN -
docker mysql 主从安装
2021-11-10 16:55 235docker run -d -p 13306:3306 --n ... -
rocketmq安装部署.txt
2021-11-07 19:10 218docker search rocketmq docke ... -
百度人脸识别
2021-05-21 16:11 363package com.gaojinsoft.htwy.y20 ... -
springBoot tomcat配置参数说明
2021-05-12 09:13 3018#最大连接数 server.tomcat.max-connec ... -
技术选型
2021-01-29 17:34 2921.移动端组件vux,vant,vant好点,文档好的,基于v ... -
方便开发调试和问题跟踪
2021-01-01 10:17 2481.外网最好可以连接数据库 2.关键信息可以在接口返回信息, ... -
Jenkins脚本
2020-03-12 17:55 443#!/bin/bash -ilx echo "开始 ... -
base64与file 相互转换
2019-10-23 18:19 775base64与file 相互转换 import org. ... -
钉钉开发
2019-09-17 20:16 433钉钉开发 开发者帐号 1357047443 x***310* ... -
安卓模拟器使用
2019-07-03 23:13 4逍遥pc版的安卓模拟器 http://www.xyaz.cn/ ... -
ZLTest
2019-03-19 23:41 264ZLTest -
要同步回来的文件
2019-01-25 11:14 0Spring Boot中整合Sharding-JDBC m ... -
画相关图表的工具
2019-01-25 10:59 580制作流程图的工具 1、Visio很好用,很强大,微软出的,水平 ... -
JVM 监控工具
2019-01-21 18:04 381JVM 监控工具 //========== ... -
Hystrix
2019-01-10 17:02 533Hystrix Hystrix的设计原则包括: 资源隔离 ...
相关推荐
**IKAnalyzer中文分词** IKAnalyzer是一款开源的、基于Java实现的中文分词工具,它在中文信息处理领域有着广泛的应用。该工具最初由尹军平(IkGuo)开发,设计目标是提供一个轻量级、高效能的中文分词引擎,用于...
### IKAnalyzer中文分词器V3.1.6:深入解析与使用指南 #### 一、IKAnalyzer3.0概述 IKAnalyzer是一个基于Java语言开发的高性能中文分词工具包,自2006年发布以来,已历经多次迭代升级。起初作为开源项目Lucene的一...
ikanalyzer中文分词支持lucene7.1.0是一个针对Lucene搜索引擎的中文分词扩展,由林良益先生开发,旨在提供高效、精准的中文词汇拆解功能。Lucene是一个开源全文检索库,它提供了索引和搜索文本的强大工具。然而,...
标题:"IKAnalyzer中文分词器v2012使用手册" 所述的知识点包括: IKAnalyzer是一款开源的基于Java语言开发的轻量级中文分词工具包,最早版本于2006年12月发布。作为一个文本分析组件,它最初是作为开源项目Lucene的...
- **IKAnalyzer中文分词器V2012使用手册.pdf**:这是一份详细的操作指南,提供了如何使用IKAnalyzer的步骤、配置说明和常见问题解答,对于初学者来说非常有用。 - **IK Analyzer 2012FF_hf1_source.rar**:这是IK...
**IK Analyzer中文分词器详解** IK Analyzer是一个在IT领域广泛应用的开源项目,它专注于Java平台上的中文分词处理。中文分词是自然语言处理(NLP)中的基础任务,对于信息检索、文本挖掘、机器翻译等领域至关重要...
**IKAnalyzer中文分词器V3.2使用详解** IKAnalyzer是一款开源的、适用于Java环境的中文分词器,主要用于解决在信息检索、文本挖掘等领域中遇到的中文处理问题。这款分词器的设计目标是提高分词的准确率,并且具有...
标题 "IKAnalyzer中文分词demo" 指的是一个基于IKAnalyzer的中文分词演示项目。IKAnalyzer是一款开源的、适用于Java平台的全文检索引擎工具,主要功能是对中文文本进行有效的分词处理,广泛应用于搜索引擎、信息检索...
IKAnalyzer2012展示了对于不同文本原文的处理能力,支持最细粒度切分和智能切分两种模式,例如对于文本原文1的处理结果,智能分词会将文本切分为具有实际语义的词组,而最细粒度分词则会提供每个汉字作为一个单独的...
IKAnalyzer非常易用的java分词工具。可以自定义扩展词汇。 这个是一个完整的java项目demo。直接可以用,不用再去google下载了。添加了几个自定义词汇,测试好用。 运行ika.java里的main方法即可
**IKAnalyzer中文分词包** IKAnalyzer是一款针对中文处理的开源搜索引擎分析器,主要用于提高中文信息检索系统的效率和精度。这个分词包是博主在个人博客中推荐并使用的,同时也可从官方网站获取,确保了其可靠性和...
IKAnalyzer继承Lucene的Analyzer抽象类,使用IKAnalyzer和Lucene自带的分析器方法一样,将Analyzer测试代码改为IKAnalyzer测试中文分词效果。 如果使用中文分词器ik-analyzer,就需要在索引和搜索程序中使用一致的...
### IKAnalyzer中文分词器V3.1.1使用手册 #### 1. IKAnalyzer 3.1.1 介绍 IKAnalyzer是一个基于Java语言开发的开源轻量级中文分词工具包。自2006年12月发布1.0版本以来,IKAnalyzer已经经历了多个版本的迭代,不断...
提示:IKAnalyzer中文分词器支持Lucene6.0以上,IKAnalyzer中文分词器支持Lucene6.0以上。
IK-Analyzer是一个开源的,基于java语言开发的轻量级的中文分词工具包,也就是可以将一串中文字符分割成一个个的词组或者字词 文件中包含分词工具 ikanalyzer-2012_u6.jar 中文分词配置 IKAnalyzer.cfg..xml
在本压缩包中,"IKAnalyzer中文分词器V3.2.0使用手册.pdf"是一个详细的指南,涵盖了IKAnalyzer 3.2.0版本的安装、配置、使用方法以及常见问题解答。这个手册将引导开发者如何将IKAnalyzer集成到Lucene项目中,如何...
IK Analyzer 是一个开源的、基于Java实现的中文分词器,专为全文检索或信息提取等任务设计。它由尹力(Wu Li)在2006年发起,最初是为了改善Lucene的中文处理能力。自那时起,IK Analyzer已经发展成为一个广泛使用的...
**IKAnalyzer中文分词器V3.2.0详解** IKAnalyzer是一款专为中文处理设计的开源分词器,广泛应用于搜索引擎、信息检索系统、文本挖掘等领域。它以高效、灵活和准确的特性,在Java开发的中文应用中占有重要地位。V...
压缩包中包含的`IKAnalyzer中文分词器V3.0使用手册.pdf`是一份详细的指南,它详细介绍了如何使用IKAnalyzer,包括API的使用、配置的调整以及常见问题的解决方案。建议开发者在开始使用前仔细阅读这份手册,以便更好...