IK,ansj,mmseg4j分词性能比较

m635674608

浏览: 5060936 次
性别:
来自: 南京

最近访客更多访客>>

wusuosuo

yijiaomuqing

millerchu

xdung

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

博客分类：

分词器

下载ik最新版本：
IK Analyer 2012-FF hotfix 1 完整分发包
这个版本是支持lucene4的.其主页为：https://code.google.com/p/ik-analyzer/

下载ansj最新版本：
ansj_seg

下载mmesg4j最新版本
https://code.google.com/p/mmseg4j/选择其中mmseg4j-1.9.1.v20130120-SNAPSHOT.zip 版本

然后建立一个web project，把相应的包导入，具体细节不用再详述。
建立一个测试类，贴出其中关键代码：

使用ik进行分词:

    public String ikAnalyzer(String str) {
 
        Reader input = new StringReader(str);
        // 智能分词关闭（对分词的精度影响很大）
        IKSegmenter iks = new IKSegmenter(input, true);
        Lexeme lexeme = null;
        StringBuilder sb = new StringBuilder();
 
        try {
            while ((lexeme = iks.next()) != null) {
 
                sb.append(lexeme.getLexemeText()).append("|");
            }
        } catch (IOException e) {
            e.printStackTrace();
        }
 
        return sb.toString();
    }

使用ansj进行分词

	public String ansjAnalyzer(String str) {
 
        List<Term> terms = NlpAnalysis.paser(str);
        new NatureRecognition(terms).recognition();
        StringBuilder sb = new StringBuilder();
 
        for (Term term : terms) {
            if (!" ".equals(term.getName()) && !" ".equals(term.getName()) && term.getName().trim().replaceAll("[\\pP\\pM\\pS]", "").length() > 1) {
                sb.append(term.getName()).append("|");
            }
        }
        return sb.toString();
    }

使用ansj分词找出词性为名词的

	public String ansjAnalyzerNature(String str) {
 
        List<Term> terms = NlpAnalysis.paser(str);
        new NatureRecognition(terms).recognition();
        StringBuilder sb = new StringBuilder();
 
        System.out.println(terms.toString());
 
        // 词性过滤
        Nature nature;
        for (Term term : terms) {
            nature = term.getNatrue();
 
            if (nature.natureStr.subSequence(0, 1).equals("n") || nature.natureStr.subSequence(0, 1).equals("h")) {
                if (!" ".equals(term.getName()) && !" ".equals(term.getName()) && term.getName().trim().replaceAll("[\\pP\\pM\\pS]", "").length() > 1) {
                    sb.append(term.getName()).append("|");
                }
            }
        }
 
        return sb.toString();
    }

使用mmseg4j进行分词：

	public String mmseg4jAnalyzer(String str)throws IOException{
		Reader input = new StringReader(str);
		return segWords(input, "|");
	}
 
	public String segWords(Reader input, String wordSpilt) throws IOException {
		StringBuilder sb = new StringBuilder();
		Seg seg = getSeg();	//取得不同的分词具体算法
		MMSeg mmSeg = new MMSeg(input, seg);
		Word word = null;
		boolean first = true;
		while((word=mmSeg.next())!=null) {
			if(!first) {
				sb.append(wordSpilt);
			}
			String w = word.getString();
			sb.append(w);
			first = false;
 
		}
		return sb.toString();
	}
 
	protected Seg getSeg() {
		return new ComplexSeg(Dictionary.getInstance());
	}

输入的文章：
官员揭公车使用乱象:不单是私用普遍“家用”
测试结果为：

再输入别的文章：
北京市教委：非京籍考生入美籍即可高考不属实”
测试结果为：

通过输入别的文章发现，速度基本上差不多，分词效果也还差不多。只不过ansj提供了分析词性的功能。算法比较复杂。
个别词有的词未认识出来，是由于词库的原因。

总结
在实际应用中，根据个人的以上项目熟悉程度，随便选择以上三种分词算法的任意一种，其实速度和效果都差不多。重要的是词库。根据业务的需要，整理出相应的词库，这会对分词效果有比较大的提升。

如果搞源码研究，个人推荐ik分词和mmseg4j分词，这两个算法也比较简单，可以比较快的吃透。

http://www.chepoo.com/ik-ansj-mmseg4j-segmentation-performance-comparison.html

分享到：

elasticsearch 自定义similarity 插件开发 | Spring Data ElasticSearch parnt/child se ...

2015-11-12 15:40
浏览 1249
评论(0)
分类:编程语言
查看更多

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

ChromeOS镜像文件.zip: 目录： ChromeOS-PC-20130222-oscome.com ChromeOS-Vanilla-4028.0.2013_04_20_1810-r706c4144 ChromeOS-Vanilla-4028.0.2013_04_20_1810-r706c4144-VirtualBox ChromeOS-Vanilla-4028.0.2013_04_20_1810-r706c4144-VMWare ChromeOS-virtualbox-20130222-OSCOME.COM ChromeOS-vmware-20130222-OSCOME.COM 网盘文件永久链接

ieee33节点matlab模型: IEEE33节点模型搭建，matlab

3GPP R15 38.331 5G NR无线资源控制(RRC)协议规范解析: 3GPP R15 38.331 5G NR无线资源控制(RRC)协议规范解析

基于ssm+mysql实现的零食商城系统(电商购物).zip(毕设&课设&实训&大作业&竞赛&项目): 项目工程资源经过严格测试运行并且功能上ok，可实现复现复刻，拿到资料包后可实现复现出一样的项目，本人系统开发经验充足（全栈全领域），有任何使用问题欢迎随时与我联系，我会抽时间努力为您解惑，提供帮助【资源内容】：包含源码+工程文件+说明等。答辩评审平均分达到96分，放心下载使用！可实现复现；设计报告也可借鉴此项目；该资源内项目代码都经过测试运行，功能ok 【项目价值】：可用在相关项目设计中，皆可应用在项目、毕业设计、课程设计、期末/期中/大作业、工程实训、大创等学科竞赛比赛、初期项目立项、学习/练手等方面，可借鉴此优质项目实现复刻，设计报告也可借鉴此项目，也可基于此项目来扩展开发出更多功能【提供帮助】：有任何使用上的问题欢迎随时与我联系，抽时间努力解答解惑，提供帮助【附带帮助】：若还需要相关开发工具、学习资料等，我会提供帮助，提供资料，鼓励学习进步下载后请首先打开说明文件（如有）;整理时不同项目所包含资源内容不同;项目工程可实现复现复刻，如果基础还行，也可在此程序基础上进行修改，以实现其它功能。供开源学习/技术交流/学习参考，勿用于商业用途。质量优质，放心下载使用，资源为网络商品（电子资料类）基于网络商品和电子资料商品的性质和特征不支持退款

19考试真题最近的t44.txt: 19考试真题最近的t44.txt

JSP基于SSH2新闻发布系统.zip(毕设&课设&实训&大作业&竞赛&项目): 项目工程资源经过严格测试运行并且功能上ok，可实现复现复刻，拿到资料包后可实现复现出一样的项目，本人系统开发经验充足（全栈全领域），有任何使用问题欢迎随时与我联系，我会抽时间努力为您解惑，提供帮助【资源内容】：包含源码+工程文件+说明等。答辩评审平均分达到96分，放心下载使用！可实现复现；设计报告也可借鉴此项目；该资源内项目代码都经过测试运行，功能ok 【项目价值】：可用在相关项目设计中，皆可应用在项目、毕业设计、课程设计、期末/期中/大作业、工程实训、大创等学科竞赛比赛、初期项目立项、学习/练手等方面，可借鉴此优质项目实现复刻，设计报告也可借鉴此项目，也可基于此项目来扩展开发出更多功能【提供帮助】：有任何使用上的问题欢迎随时与我联系，抽时间努力解答解惑，提供帮助【附带帮助】：若还需要相关开发工具、学习资料等，我会提供帮助，提供资料，鼓励学习进步下载后请首先打开说明文件（如有）;整理时不同项目所包含资源内容不同;项目工程可实现复现复刻，如果基础还行，也可在此程序基础上进行修改，以实现其它功能。供开源学习/技术交流/学习参考，勿用于商业用途。质量优质，放心下载使用，资源为网络商品（电子资料类）基于网络商品和电子资料商品的性质和特征不支持退款，质量优质，放心下载使用

19考试真题最近的t49.txt: 19考试真题最近的t49.txt

19考试真题最近的t61.txt: 19考试真题最近的t61.txt

电动汽车充电站选址定容优化：基于MATLAB建模求解与成本最小化策略,电动汽车充电站选址定容优化：基于MATLAB的最优规划模型及初学者指南,电动汽车充电站的最优选址定容MATLAB程序以规划期内充: 电动汽车充电站选址定容优化：基于MATLAB建模求解与成本最小化策略,电动汽车充电站选址定容优化：基于MATLAB的最优规划模型及初学者指南,电动汽车充电站的最优选址定容MATLAB程序以规划期内充电站的总成本（包括投资、运行和维护成本）和网损费用之和最小为目标，考虑了相关的约束条件，构造了电动汽车充电站最优规划的数学模型。从34个位置中，选取7个充电站地址，进行选址优化关键词：电动汽车；充电站；选址和定容程序注释清晰，适合初学者学习 ,电动汽车; 充电站选址定容; MATLAB程序; 规划模型; 成本优化; 网损费用; 初学者学习; 程序注释清晰,基于MATLAB的电动汽车充电站选址定容优化程序：成本最小化与约束条件下的选址策略

威纶通触摸屏图库模板程序：多尺寸适用，PS原文件可自由修改，便捷电气助手应用,威纶通触摸屏图库模板程序：多尺寸适用，PS原文件可自由修改，便捷电气助手应用,威纶通触摸屏图库模板程序(电气助手) 可直接: 威纶通触摸屏图库模板程序：多尺寸适用，PS原文件可自由修改，便捷电气助手应用,威纶通触摸屏图库模板程序：多尺寸适用，PS原文件可自由修改，便捷电气助手应用,威纶通触摸屏图库模板程序(电气助手) 可直接使用。内附原图、PS原文件可自行修改不同触摸屏，不同寸尺都可以使用 ,威纶通触摸屏; 图库模板程序; 电气助手; 直接使用; 原图; 修改; 兼容不同寸尺,威纶通触摸屏图库模板程序：电气助手，便捷编辑通用模板

群辉引导7.2.2 最新 vmware workstation 已经帮忙转换好为vmdk文件直接使用就可以: 修复 "保存'/opt/rr'的修改" 后主菜单锁死问题. 修复 trivial 插件的语法错误. 修复 open-vm-tools 套件缺失的 SOCKETS 驱动. 添加 vmtools 插件, 包含 qemu-ga & open-vm-tools. 4.1. 该插件会自动判断环境并启用对应的功能, 物理机也不用刻意删除该插件. 4.2. 新安装用户会默认选中, 升级用户如需要请手动添加该插件. 4.3. 如启用该插件, 请不要再在系统中安装套件. 修复 wireless 插件. 5.1. 修复 RR 下无线网络 IP 显示和刷新问题. 5.2. 修复 RR 下设置 SSID&PSK 后 DSM 下不驱动的问题. 5.3. 同步 RR 下的 SSID&PSK 到 DSM 下. 5.4. 修复 junior 模式下无线网络的支持, 已支持无线网卡的 DSM 系统安装. (暂时不支持 intel 无线网卡) 5.5. wpa_supplicant.conf 文件位于引导盘第一个分区根目录, 纯无线环境可手动放置该文件后其启动引导.

19考试真题最近的t66.txt: 19考试真题最近的t66.txt

19考试真题最近的t37.txt: 19考试真题最近的t37.txt

Arduino-Mega2560开发板-毕业设计: Arduino_Mega2560开发板工程文件包含原理图 PCB图

智能养猪系统的高精度称重算法及其Python实现（含详细可运行代码及解释）: 内容概要：本文详述了一种用于智能养猪的高精度称重系统设计及其实现方法，主要涵盖了卡尔曼滤波、数据采集与预处理、重量估算与存储等功能。文中提供了完整的Python代码示例和详细的代码解释，旨在减少噪声干扰并提高数据准确性。具体而言，通过对采集的数据进行卡尔曼滤波，去除异常值，并使用一定时间段内数据的平均值作为最终的体重估计。此外，还实现了一个简单的图形用户界面，能够实时显示称重数据和估计的重量。适合人群：农业自动化领域的开发者和技术爱好者，尤其关注智能畜牧业的技术应用。使用场景及目标：适用于智能养猪场的精准称重，提高养猪效率和管理水平，确保获取高精度、可靠的牲畜体重数据，帮助养殖场更好地管理饲养过程。同时，提供完整的源代码有助于相关人员理解和优化现有系统。阅读建议：对于想要深入了解智能畜牧业相关技术的读者来说，可以通过本教程掌握从硬件接入、软件设计再到数据处理全流程的具体细节。重点关注各个关键算法的实现原理及其应用场景，从而为自己的项目带来启示与借鉴。

基于SSM框架构建积分系统和基本商品检索系统（Spring+SpringMVC+MyBatis+Lucene+Redis+MAVEN）.zip(毕设&课设&实训&大作业&竞赛&项目): 项目工程资源经过严格测试运行并且功能上ok，可实现复现复刻，拿到资料包后可实现复现出一样的项目，本人系统开发经验充足（全栈全领域），有任何使用问题欢迎随时与我联系，我会抽时间努力为您解惑，提供帮助【资源内容】：包含源码+工程文件+说明等。答辩评审平均分达到96分，放心下载使用！可实现复现；设计报告也可借鉴此项目；该资源内项目代码都经过测试运行，功能ok 【项目价值】：可用在相关项目设计中，皆可应用在项目、毕业设计、课程设计、期末/期中/大作业、工程实训、大创等学科竞赛比赛、初期项目立项、学习/练手等方面，可借鉴此优质项目实现复刻，设计报告也可借鉴此项目，也可基于此项目来扩展开发出更多功能【提供帮助】：有任何使用上的问题欢迎随时与我联系，抽时间努力解答解惑，提供帮助【附带帮助】：若还需要相关开发工具、学习资料等，我会提供帮助，提供资料，鼓励学习进步下载后请首先打开说明文件（如有）;整理时不同项目所包含资源内容不同;项目工程可实现复现复刻，如果基础还行，也可在此程序基础上进行修改，以实现其它功能。供开源学习/技术交流/学习参考，勿用于商业用途。质量优质，放心下载使用，资源为网络商品（电子资料类）基于网络商品和电子资料商品的性质和特征不支持退款

最新更新！！！地级市-产业链韧性数据（2006-2021年）: ## 01、数据简介产业链韧性是指在产业链部分环节出现问题或遭受内外部冲击时，产业链仍能保持其稳定性和动态平衡，迅速做出反应并恢复正常运转的能力。这种能力体现了产业链的复杂适应性，是其能够应对各种不确定性因素和破坏性事件的重要保障。产业链韧性是保障产业链安全稳定运行的重要基础，对于提升产业竞争力、推动经济高质量发展具有重要意义。数据名称：地级市-产业链韧性数据数据年份：2006-2021年 ## 02、相关数据代码年度城市产业结构HHI 获得专利数第一产业增加值占GDP比第二产业增加值占GDP比第三产业增加值占GDP比产业链韧性

PNP发射极接地开关仿真原理图: PNP发射极接地开关仿真原理图

上门预约服务小程序v4.10.9+前端.zip: 上门预约服务小程序v4.10.9+前端文章列表单图时，图标统一左侧对齐文章内增加视频位置，显示在文章顶部文章内底部导航增加首页、分享、自定义按钮，可跳转内部页面、其他小程序、业务域名内的H5页面，方便宣传使用

Python环境下的滚动轴承故障诊断优化算法：基于改进WDCNN的一维卷积神经网络与LSTM融合的时序信号处理研究,Python环境中基于改进WDCNN与LSTM融合的滚动轴承故障诊断方法研究-优化: Python环境下的滚动轴承故障诊断优化算法：基于改进WDCNN的一维卷积神经网络与LSTM融合的时序信号处理研究,Python环境中基于改进WDCNN与LSTM融合的滚动轴承故障诊断方法研究——优化卷积核大小，提升诊断准确率并加速收敛速度的应用,Python环境下一种基于WDCNN的滚动轴承故障诊断方法算法采用pytorch深度学习模块，对WDCNN进行改进，搭建了卷积核大小逐层递减的一维卷积神经网络，并减少了卷积层数量，达到了98%以上的诊断准确率，同时有着较快的收敛速度。另外，针对时序信号的特点，将长短时记忆网络(LSTM)与搭建的一维卷积神经网络结合，提高分类准确率至99%以上，但收敛速度较单一的卷积神经网络较慢。算法可迁移至金融时间序列，地震信号，语音信号，声信号，生理信号（ECG,EEG,EMG）等一维时间序列信号。 ,基于WDCNN的故障诊断方法; 卷积神经网络; 算法改进; 高诊断准确率; 收敛速度快; LSTM结合; 一维时间序列信号; 金融、地震、语音、生理信号诊断,Python下改进WDCNN的滚动轴承故障诊断法：深度学习提升诊断准确率与收敛速度

最近访客 更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

IK,ansj,mmseg4j分词性能比较

评论

发表评论

相关推荐

Java开源分词系统IKAnalyzer学习（七） 词库加载分词

es 同义词 热更新 1.1版本

mmseg 同义词分析器 SolrSynonymParser

lucene4.7 分词器（三）

IKAnalyzer如何自定义远端词库

es 同义词 热更新

热更新 IK 分词使用方法

中文分词器IK和Paoding技术对比

mmseg 分词器 同义词总结

lucene版本升级到4.6.0以上之后使用mmseg4j分词器遇到的问题

elasticsearch 分词器配置注意事项

中文分词 mmseg4j 的词库格式

英文分词的算法和原理

中文分词原理

elasticsearch 1.1.0 mmseg 英文数字分词

11大Java开源中文分词器的使用方法和分词效果对比

中文分词器性能比较

Lucene5学习之使用MMSeg4j分词器

布式搜索elasticsearch 中文分词集成

elasticsearch的实现全文检索

最近访客更多访客>>

Java开源分词系统IKAnalyzer学习（七）词库加载分词

es 同义词热更新 1.1版本

es 同义词热更新

mmseg 分词器同义词总结