小叮咚中文分词在处理大量数据的时候碰到了内存泄漏的问题
最近在测试小叮咚分词应用于weblucene搜索引擎的效果。
我们使用的源数据XML格式文件大概1.2G。
创建完成后的索引文件对比如下:
源文件:1.2G
小叮咚分词生成的索引文件:2217MB
二元分词生成的索引文件:2618MB 两者相差:401M
更详细的对比可以查看:中文分词和二元分词综合对比
下面是一份对索引文件的对比,可以看出主要的差别在于项(term)信息的差别。
索引文件列表 |
(121M)小叮咚分词 |
(146M)二元分词
|
|
deletable |
4 |
4 |
|
_fg4.f10 |
19K |
19K |
|
_fg4.f11 |
19K |
19K |
|
_fg4.f12 |
19K |
19K |
|
_fg4.f13 |
19K |
19K |
|
_fg4.f19 |
19K |
19K |
|
_fg4.fdt |
80M |
80M |
域值 |
_fg4.fdx |
156K |
156K |
域索引 |
_fg4.fnm |
135 |
135 |
标准化因子 |
_fg4.frq |
12M |
23M |
项频数 |
_fg4.prx |
26M |
36M |
项位置 |
_fg4.tii |
15K |
74K |
项索引 |
_fg4.tis |
1.1M |
5.8M |
项信息 |
segments |
17 |
17 |
|
在测试中碰到了2个问题,
1、内存泄漏
内存泄漏有两种情况:
一、随着时间的推移内存使用量逐渐增加(内存泄漏?),可以通过linux下的top命令观察到;
二、在程序运行半个小时候,内存使用量忽然增加,这时一般cpu的占用率也同时增加。
2、cpu占用率高
cpu占用率高和内存占用高成正比,就是当内存增长到150M左右的时候,cpu使用率就跳到了99.9%。
所以现在看来主要要解决内存使用量不断增加的问题。
lhelper也推荐了不少工具:
http://www.samspublishing.com/articles/article.asp?p=23618&seqNum=7&rl=1
http://tech.ccidnet.com/pub/article/c1112_a265199_p1.html
check java memory leak
tips
memory leaks , Be Gone
不知道大家在这方面有没有分享的经验。
相关连接:
[sandbox]Lucene中文分词的2个试验模块
» gRaSSland开发日记
分享到:
相关推荐
在这个高级版小程序中,C#的强类型、安全性以及丰富的库支持,使得开发者能高效地实现复杂的业务逻辑和数据处理。同时,C#与.NET框架的结合,使得后端服务具备高性能和可扩展性。 作为后端服务,"叮咚活动报名"提供...
《叮咚-超级外卖餐饮小程序V6.2.8微信小程序》开源版本的发布,为餐饮行业的数字化转型提供了强大的工具。这款小程序集成了多种实用功能,旨在满足餐饮商家对外卖服务的需求,同时也为消费者提供了便捷的订餐体验。...
【标题】:“叮咚同城微圈小程序v11.4.2安装更新版.zip”指出这是一个针对“叮咚同城微圈”小程序的特定版本更新,版本号为11.4.2,通常代表着修复了旧版本的问题,增加了新功能,或者优化了性能。 【描述】:...
对于志汇叮咚超级外卖小程序来说,这意味着你可以查看并修改它的业务逻辑、界面设计、数据处理等所有细节,以适应特定的需求。 3. **全开源**: 全开源意味着整个项目的源代码都是开放的,不带任何商业限制。这为...
《叮咚同城微圈小程序 11.2.7》是一款基于志汇同城平台开发的、功能完善的微信小程序。此版本11.2.7经过亲测,已证实能够稳定运行,无任何运行错误,适合用于商业运营。下面将详细探讨这款小程序的主要特点和关键...
叮咚酒店营销版小程序v8.5.8+前端 版本号:8.5.8 – 老版用户专拍备注:小程序不用重新上传审核修复商家独立后台不能上传图片问题
《叮咚外卖餐饮与跑腿服务系统:小程序前端与后端详解》 “叮咚-外卖餐饮 6.2.7+叮咚跑腿 2.0.2 小程序前端+后端”是一个集成了外卖餐饮管理和跑腿服务功能的软件系统。此版本为6.2.7的外卖餐饮系统与2.0.2的跑腿...
毕业设计的时候获得的,希望对大家在汉字处理中能用的到。 ICTCLAS算法,中科院,对名字识别能力很强。VC开发。 CSharp分词,向前匹配加向后最大匹配,C#开发,容易扩展。 小叮咚分词,由后向前最大匹配,C#开发。 ...
"叮咚同城微圈小程序11.3.4+前端.zip" 这个标题揭示了我们正在处理的是一个特定版本的小程序应用,即“叮咚同城微圈”的11.3.4版,同时也包含了前端资源。这里的“叮咚同城”可能是一个地方性的社区服务品牌,而...
《志汇叮咚超级餐饮外卖小程序6.5.2》是一款专为餐饮业设计的高效外卖解决方案,旨在帮助餐厅快速适应数字化趋势,提升服务质量并拓宽业务覆盖范围。该程序的最新版本6.5.2在前一版本的基础上进行了优化与升级,确保...
《叮咚同城微圈小程序11.4.2版本详解》 在当今互联网时代,小程序作为轻量级的应用形态,已经成为了许多企业和个人开发者的重要选择。"叮咚同城微圈小程序11.4.2.zip"是针对同城服务领域的一款小程序,旨在提供便捷...
【标题】"叮咚酒店营模块_叮咚_叮咚酒店_酒店_叮咚酒店源码_酒店管理_" 涉及的是一个专门针对酒店管理的软件系统——叮咚酒店,它具有开源特性,适用于多酒店运营场景。该系统不仅提供基础的酒店管理功能,还集成了...
“小程序前端”和“小程序后端”分别指的是运行在用户手机端的小程序界面和负责处理请求、存储数据的服务器端。 【压缩包子文件的文件名称列表】中,"云客社区www.u8wx.com.jpg"可能是一个展示该小程序在云客社区...
在当今互联网时代,外卖餐饮行业与移动应用的结合日益紧密,而"叮咚外卖餐饮小程序6.3.7.zip"正是这一趋势的典型代表。这款小程序是专为餐饮商家打造的便捷服务平台,旨在提升用户体验,优化业务流程,实现高效运营...
《叮咚外卖餐饮小程序V6.3.8:构建微信小程序餐饮平台的全面解析》 在当前数字化的时代,微信小程序已经成为了商家与消费者之间的重要桥梁,尤其在餐饮行业,小程序的便捷性和高效性使得它备受青睐。今天我们将深入...
3. **酒店营销**:在这款小程序中,酒店营销可能包括预订系统、房间展示、优惠活动推广、客户评价等功能,旨在帮助酒店提高曝光度,吸引并留住客人,提升服务质量,以及通过数据分析进行精准营销。 4. **版本管理**...
志汇叮咚超级外卖6.4.3超级餐饮单店版系统源码,含超级跑腿2.0.3,源码最新前端,官方加密、渠道版,官方更新:优化单店代码。 汇超级外卖餐饮小程序是一款智慧餐饮小程序模块,单店外卖小程序版和多店商家版,支撑...
2. 理解小程序的生命周期和API,以便正确处理页面加载、数据更新等问题。 3. 学习和运用前端框架,如Vue.js或React,因为很多小程序的开发会采用这些框架。 4. 注意版权问题,确保在开源许可范围内使用和修改代码。 ...
"叮咚同城微圈小程序V11.3.5 前端+后端"是一个包含完整前后端功能的小程序版本,旨在为用户提供一个本地化的社区互动平台。在这个版本中,我们聚焦于优化用户体验,增强系统的稳定性和安全性,并且可能引入了一些新...