wbj0110

浏览: 1645556 次
性别:
来自: 上海

最近访客更多访客>>

一往无前bhz

ninja2006

loginboot

u012363178

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

一次搜索服务优化笔记

博客分类：

测试
压测

一次搜索服务优化笔记测试压测

测试环境

CentOS release 5.5系统，内核版本：Linux version 2.6.18-194.el5

Intel(R) Xeon(R) CPU E5640 @ 2.67GHz 16CPU；64G内存；千兆网卡

300w用户数据，大概1G的索引文件。lucene 3.6.1

基于lucene实现的搜索服务，索引文件是文件类型的，Directory为MMapDirectory.

目的

只对搜索的rpc接口进行压力测试

条件

100个搜索任务（搜索参数随机组合）同时进行压力测试，发现tps大概是400/s左右，从编码上优化，将索引文件拆解为10个sub index，使用MultiReader，然后由10 sub IndexReader对应每个sub index，通过多线程完成每次搜索，结果发现搜索效率提升不大。

通过 sar -n / iostats 监控发现磁盘读写利用率为0%，也就说瓶颈不在磁盘io上。

同时cpu利用率/jvm垃圾回收都正常，搜索服务器的工作线程从1k提升到1.5k对tps有些许提升，效果不大，而且cpu load大概在7-10左右。

将压力测试请求任务提升到300、1000之后，请求响应的平均时间、最大时间逐渐增大至不可接受的时间。而磁盘io、cpu load基本没有变化，jvm gc频率增大。也就是说每次搜索需要大量的cpu运算，在资源足够的情况下，cpu运算和线程竞争的瓶颈是无法避免的。

根据网上提供的解决方案：

1.通过FieldFilterCache的方式来缓存某个字段的搜索结果，然后通过子搜索条件来从cache中查找数据，但实际中发现lucene是将FieldFilterCache和子搜索结果做交集，效率更差，而且FieldFilterCache的数据是放在WeakedHashMap中,数据如果被gc回收了，效率就更慢了。放弃此种方案

2.减少Collector返回的totalHit数据，lucene很实诚，每次搜索都会返回符合搜索条件的精准数据，这导致全索引扫描，而实际业务中只需要100条数据，不需要太精确的totalHit。故考虑自定义Collector实现，后来发现时间、精力、能力已经不允许在lucene3.6中自定义Collector实现了---项目要上线了。放弃此种方案

调整

根据实际业务情况调整：

用户的搜索条件基本固定，而且产品人员要求在翻页的情况下要保证数据的顺序是不变的，即从第二页到第N页然后在回退到第二页，第二页的数据不能因为索引的更新导致展现的数据不一致，考虑的解决方案：加缓存。因为搜索结果是按照时间排序，使用redis SortedSet来存储搜索结果。缓存架构如下：

用户级别缓存：搜索条件+用户个性设置的结果。数据是从搜索条件缓存中计算出来的。而且这2级缓存过期时间不同，用户级缓存可以被用户的特定请求主动穿透，过期时间设置比较久，搜索级缓存时间比较短，是为了避免用户级缓存被穿透后，对造成请求风暴，压力过大。

300线程，1000个搜索条件随机请求，tps大概在4k-8k/s。压力线程增加到1k，tps依然在4k-8k/s。通过 sar命令监控网卡流量，大概在20m-30m之前浮动，未达到千兆网卡的实际极限传输速度( 125MB/s).在测试工程中，通过java方法级别的监控工具发现rpc调用的网络io没有write block，这也情况也证明网络并非瓶颈。

关于JVM参数，因为使用的是jdk6最新的版本，新加了2个参数： -XX:+UseCompressedOops，来减少64位机中新增对象句柄占用的空间。-XX:+UseNuma，根据Numa架构分配eden区空间，据Oracle官方文档介绍，能够提升gc并行回收的效率（32位机：30%提升，64位机：40%提升）。参考：http://docs.oracle.com/javase/7/docs/technotes/guides/vm/performance-enhancements-7.html

总结

性能测试要关注测试环境的网络IO、磁盘IO、CPU利用率、内存利用率。如果这些硬件环境没有达到极限，就是代码存在瓶颈，在我开始做压力测试的时候，将搜索服务工作线程默认设置为5个，导致tps极低，后来经过分析发现工作线程数量限制导致的。。。而且做优化需要根据实际的业务情况来进行才能事半功倍，ps：cache真是web应用在高并发情况下保证响应的利器。

不足

没有通过java profile详细监控每个线程的响应时间(jprofile/yourKit)、竞争的原因

摘自互联网

分享到：

做好搜索引擎优化技术掌握的最主要的几点方 ... | MetaQ 可靠性、顺序和重复

2013-10-09 09:17
浏览 954
评论(0)
分类:编程语言
查看更多

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

win7修复本地系统工具: win7修复本地系统工具

《自动化专业英语》04-Automatic-Detection-Block(自动检测模块).ppt: 《自动化专业英语》04-Automatic-Detection-Block(自动检测模块).ppt

《计算机专业英语》chapter12-Intelligent-Transportation.ppt: 《计算机专业英语》chapter12-Intelligent-Transportation.ppt

西门子S7-1200博图平台下3轴伺服螺丝机程序解析与应用: 内容概要：本文详细介绍了基于西门子S7-1200博图平台的3轴伺服螺丝机程序。该程序使用SCL语言编写，结合KTP700组态和TIA V14及以上版本，实现了对X、Y、Z三个轴的精密控制。文章首先概述了程序的整体架构，强调了其在自动化控制领域的高参考价值。接着深入探讨了关键代码片段，如轴初始化、运动控制以及主程序的设计思路。此外，还展示了如何通过KTP700组态实现人机交互，并分享了一些实用的操作技巧和技术细节，如状态机设计、HMI交互、异常处理等。适用人群：从事自动化控制系统开发的技术人员，尤其是对西门子PLC编程感兴趣的工程师。使用场景及目标：适用于希望深入了解西门子S7-1200博图平台及其SCL语言编程特点的学习者；旨在帮助读者掌握3轴伺服系统的具体实现方法，提高实际项目中的编程能力。其他说明：文中提供的代码示例和设计理念不仅有助于理解和学习，还能直接应用于类似的实际工程项目中。

MATLAB仿真：非线性滤波器在水下长基线定位(LBL)系统的应用与比较: 内容概要：本文详细探讨了五种非线性滤波器（卡尔曼滤波(KF)、扩展卡尔曼滤波(EKF)、无迹卡尔曼滤波(UKF)、粒子滤波(PF)和变维卡尔曼滤波(VDKF)）在水下长基线定位（LBL）系统中的应用。通过对每种滤波器的具体实现进行MATLAB代码展示，分析了它们在不同条件下的优缺点。例如，KF适用于线性系统但在非线性环境中失效；EKF通过雅可比矩阵线性化处理非线性问题，但在剧烈机动时表现不佳；UKF利用sigma点处理非线性，精度较高但计算量大；PF采用蒙特卡罗方法，鲁棒性强但计算耗时；VDKF能够动态调整状态维度，适合信标数量变化的场景。适合人群：从事水下机器人(AUV)导航研究的技术人员、研究生以及对非线性滤波感兴趣的科研工作者。使用场景及目标：①理解各种非线性滤波器的工作原理及其在水下定位中的具体应用；②评估不同滤波器在特定条件下的性能，以便为实际项目选择合适的滤波器；③掌握MATLAB实现非线性滤波器的方法和技术。其他说明：文中提供了详细的MATLAB代码片段，帮助读者更好地理解和实现这些滤波器。此外，还讨论了数值稳定性问题和一些实用技巧，如Cholesky分解失败的处理方法。

VMware-workstation-full-14.1.3-9474260: VMware-workstation-full-14.1.3-9474260

DeepSeek系列-提示词工程和落地场景.pdf: DeepSeek系列-提示词工程和落地场景.pdf

javaSE阶段面试题: javaSE阶段面试题

《综合布线施工技术》第5章-综合布线工程测试.ppt: 《综合布线施工技术》第5章-综合布线工程测试.ppt

安川机器人NX100使用说明书.pdf: 安川机器人NX100使用说明书.pdf

S7-1200 PLC改造M7120平面磨床电气控制系统：IO分配、梯形图设计及组态画面实现: 内容概要：本文详细介绍了将M7120型平面磨床的传统继电器控制系统升级为基于西门子S7-1200 PLC的自动化控制系统的过程。主要内容涵盖IO分配、梯形图设计和组态画面实现。通过合理的IO分配，确保了系统的可靠性和可维护性；梯形图设计实现了主控制逻辑、砂轮升降控制和报警逻辑等功能；组态画面则提供了友好的人机交互界面，便于操作和监控。此次改造显著提高了设备的自动化水平、运行效率和可靠性，降低了维护成本。适合人群：从事工业自动化领域的工程师和技术人员，尤其是熟悉PLC编程和控制系统设计的专业人士。使用场景及目标：适用于需要进行老旧设备升级改造的企业，旨在提高生产设备的自动化水平和可靠性，降低故障率和维护成本。具体应用场景包括但不限于金属加工行业中的平面磨床等设备的控制系统改造。其他说明：文中还分享了一些实际调试中的经验和技巧，如急停逻辑的设计、信号抖动的处理方法等，有助于读者在类似项目中借鉴和应用。

chromedriver-linux64-136.0.7103.48.zip: chromedriver-linux64-136.0.7103.48.zip

IMG_20250421_180507.jpg: IMG_20250421_180507.jpg

《网络营销策划实务》项目一-网络营销策划认知.ppt: 《网络营销策划实务》项目一-网络营销策划认知.ppt

Lianantech_Security-Vulnerabil_1744433229.zip: Lianantech_Security-Vulnerabil_1744433229

MybatisCodeHelperNew2019.1-2023.1-3.4.1.zip: MybatisCodeHelperNew2019.1-2023.1-3.4.1

《Approaching(Almost)any machine learning problem》中文版第13章（最后一章）: 【深度学习部署】基于Docker的BERT模型训练与API服务部署：实现代码复用与模型共享

火车票订票系统设计与实现(代码+数据库+LW): 摘要传统办法管理信息首先需要花费的时间比较多，其次数据出错率比较高，而且对错误的数据进行更改也比较困难，最后，检索数据费事费力。因此，在计算机上安装火车票订票系统软件来发挥其高效地信息处理的作用，可以规范信息管理流程，让管理工作可以系统化和程序化，同时，火车票订票系统的有效运用可以帮助管理人员准确快速地处理信息。火车票订票系统在对开发工具的选择上也很慎重，为了便于开发实现，选择的开发工具为Eclipse，选择的数据库工具为Mysql。以此搭建开发环境实现火车票订票系统的功能。其中管理员管理用户，新闻公告。火车票订票系统是一款运用软件开发技术设计实现的应用系统，在信息处理上可以达到快速的目的，不管是针对数据添加，数据维护和统计，以及数据查询等处理要求，火车票订票系统都可以轻松应对。关键词：火车票订票系统；SpringBoot框架，系统分析，数据库设计

【ABB机器人】-00标准保养简介.pdf: 【ABB机器人】-00标准保养简介.pdf

最新校园跑腿小程序源码多校版本多模块适合跑腿外卖表白二手快递等校园服务.zip: 最新校园跑腿小程序源码多校版本，多模块，适合跑腿，外卖，表白，二手，快递等校园服务此版本为独立版本，不需要微擎直接放入就可以需要自己准备好后台的服务器，已认证的小程序，备案的域名!

最近访客 更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

一次搜索服务优化笔记

测试环境

目的

条件

调整

总结

不足

评论

发表评论

相关推荐

Redis的介绍与使用 benchmark

HBase/Hadoop学习笔记 (转)

Jmeter和Tsung之间的对比

Siege-压力模拟/测试工具

BTrace实现原理的分析

BTrace 神器 简单实用教程

BTrace实际案例分析

Java BTrace的使用

在线调试工具BTrace 的使用--例子

BTrace--动态跟踪Java代码的执行状况工具

tcpcopy架构复杂应用实例

分布式TCPCOPY架构、压测

Web性能压力测试工具--WebBench

对Web服务进行压测

最近访客更多访客>>

BTrace 神器简单实用教程