任何系统的性能分析以及分布式负载平衡策略的执行,需要首先了解当前系统的资源使用情况。
从资源角度进行划分,可以把资源分为如下4类:
1)处理器资源,CPU
2)内存资源,Memory,从广义概念上讲,这还包括Swap\Cache\Buffer等
3)磁盘资源,Disk
4) 网络资源,Network IO,从广义概念上讲,还要考虑上层网络交换机的带宽和交换机之间的带宽。
1、CPU分析
CPU分析常用的工具top。
2、内存分析
内存分析最常用的工具有free、vmstat等。
一般内存的分析要分成两个层次来进行:
1)系统层面上。free可以查看当前系统的内存使用状况,用来分析机器的内存整体使用状况。
Linux内核为了获取更好的性能,总会尽可能地使用空余内存作为系统Cache,从上图可以看到有23G的系统Cache,对于读多写少的应用而言,这个数据是正常的。
vmstat是一个可以实时查看当前CPU、内存、swap使用的情况,该命令是系统监控与分析的一个常用工具。
- procs:标识了当前有多少进程正在等待执行,由此来判断是否因为资源紧张而造成进程的流程运行。r标示了有多少个进程等待获得CPU访问权限,b代表了有多少个进程处于Sleep状态。一般而言,r b都为0,如果出现b>0的情况,往往是CPU资源不足的一个信号,此时,或许有大量的IO吞吐的应用在执行,或者运行的process消耗了太多的CPU时间片。
- memory: 标识了系统的内存使用状况。具体数值与free命令类似。
- swap:标识了系统的swap的使用的情况,si代表了当前有多少数据从swap区域被置换到内存区域,so代表有多少数据从内存区域被换入到swap。如果系统出现频繁的出现swap换入换出的状况,会影响到系统的性能。
- io:标识了磁盘的读写的活跃情况。bi每秒读block的个数,bo每秒写block的个数,上图中,可以看到当前系统会有较多的写磁盘操作。
- System:in代表每秒系统中断的个数,包括来自于System Clock的中断;cs代表系统上下文切换的次数。
- CPU:us代表用于处理用户态任务的百分比,sy kernel相关的任务占用的百分比,id 空闲状态的百分比,wa:等待IO的百分比。根据经验,id低于40%表示当前系统处于比较繁忙的状态,wa如果较大往往会造成procs中r的值升高。
另外,vmstat -m 会打印slab信息,在Linux Kernel2.2版本引进了slab allocation的分配方式,从而可以更快速的掌握当前系统的内存分配状况。所有的应用程序内存的使用,最终都会映射成对应Cache下的slab空间,因此,通过可以分析出当前系统的内存开辟的分布情况。
跟进一步,我们来看一下在Linux Kernel中内存的原理。在内核中,内存是按照Pages进行组织的,内存分为三类:
1)Read Pages,这部分内存是从disk读取出来的,且在内存中没有做任何修改的数据,常见的形式,如:以Read形式打开的文件、执行的Binary、或者加载的Library等。Linux会尽可能按照需要把数据导入内存,因此,在大部分情况下我们使用free命令看到的Cache部分的内存总会比较大。当内存开始变得短缺时,内核会开始从Cache的数据进行淘汰。
2)Dirty Pages,Kernel修改的内存的数据,并需要写回磁盘的数据。系统进程pdflush就是执行该操作。一旦系统的内存变得短缺,系统进程kswapd会写这些page到磁盘。
3)Anonymous Pages,还有一部分的数据,并没有与一个文件或者设备相对应,但是它存在于一个进程内部。例如:我们在程序中使用的Map结构存储的应用的数据之类的。在内存紧张的时候,kswapd进程会将这些内存写入swap区域,以保证系统的内存空间。
高级一点的内存分析工具有:
pcat、memdump、htop。
pcat可以dump出某个process的内存镜像。在某些特殊的情况下,我们无法分析应用的性能的瓶颈的时候,可以使用该工具。配合strings,可以查看进程里都有那些数据,这可以在一定程度上降低被hang住的程序丢失数据的影响。注意pcat基本会打印全部的内存镜像,所以生成的文件较大。
memdump会打印出系统整个内存镜像。
htop是一个类似与top,但功能更加强大的工具,可以实现对各种系统参数的分析。
优化策略与补充:
1)对于性能要求比较高,同时机器物理内存足够使用的情况下,建议关闭swap分区。如果有ssd的情况下,可以使用ssd空间挂载swap分区。
2)对于JAVA进程,除了使用以上介绍的工具进行profiling之外,还要注意GC的影响,目前根据使用的情况来看,如果使用CMS老生代垃圾回收器,对于IO压力比较高的应用来,不要把CMSInitiatingOccupancyFraction的值设置超过70,一般来看设置在50~60之间比较合适。
3、磁盘分析
目前常用磁盘分析工具有:iostat、iotop、lsof、sar
iostat分析当前系统的整体的读写吞吐。
iotop可以定位io吞吐比较大的进程。
lsof可以查看某个pid下操作的文件。
使用iostat分析随机读还是随机写应用
使用/sbin/hdparm -t /dev/sda测试磁盘/dev/sda的读速度
优化策略:
1)分离系统盘成为独立的volumn。这样做,避免因为应用程序的误操作,造成系统盘的IO过重从而导致系统不可用。上次我们线上Hadoop出现的一次故障,就是因为Hadoop的用户日志数据与系统的根目录属于同一个volumn(有关概念可参考http://en.wikipedia.org/wiki/Logical_Volume_Manager_%28Linux%29),由于用户的maptask频繁写log,造成系统盘的io util长时间处于100%,从而造成节点响应速度变慢。
2) 如果是搭建具有容错特性的系统,尽可能使用单盘Raid0。这样设置的好处是在磁盘故障时造成的影响较小,而且容易监控。
目前,很多系统都是用SSD来提升系统的性能,作为ssd来说,它的物理特性决定了在高速的同时,有更高出现故障的风险,因此,合理的监控可以有利于系统的维护。
诊断标准:
ssd_badblock -d /dev/$ssd_id bad_block的概率超过0.006%就认为有问题,
ssd_bitflip -d /dev/$item 出现unrecoverable的个数大于0,认为出现了问题。
4、网络分析
常用工具:
netstat获取网络使用的信息,这里
nload:获得上行(ongoing)和下行(incoming)的实时网络数据,包含从nload收集到目前为止出现的Max、Min、Average、Current、以及累计的流量。
这个工具适用于获取当前节点的网络流量状况,并由此判断节点的网络负载压力。
如果是网卡是千兆容量,1000Mbps,实际上,如果发现Curr的值超过1000M或者Max超过1000M,或者Avg的值在750M以上,此时配合其它节点ping操作确认该影响。下图就是借助多窗口管理器tmux同时查看nload和ping的状态。
以端口提供的服务,需要跟踪端口上相关连接的状态,例如,我们通过ThriftServer对外提供服务,出现了很多的CLOSE_WAIT状态的连接,经过分析,是由于客户端没有正常关闭对应的handler造成的。如果不及时关闭该链接,会造成因为端口上的连接数过多引起的访问故障。
另外,网络状况需要配合使用ethtool、/sbin/ifconfig 来查看网卡传输数据的情况,尤其查看丢包、错误包的情况,避免因为硬件问题造成的网络服务质量下降的现象。
通过以上的分析,可以确认是否因为网络流量拥塞造成的应用服务性能下降,因为如果网卡长时间处于饱和状态运行,虽然网络协议栈可以保证数据传输的可靠性,但是以Network-IO Intensive的应用就会出现瓶颈,例如Hadoop作业、需要高吞吐的数据库等。目前,这种问题的优化方案是:
1)在应用层面增加数据压缩,降低网络传输的开销。(例如hadoop/hbase 使用lzo压缩)
2)在网络架构上,可以通过网卡bonding。绑定两个千兆网卡,可以增加到2000Mbps的流量,会在很大程度上缓解压力。
3)尝试使用异步模式。根据有些应用的特征,事件驱动模型和异步策略可以实现IO复用,在一定程度上控制网络传输的效率,缓解负载的压力。Linux asynchronous I/O可以参考http://www.ibm.com/developerworks/linux/library/l-async/
总结:系统性能分析的实践方法是一个涉及多个领域的知识积累,下图表示了一个系统分析的Trace方法。
From Binospace, post 系统性能分析的实践方法
文章的脚注信息由WordPress的wp-posturl插件自动生成
相关推荐
pandas whl安装包,对应各个python版本和系统(具体看资源名字),找准自己对应的下载即可! 下载后解压出来是已.whl为后缀的安装包,进入终端,直接pip install pandas-xxx.whl即可,非常方便。 再也不用担心pip联网下载网络超时,各种安装不成功的问题。
基于java的大学生兼职信息系统答辩PPT.pptx
基于java的乐校园二手书交易管理系统答辩PPT.pptx
tornado-6.4-cp38-abi3-musllinux_1_1_i686.whl
Android Studio Ladybug 2024.2.1(android-studio-2024.2.1.10-mac.dmg)适用于macOS Intel系统,文件使用360压缩软件分割成两个压缩包,必须一起下载使用: part1: https://download.csdn.net/download/weixin_43800734/89954174 part2: https://download.csdn.net/download/weixin_43800734/89954175
有学生和教师两种角色 登录和注册模块 考场信息模块 考试信息模块 点我收藏 功能 监考安排模块 考场类型模块 系统公告模块 个人中心模块: 1、修改个人信息,可以上传图片 2、我的收藏列表 账号管理模块 服务模块 eclipse或者idea 均可以运行 jdk1.8 apache-maven-3.6 mysql5.7及以上 tomcat 8.0及以上版本
tornado-6.1b2-cp38-cp38-macosx_10_9_x86_64.whl
Android Studio Ladybug 2024.2.1(android-studio-2024.2.1.10-mac.dmg)适用于macOS Intel系统,文件使用360压缩软件分割成两个压缩包,必须一起下载使用: part1: https://download.csdn.net/download/weixin_43800734/89954174 part2: https://download.csdn.net/download/weixin_43800734/89954175
matlab
基于java的毕业生就业信息管理系统答辩PPT.pptx
随着高等教育的普及和毕业设计的日益重要,为了方便教师、学生和管理员进行毕业设计的选题和管理,我们开发了这款基于Web的毕业设计选题系统。 该系统主要包括教师管理、院系管理、学生管理等多个模块。在教师管理模块中,管理员可以新增、删除教师信息,并查看教师的详细资料,方便进行教师资源的分配和管理。院系管理模块则允许管理员对各个院系的信息进行管理和维护,确保信息的准确性和完整性。 学生管理模块是系统的核心之一,它提供了学生选题、任务书管理、开题报告管理、开题成绩管理等功能。学生可以在此模块中进行毕业设计的选题,并上传任务书和开题报告,管理员和教师则可以对学生的报告进行审阅和评分。 此外,系统还具备课题分类管理和课题信息管理功能,方便对毕业设计课题进行分类和归档,提高管理效率。在线留言功能则为学生、教师和管理员提供了一个交流互动的平台,可以就毕业设计相关问题进行讨论和解答。 整个系统设计简洁明了,操作便捷,大大提高了毕业设计的选题和管理效率,为高等教育的发展做出了积极贡献。
这个数据集来自世界卫生组织(WHO),包含了2000年至2015年期间193个国家的预期寿命和相关健康因素的数据。它提供了一个全面的视角,用于分析影响全球人口预期寿命的多种因素。数据集涵盖了从婴儿死亡率、GDP、BMI到免疫接种覆盖率等多个维度,为研究者提供了丰富的信息来探索和预测预期寿命。 该数据集的特点在于其跨国家的比较性,使得研究者能够识别出不同国家之间预期寿命的差异,并分析这些差异背后的原因。数据集包含22个特征列和2938行数据,涉及的变量被分为几个大类:免疫相关因素、死亡因素、经济因素和社会因素。这些数据不仅有助于了解全球健康趋势,还可以辅助制定公共卫生政策和社会福利计划。 数据集的处理包括对缺失值的处理、数据类型转换以及去重等步骤,以确保数据的准确性和可靠性。研究者可以使用这个数据集来探索如教育、健康习惯、生活方式等因素如何影响人们的寿命,以及不同国家的经济发展水平如何与预期寿命相关联。此外,数据集还可以用于预测模型的构建,通过回归分析等统计方法来预测预期寿命。 总的来说,这个数据集是研究全球健康和预期寿命变化的宝贵资源,它不仅提供了历史数据,还为未来的研究和政策制
基于微信小程序的高校毕业论文管理系统小程序答辩PPT.pptx
基于java的超市 Pos 收银管理系统答辩PPT.pptx
基于java的网上报名系统答辩PPT.pptx
基于java的网上书城答辩PPT.pptx
婚恋网站 SSM毕业设计 附带论文 启动教程:https://www.bilibili.com/video/BV1GK1iYyE2B
基于java的戒烟网站答辩PPT.pptx
基于微信小程序的“健康早知道”微信小程序答辩PPT.pptx
Capital Bikeshare 数据集是一个包含从2020年5月到2024年8月的自行车共享使用情况的数据集。这个数据集记录了华盛顿特区Capital Bikeshare项目中自行车的租赁模式,包括了骑行的持续时间、开始和结束日期时间、起始和结束站点、使用的自行车编号、用户类型(注册会员或临时用户)等信息。这些数据可以帮助分析和预测自行车共享系统的需求模式,以及了解用户行为和偏好。 数据集的特点包括: 时间范围:覆盖了四年多的时间,提供了长期的数据观察。 细节丰富:包含了每次骑行的详细信息,如日期、时间、天气条件、季节等,有助于深入分析。 用户分类:数据中区分了注册用户和临时用户,可以分析不同用户群体的使用习惯。 天气和季节因素:包含了天气情况和季节信息,可以研究这些因素对骑行需求的影响。 通过分析这个数据集,可以得出关于自行车共享使用模式的多种见解,比如一天中不同时间段的使用高峰、不同天气条件下的使用差异、季节性变化对骑行需求的影响等。这些信息对于城市规划者、交通管理者以及自行车共享服务提供商来说都是非常宝贵的,可以帮助他们优化服务、提高效率和满足用户需求。同时,这个数据集也