近段时间,再忙着找实习,经常被问到的,关于linux系统性能的指标,比如对于一台linux机器来说,怎么监控它的CPU,内存,负载等情况;怎样算高负载,具体的依据是什么?等等这类问题,下面就好好总结一下这方面知识吧~
由于能力有限,可能总结的不是很全面,不是很正确,有错漏的,欢迎大家帮忙指出,谢谢
一、查看CPU使用情况
cpu使用率反映的是当前cpu的繁忙程度,忽高忽低的原因在于占用cpu处理时间的进程可能处于io等待状态但却还未释放进入wait。
平均负载(load average)是指某段时间内占用cpu时间的进程和等待cpu时间的进程数,这里等待cpu时间的进程是指等待被唤醒的进程,不包括处于wait状态进程。
-
CPU利用率:User Time <= 70%,System Time <= 35%,User Time + System Time <= 70%。
-
上下文切换:与CPU利用率相关联,如果CPU利用率状态良好,大量的上下文切换也是可以接受的。
-
可运行队列:每个处理器的可运行队列<=3个线程。
2、工具
(1)vmstat
字段说明:
r (run queue)可运行队列的线程数,这些线程都是可运行状态,只不过CPU暂时不可用;
b,被blocked的进程数,正在等待IO请求;
(2)uptime
[root@node1 ~]# uptime
00:44:22 up 1:17, 3 users, load average: 8.13, 5.90, 4,94
显示的是过去的1,5,15分钟内进程队列中的平均进程数量
如何衡量当前系统是否负载过高?
如果每个cpu(可以按CPU核心的数量计算)上当前活动进程数不大于3,则系统性能良好,
不大于4,表示可以接受
如大于5,则系统性能问题严重
上面例中的8.13,如果有2个cpu核心,则8.13/2=4.065, 此系统性能可以接受
建议设置严格的报警值为: CPU核心的数量
比如:CPU核心数量为2,则设置报警值为2
(3)top
[root@node1 ~]# top
top - 10:31:45 up 14:51, 3 users, load average: 0.07, 0.33, 0.33
Tasks: 91 total, 1 running, 90 sleeping, 0 stopped, 0 zombie
Cpu(s): 0.0%us, 0.2%sy, 0.0%ni, 99.8%id, 0.0%wa, 0.0%hi, 0.0%si, 0.0%st
Mem: 502288k total, 494648k used, 7640k free, 220k buffers
Swap: 1015800k total, 21792k used, 994008k free, 238468k cached
从top 要看CPU负载情况,可以看%us和%sy,其中%us<=70%, %sy<=35%,%us+%sy<=70%说明状态良好,同时可以结合idle值来看,也就是%id,如果%id<=70% 则表示IO的压力较大
查看某个进程占用的CPU资源
-
swap in (si) == 0,swap out (so) == 0
-
应用程序可用内存/系统物理内存 <= 70%
2、监控工具
(1)vmstat
参数说明:
(2)free
-
iowait % < 20%
-
提高命中率的一个简单方式就是增大文件缓存区面积,缓存区越大预存的页面就越多,命中率也越高。
-
Linux 内核希望能尽可能产生次缺页中断(从文件缓存区读),并且能尽可能避免主缺页中断(从硬盘读),这样随着次缺页中断的增多,文件缓存区也逐步增大,直到系统只有少量可用物理内存的时候 Linux 才开始释放一些不用的页。
2、监控工具
(1)
这台机器总共有 256MB 物理内存(MemTotal),90MB 左右可用内存(MemFree),8MB左右用来做磁盘缓存(Buffers),40MB左右用来做文件缓存区(Cached)。
(2)sar
-
await表示平均每次设备I/O操作的等待时间(以毫秒为单位)。
-
svctm表示平均每次设备I/O操作的服务时间(以毫秒为单位)。
-
%util表示一秒中有百分之几的时间用于I/O操作。
-
如果svctm的值与await很接近,表示几乎没有I/O等待,磁盘性能很好,如果await的值远高于svctm的值,则表示I/O队列等待太长,系统上运行的应用程序将变慢。
-
如果%util接近100%,表示磁盘产生的I/O请求太多,I/O系统已经满负荷的在工作,该磁盘可能存在瓶颈。
(3)iostat
rrqm/s: 每秒进行 merge 的读操作数目。即 delta(rmerge)/s
wrqm/s: 每秒进行 merge 的写操作数目。即 delta(wmerge)/s
r/s: 每秒完成的读 I/O 设备次数。即 delta(rio)/s
w/s: 每秒完成的写 I/O 设备次数。即 delta(wio)/s
rsec/s: 每秒读扇区数。即 delta(rsect)/s
wsec/s: 每秒写扇区数。即 delta(wsect)/s
rkB/s: 每秒读K字节数。是 rsect/s 的一半,因为每扇区大小为512字节。(需要计算)
wkB/s: 每秒写K字节数。是 wsect/s 的一半。(需要计算)
avgrq-sz: 平均每次设备I/O操作的数据大小 (扇区)。delta(rsect+wsect)/delta(rio+wio)
avgqu-sz: 平均I/O队列长度。即 delta(aveq)/s/1000 (因为aveq的单位为毫秒)。
await: 平均每次设备I/O操作的等待时间 (毫秒)。即 delta(ruse+wuse)/delta(rio+wio)
svctm: 平均每次设备I/O操作的服务时间 (毫秒)。即 delta(use)/delta(rio+wio)
%util: 一秒中有百分之多少的时间用于 I/O 操作,或者说一秒中有多少时间 I/O 队列是非空的。即 delta(use)/s/1000 (因为use的单位为毫秒)
如果 %util 接近 100%,说明产生的I/O请求太多,I/O系统已经满负荷,该磁盘可能存在瓶颈。
idle小于70% IO压力就较大了,一般读取速度有较多的wait.
同时可以结合vmstat 查看查看b参数(等待资源的进程数)和wa参数(IO等待所占用的CPU时间的百分比,高过30%时IO压力高)
四、Network IO
接收、发送缓冲区不长时间有等待处理的网络包
RecvQ、SendQ为0,或者不长时间有数值是比较正常的。
对于UDP服务,查看丢包情况(网卡收到了,但是应用层没有处理过来造成的丢包)
如果packet receive errors 这一项数值增长了,则表明在丢包
对于TCP
1、良好状态指标
对于TCP而言,不会出现因为缓存不足而存在丢包的事,因为网络等其他原因,导致丢了包,协议层也会通过重传机制来保证丢的包到达对方。
所以,tcp而言更多的专注重传率。
2、监控工具
重传率 = RetransSegs / OutSegs
至于这个值在多少范围内,算ok的,得看具体的业务了。
业务则更关注的是响应时间。
五、查看文件句柄数(文件描述符)
查看系统默认的最大文件句柄数,系统默认是1024
# ulimit -n
1024
查看当前进程打开了多少句柄数
# lsof -n|awk '{print $1,$2}'|sort|uniq -c|sort -nr|more
[root@node1 ~]# lsof -n|awk '{print $1,$2}'|sort|uniq -c|sort -nr
125 master 1507
58 sshd 1577
48 mysqld 1451
45 qmgr 1526
45 pickup 1665
36 sshd 1100
20 rsyslogd 1064
20 init 1
19 crond 1527
18 udevd 436
........
其中第一列是打开的句柄数,第二列是进程ID。
可以根据ID号来查看进程名。
# ps aef|grep 24204
nginx 24204 24162 99 16:15 ? 00:24:25 /usr/local/nginx/sbin/nginx -s
相关推荐
《经典 Linux系统性能监控 中文版》是一本深入浅出的Linux性能监控指南,它针对的是那些希望理解和优化Linux系统性能的技术人员。该书虽然基于较为传统的概念和技术,但其内容扎实,阐述清晰,覆盖了从基础到进阶的...
系统性能指标分析,实时采集系统性能指标,然后下载文件并打开
实时性能测试是衡量嵌入式Linux系统性能的重要指标之一,通过对实时性能的测试,可以了解系统的实时性和可靠性。本文中,我们对嵌入式Linux系统进行了软硬件协同测试,结果表明,经过实时化改造后的Linux系统其实时...
通过合理选择测试策略和工具,结合关键性能指标的分析,我们可以对Linux系统的性能有深入的理解,从而更好地提升系统性能,满足各种业务需求。无论是服务器端应用、桌面环境还是嵌入式系统,性能测试都是确保系统...
【Linux系统性能的远程监控】 Linux操作系统在各个领域得到了广泛应用,尤其在服务器市场占据着重要地位。为了确保服务器的稳定运行,对Linux系统的性能进行实时监控至关重要。传统的监控方法依赖于操作员定期手动...
"Linux 服务器性能参数指标总结" 1. CPU 和内存类 parameter 指标总结: 在 Linux 服务器中,CPU 和内存是两个最重要的性能参数指标。...系统性能监控可以通过 top、perf、systemtap 等工具来实现。
Linux性能调优是系统管理员和开发人员优化Linux系统性能的重要技能。它涉及对系统资源和应用程序的分析、监控、和调整,以实现更高的效率和响应速度。本篇学习笔记详细介绍了性能分析的步骤、优化工具、性能指标的...
### Linux系统性能测试关键知识点详解 #### 一、性能监控工具与目录 在Linux系统中进行性能测试,有几个核心的工具和目录是必不可少的。这些工具可以帮助我们深入了解系统的运行状态,包括CPU使用率、内存使用情况...
本篇主要关注Linux操作系统的CPU相关指标监控,这对于我们理解和优化系统性能至关重要。 首先,CPU利用率是衡量系统繁忙程度的重要指标。它分为用户空间CPU使用率(user)、内核空间CPU使用率(sys)以及空闲时间...
Linux系统性能分析是一个至关重要的任务,特别是在服务器管理和优化过程中。NMON(Nigel's Monitoring Tool for AIX and Linux)是一款强大的工具,专为Linux系统设计,用于实时监控和记录系统的性能数据,包括CPU、...
linux系统性能调优工具大集合
### Linux系统性能问题分析思路指引 #### 一、性能三要素及分析方法 在Linux系统中,当遇到性能问题时,通常需要从以下几个方面进行综合分析: 1. **I/O (Input/Output)**:I/O操作是导致系统性能瓶颈的一个常见...
通过对这些性能指标的持续监控和分析,可以及时发现并解决潜在的系统瓶颈,确保Linux系统的稳定性和高效运行。理解这些指标的具体含义和参考范围对于系统管理员和开发人员来说至关重要,有助于他们做出合理的资源...
运维人员需要持续关注系统性能指标,及时发现和解决潜在问题,以确保业务连续性和服务质量。同时,随着技术的发展,自动化和智能化的监控工具也在不断涌现,帮助运维团队更高效地管理和维护复杂的Linux环境。