linux性能分析工具

teasp

浏览: 62490 次
性别:
来自: 深圳

最近访客更多访客>>

dongguangming88

liuqi214

soberlevi

hx1993

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

博客分类：

备忘杂记

   Linux在具有高稳定性、可靠性的同时，具有很好的可伸缩性和扩展性，能够针对不同的应用和硬件环境调整，优化出满足当前应用需要的最佳性能。因此企业在维护Linux系统、进行系统调优时，了解系统性能分析工具是至关重要的。
　　在Linux下有很多系统性能分析工具，比较常见的有top、free、ps、time、timex、uptime、vmstat、iostat和sar等。
在安装系统时要选择安装sysstat软件包，才会有iostat命令。Sysstat 是一个软件包，包含监测系统性能及效率的一组工具，这些工具对于我们收集系统性能数据，比如CPU使用率、硬盘和网络吞吐数据，这些数据的收集和分析，有利于我们判断系统是否正常运行，是提高系统运行效率、安全运行服务器的得力助手。建议用rpm包安装，比较简单（哈，我最近喜欢用rpm包了，源码包有点麻烦，必要用的时候我才用，能省则省，简单），
工具
功能描述
uptime
系统平均负载率
dmesg
硬件/系统信息
top
进程进行状态
iostat
CPU和磁盘平均使用率
vmstat
系统运行状态
sar
实时收集系统使用状态
KDE System Guard
图形监控工具
free
内存使用率
traffic-vis
网络监控（只有SUSE有）
pmap
进程内存占用率
strace
追踪程序运行状态
ulimit
系统资源使用限制
mpstat
多处理器使用率
Sysstat 软件包集成如下工具：
* iostat 工具提供CPU使用率及硬盘吞吐效率的数据；
* mpstat 工具提供单个处理器或多个处理器相关数据；
* sar 工具负责收集、报告并存储系统活跃的信息；
* sa1 工具负责收集并存储每天系统动态信息到一个二进制的文件中。它是通过计划任务工具cron来运行，
是为sadc所设计的程序前端程序；
* sa2 工具负责把每天的系统活跃性息写入总结性的报告中。它是为sar所设计的前端，要通过cron来调用
* sadc 是系统动态数据收集工具，收集的数据被写一个二进制的文件中，它被用作sar工具的后端；
* sadf 显示被sar通过多种格式收集的数据；

iostat
  iostat是sysstat的一部分，如果你没有安装这个包，在Red Hat Enterprise Linux光盘中找到sysstat的rpm包进行安装。Iostat显示自系统启动后的平均CPU时间（与uptime类似），它也可以显示磁盘子系统的使用情况，iostat可以用来监测CPU利用率和磁盘利用率。下图是一个命令输出的示例，
  CPU利用率分四个部分：
%user：user level（应用）的CPU占用率情况
%nice：加入nice优先级的user level的CPU占用率情况
％sys：system level（内核）的CPU占用情况
%idle：空闲的CPU资源情况
磁盘占用率有下面几个部分：
Device：块设备名
Tps：设备每秒进行传输的数量（每秒的I/O请求）。多个单独的I/O请求可以被组成一个传输操作，因为一个传输操作可以是不同的容量。
Blk_read/s, Blk_wrtn/s：该设备每秒读写的块的数量。块可能为不同的容量。块的大小一般为1024、2048、4048byte。例如，块设备/dev/sda1的块大小可以通过下面命令查看
# dumpe2fs -h /dev/sda1 |grep -F "Block size"
会得到类似下面的输出
dumpe2fs 1.34 (25-Jul-2003)
Block size: 1024
Blk_read, Blk_wrtn：自系统启动以来读写的块设备的总量。
vmstat
  Vmstat命令提供了对进程、内存、页面I/O块和CPU等信息的监控，vmstat可以显示检测结果的平均值或者取样值，取样模式可以提供一个取样时间段内不同频率的监测结果。下面是一个vmstat命令的输出结果的示例。
注：在取样模式中需要考虑在数据收集中可能出现的误差，将取样频率设为比较低的值可以尽可能的减小误差的影响。
  下面介绍一下各列的含义
·process（procs）
r：等待运行时间的进程数量
b：处在不可中断睡眠状态的进程
w：被交换出去但是仍然可以运行的进程，这个值是计算出来的
·memoryswpd：虚拟内存的数量
free：空闲内存的数量
buff：用做缓冲区的内存数量
·swap
si：从硬盘交换来的数量
so：交换到硬盘去的数量
·IO
bi：向一个块设备输出的块数量
bo：从一个块设备接受的块数量
·system
in：每秒发生的中断数量，包括时钟
cs：每秒发生的context switches的数量
·cpu(整个cpu运行时间的百分比)
us：非内核代码运行的时间（用户时间，包括nice时间）
sy：内核代码运行的时间（系统时间）
id：空闲时间，在Linux 2.5.41之前的内核版本中，这个值包括I/O等待时间
等待I/O操作的时间，在Linux 2.5.41之前的内核版本中这个值为0
Vmstat命令提供了大量的附加参数，可以参考vmstat的man手册去查询所有的参数，下面列举几个十分有用的参数。
·m：显示内核的内存利用率
·a：显示内存页面信息，包括活跃和不活跃的内存页面
·n：显示报头行，这个参数在使用取样模式并将命令结果输出到一个文件时非常有用。例如root#vmstat –n 2 10以2秒的频率显示10输出结果
·当使用-p {分区}时，vmstat提供对I/O结果的统计
sar
sar程序是sysstat安装包的一部分，如果你没有安装这个包，在Red Hat Enterprise Linux的源文件中寻找这个rpm包进行安装，sar命令用于收集、报告和保存系统的信息。Sar命令由三个应用组成：sar，用与显示数据；sa1和sa2，用于收集和存储数据。关于sar工具的详细参数说明可以参考man手册。
为了以后分析日志，可以使用sa1和sa2配置系统获得并且记录日志信息。为了实现这个目的，如下图例所示向/etc/crontab中加入相应的内容。注意默认的情况下cron每天都会定时的运行sar命令，如果系统安装了sar相应的安装包。

sar 命令行的常用格式：
sar [options] [-A] [-o file] t [n]
在命令行中，n 和t 两个参数组合起来定义采样间隔和次数，t为采样间隔，是必须有
的参数，n为采样次数，是可选的，默认值是1，-o file表示将命令结果以二进制格式
存放在文件中，file 在此处不是关键字，是文件名。options 为命令行选项，sar命令
的选项很多，下面只列出常用选项：
　　　　　　-A：所有报告的总和。
　　　　　　　　-u：CPU利用率
　　　　　　　　-v：进程、I节点、文件和锁表状态。
　　　　　　　　-d：硬盘使用报告。
　　　　　　　　-r：没有使用的内存页面和硬盘块。
　　　　　　　　-g：串口I/O的情况。
-b：缓冲区使用情况。
-a：文件读写情况。
-c：系统调用情况。
-R：进程的活动情况。
-y：终端设备活动情况。
-w：系统交换活动。
下面将举例说明。
例一：使用命令行 sar -u t n
例如，每60秒采样一次，连续采样5次，观察CPU 的使用情况，并将采样结果以二进制
形式存入当前目录下的文件zhou中，需键入如下命令：
# sar -u -o zhou 60 5
屏幕显示：
　　SCO_SV　　　scosysv　3.2v5.0.5　i80386　　　10/01/2001
　　　　14:43:50　　　%usr　　　%sys　　%wio　　　　%idle(-u)
　　　　14:44:50　　　0　　　　　1　　　　4　　　　　　94
　　　　14:45:50　　　0　　　　　2　　　　4　　　　　　93
　　　　14:46:50　　　0　　　　　2　　　　2　　　　　　96
　　　　14:47:50　　　0　　　　　2　　　　5　　　　　　93
　　　　14:48:50　　　0　　　　　2　　　　2　　　　　　96
　　　　Average　　　 0　　　　　2　　　　4　　　　　　94
在显示内容包括：
　　%usr：CPU处在用户模式下的时间百分比。
　　%sys：CPU处在系统模式下的时间百分比。
　　%wio：CPU等待输入输出完成时间的百分比。
　　%idle：CPU空闲时间百分比。
在所有的显示中，我们应主要注意%wio和%idle，%wio的值过高，表示硬盘存在I/O瓶颈，
%idle值高，表示CPU较空闲，如果%idle值高但系统响应慢时，有可能是CPU等待分配内存，
此时应加大内存容量。%idle值如果持续低于10，那么系统的CPU处理能力相对较低，表
明系统中最需要解决的资源是CPU。
如果要查看二进制文件zhou中的内容，则需键入如下sar命令：
　　　　# sar -u -f zhou
可见，sar命令即可以实时采样，又可以对以往的采样结果进行查询。
例二：使用命行sar -v t n
例如，每30秒采样一次，连续采样5次，观察核心表的状态，需键入如下命令：
# sar -v 30 5
屏幕显示：
　　　　　　SCO_SV scosysv 3.2v5.0.5 i80386 10/01/2001
　　　　　　10:33:23 proc-sz ov inod-sz ov file-sz ov lock-sz　　 (-v)
10:33:53　305/　321 　0　1337/2764　 0　1561/1706　0　40/　128
10:34:23　308/　321 　0　1340/2764　 0　1587/1706　0　37/　128
10:34:53　305/　321 　0　1332/2764　 0　1565/1706　0　36/　128
10:35:23　308/　321 　0　1338/2764　 0　1592/1706　0　37/　128
10:35:53　308/　321　 0　1335/2764　 0　1591/1706　0　37/　128
显示内容包括：
proc-sz：目前核心中正在使用或分配的进程表的表项数，由核心参数MAX-PROC控制。
　　inod-sz：目前核心中正在使用或分配的i节点表的表项数，由核心参数
MAX-INODE控制。
　　file-sz：目前核心中正在使用或分配的文件表的表项数，由核心参数MAX-FILE控
制。
　　ov：溢出出现的次数。
　　Lock-sz：目前核心中正在使用或分配的记录加锁的表项数，由核心参数MAX-FLCKRE
控制。
显示格式为
实际使用表项/可以使用的表项数
显示内容表示，核心使用完全正常，三个表没有出现溢出现象，核心参数不需调整，如
果出现溢出时，要调整相应的核心参数，将对应的表项数加大。
例三：使用命行sar -d t n
例如，每30秒采样一次，连续采样5次，报告设备使用情况，需键入如下命令：
# sar -d 30 5
屏幕显示：
　　　　　　SCO_SV scosysv 3.2v5.0.5 i80386 10/01/2001
11:06:43 device　%busy　　　avque　　　r+w/s　　blks/s　　avwait avserv (-d)
11:07:13 wd-0　　　1.47　　　2.75　　　4.67　　　14.73　　 5.50 3.14
11:07:43 wd-0　　　0.43　　　18.77　　 3.07　　　8.66　　　25.11 1.41
11:08:13 wd-0　　　0.77　　　2.78　　　2.77　　　7.26　　　4.94 2.77
11:08:43 wd-0　　　1.10　　　11.18　　 4.10　　　11.26　　 27.32 2.68
11:09:13 wd-0　　　1.97　　　21.78　　 5.86　　　34.06　　　69.66 3.35
Average wd-0　　　1.15　　　12.11　　 4.09　　　15.19　　　31.12 2.80
显示内容包括：
device： sar命令正在监视的块设备的名字。
　　%busy：设备忙时，传送请求所占时间的百分比。
　　avque：队列站满时，未完成请求数量的平均值。
　　r+w/s：每秒传送到设备或从设备传出的数据量。
　　blks/s：每秒传送的块数，每块512字节。
　　avwait：队列占满时传送请求等待队列空闲的平均时间。
　　avserv：完成传送请求所需平均时间（毫秒）。
在显示的内容中，wd-0是硬盘的名字，%busy的值比较小，说明用于处理传送请求的有
效时间太少，文件系统效率不高，一般来讲，%busy值高些，avque值低些，文件系统
的效率比较高，如果%busy和avque值相对比较高，说明硬盘传输速度太慢，需调整。
例四：使用命行sar -b t n
例如，每30秒采样一次，连续采样5次，报告缓冲区的使用情况，需键入如下命令：
# sar -b 30 5
屏幕显示：
　　SCO_SV scosysv 3.2v5.0.5 i80386 10/01/2001
14:54:59 bread/s lread/s %rcache bwrit/s lwrit/s %wcache pread/s pwrit/s (-b)
14:55:29　0　　147　　100　 5　　21　　78　　 0　　　0
14:55:59　0　　186　　100　 5　　25　　79　　 0　　　0
14:56:29　4　　232 　　98　 8　　58　　86　　 0　　　0
14:56:59　0　　125　　100　 5　　23　　76　　 0　　　0
14:57:29　0　　 89　　100　 4　　12　　66　　 0　　　0
Average　 1　　156 　　99　 5　　28　　80　　 0　　　0
显示内容包括：
bread/s：每秒从硬盘读入系统缓冲区buffer的物理块数。
lread/s：平均每秒从系统buffer读出的逻辑块数。
%rcache：在buffer cache中进行逻辑读的百分比。
bwrit/s：平均每秒从系统buffer向磁盘所写的物理块数。
lwrit/s：平均每秒写到系统buffer逻辑块数。
%wcache：在buffer cache中进行逻辑读的百分比。
pread/s：平均每秒请求物理读的次数。
pwrit/s：平均每秒请求物理写的次数。
在显示的内容中，最重要的是%cache和%wcache两列，它们的值体现着buffer的使用效
率，%rcache的值小于90或者%wcache的值低于65，应适当增加系统buffer的数量，buffer
数量由核心参数NBUF控制，使%rcache达到90左右，%wcache达到80左右。但buffer参数
值的多少影响I/O效率，增加buffer，应在较大内存的情况下，否则系统效率反而得不到
提高。
例五：使用命行sar -g t n
例如，每30秒采样一次，连续采样5次，报告串口I/O的操作情况，需键入如下命令：
# sar -g 30 5
屏幕显示：
SCO_SV scosysv 3.2v5.0.5 i80386　　11/22/2001
17:07:03 　ovsiohw/s　 ovsiodma/s　　ovclist/s (-g)
17:07:33　　　0.00　　　0.00　　　0.00
17:08:03　　　0.00　　　0.00　　　0.00
17:08:33　　　0.00　　　0.00　　　0.00
17:09:03　　　0.00　　　0.00　　　0.00
17:09:33　　　0.00　　　0.00　　　0.00
Average 　　　0.00　　　0.00　　　0.00
显示内容包括：
ovsiohw/s：每秒在串口I/O硬件出现的溢出。
ovsiodma/s：每秒在串口I/O的直接输入输出通道高速缓存出现的溢出。
ovclist/s ：每秒字符队列出现的溢出。
在显示的内容中，每一列的值都是零，表明在采样时间内，系统中没有发生串口I/O溢
出现象。
sar命令的用法很多，有时判断一个问题，需要几个sar命令结合起来使用，比如，怀疑
CPU存在瓶颈，可用sar -u 和sar -q来看，怀疑I/O存在瓶颈，可用sar -b、sar -u和sar-d来看。
--------------------------------------------------------------------------------
Sar
-A 所有的报告总和
-a 文件读，写报告
-B 报告附加的buffer cache使用情况
-b buffer cache使用情况
-c 系统调用使用报告
-d 硬盘使用报告
-g 有关串口I/O情况
-h 关于buffer使用统计数字
-m IPC消息和信号灯活动
-n 命名cache
-p 调页活动
-q 运行队列和交换队列的平均长度
-R 报告进程的活动
-r 没有使用的内存页面和硬盘块
-u CPU利用率
-v 进程，i节点，文件和锁表状态
-w 系统交换活动
-y TTY设备活动
-a 报告文件读，写报告
sar –a 5 5
SCO_SV scosvr 3.2v5.0.5 PentII(D)ISA 06/07/2002
11:45:40 iget/s namei/s dirbk/s (-a)
11:45:45 6 2 2
11:45:50 91 20 28
11:45:55 159 20 18
11:46:00 157 21 19
11:46:05 177 30 35
Average 118 18 20
iget/s 每秒由i节点项定位的文件数量
namei/s 每秒文件系统路径查询的数量
dirbk/s 每秒所读目录块的数量
＊这些值越大，表明核心花在存取用户文件上的时间越多，它反映着一些程序和应用文件系统产生的负荷。一般地，如果iget/s与namei/s的比值大于5，并且namei/s的值大于30，则说明文件系统是低效的。这时需要检查文件系统的自由空间，看看是否自由空间过少。
-b 报告缓冲区（buffer cache）的使用情况
sar -b 2 3
SCO_SV scosvr 3.2v5.0.5 PentII(D)ISA 06/07/2002
13:51:28 bread/s lread/s %rcache bwrit/s lwrit/s %wcache pread/s pwrit/s (-b)
13:51:30 382 1380 72 131 273 52 0 0
13:51:32 378 516 27 6 22 72 0 0
13:51:34 172 323 47 39 57 32 0 0
Average 310 739 58 58 117 50 0 0
bread/s 平均每秒从硬盘（或其它块设备）读入系统buffer的物理块数
lread/s 平均每秒从系统buffer读出的逻辑块数
%rcache 在buffer cache中进行逻辑读的百分比（即100％ - bread/lreads）
bwrit/s 平均每秒从系统buffer向磁盘（或其它块设备）所写的物理块数
lwrit/s 平均每秒写到系统buffer的逻辑块数
%wcache 在buffer cache中进行逻辑写的百分比（即100％ - bwrit/lwrit）.
pread/sgu 平均每秒请求进行物理读的次数
pwrit/s 平均每秒请求进行物理写的次数
＊所显示的内容反映了目前与系统buffer有关的读，写活。在所报告的数字中，最重要的是%rcache和%wcache（统称为cache命中率）两列，它们具体体现着系统buffer的效率。衡量cache效率的标准是它的命中率值的大小。
＊如果%rcache的值小于90或者%wcache的值低于65，可能就需要增加系统buffer的数量。如果在系统的应用中，系统的I/O活动十分频繁，并且在内存容量配置比较大时，可以增加buffer cache，使%rcache达到95左右，%wcache达到80左右。
＊系统buffer cache中，buffer的数量由核心参数NBUF控制。它是一个要调的参数。系统中buffer数量的多少是影响系统I/O效率的瓶颈。要增加系统buffer数量，则要求应该有较大的内存配置。否则一味增加buffer数量，势必减少用户进程在内存中的运行空间，这同样会导致系统效率下降。
-c 报告系统调用使用情况
sar -c 2 3
SCO_SV scosvr 3.2v5.0.5 PentII(D)ISA 06/07/2002
17:02:42 scall/s sread/s swrit/s fork/s exec/s rchar/s wchar/s (-c)
17:02:44 2262 169 141 0.00 0.00 131250 22159
17:02:46 1416 61 38 0.00 0.00 437279 6464
17:02:48 1825 43 25 0.00 0.00 109397 42331
Average 1834 91 68 0.00 0.00 225975 23651
scall/s 每秒使用系统调用的总数。一般地，当4~6个用户在系统上工作时，每秒大约30个左右。
sread/s 每秒进行读操作的系统调用数量。
swrit/s 每秒进行写操作的系统调用数量。
fork/s 每秒fork系统调用次数。当4~6个用户在系统上工作时，每秒大约0.5秒左右。
exec/s 每秒exec系统调用次数。
rchar/s 每秒由读操作的系统调用传送的字符（以字节为单位）。
wchar/s 每秒由写操作的系统调用传送的字符（以字节为单位）。
＊如果scall/s持续地大于300，则表明正在系统中运行的可能是效率很低的应用程序。在比较
典型的情况下，进行读操作的系统调用加上进行写操作的系统调用之和，约是scall的一半左右。
-d 报告硬盘使用情况
sar -d 2 3
SCO_SV scosvr 3.2v5.0.5 PentII(D)ISA 06/07/2002
17:27:49 device %busy avque r+w/s blks/s avwait avserv (-d)
17:27:51 ida-0 6.93 1.00 13.86 259.41 0.00 5.00
ida-1 0.99 1.00 17.33 290.10 0.00 0.57
17:27:53 ida-0 75.50 1.00 54.00 157.00 0.00 13.98
ida-1 9.50 1.00 12.00 75.00 0.00 7.92
17:27:55 ida-0 7.46 1.00 46.77 213.93 0.00 1.60
ida-1 17.41 1.00 57.71 494.53 0.00 3.02
Average ida-0 29.85 1.00 38.14 210.28 0.00 7.83
ida-1 9.29 1.00 29.02 286.90 0.00 3.20
device 这是sar命令正在监视的块设备的名字。
%busy 设备忙时，运行传送请求所占用的时间。这个值以百分比表示。
avque 在指定的时间周期内，没有完成的请求数量的平均值。仅在队列被占满时取这个值。
r+w/s 每秒传送到设备或者从设备传送出的数据量。
blks/s 每秒传送的块数。每块512个字节。
avwait 传送请求等待队列空闲的平均时间（以毫秒为单位）。仅在队列被占满时取这个值。
avserv 完成传送请求所需平均时间（以毫秒为单位）
＊ida-0和ida-1是硬盘的设备名字。在显示的内容中，如果%busy的值比较小，说明用于处理
传送请求的有效时间太少，文件系统的效率不高。要使文件系统的效率得到优化，应使%busy的数值相对高一些，而avque的值应该低一些。
-g 报告有关串口I/O情况
sar -g 3 3
SCO_SV scosvr 3.2v5.0.5 PentII(D)ISA 06/13/2002
11:10:09 ovsiohw/s ovsiodma/s ovclist/s (-g)
11:10:12 0.00 0.00 0.00
11:10:15 0.00 0.00 0.00
11:10:18 0.00 0.00 0.00
Average 0.00 0.00 0.00
ovsiohw/s 每秒在串囗I/O硬件出现的溢出。
ovsiodma/s 每秒在串囗I/O的直接输入，输出信道高速缓存出现的溢出。
ovclist/s 每秒字符队列出现的溢出。
-m 报告进程间的通信活动（IPC消息和信号灯活动）情况
sar -m 4 3
SCO_SV scosvr 3.2v5.0.5 PentII(D)ISA 06/13/2002
13:24:28 msg/s sema/s (-m)
13:24:32 2.24 9.95
13:24:36 2.24 21.70
13:24:40 2.00 36.66
Average 2.16 22.76
msg/s 每秒消息操作的次数（包括发送消息的接收信息）。
sema/s 每秒信号灯操作次数。
＊信号灯和消息作为进程间通信的工具，如果在系统中运行的应用过程中没有使用它们，那么由sar命令报告的msg 和sema的值都将等于0.00。如果使用了这些工具，并且其中或者msg/s大于100，或者sema/s大于100，则表明这样的应用程序效率比较低。原因是在这样的应用程序中，大量的时间花费在进程之间的沟通上，而对保证进程本身有效的运行时间必然产生不良的影响。
-n 报告命名缓冲区活动情况
sar -n 4 3
SCO_SV scosvr 3.2v5.0.5 PentII(D)ISA 06/13/2002
13:37:31 c_hits cmisses (hit %) (-n)
13:37:35 1246 71 (94%)
13:37:39 1853 81 (95%)
13:37:43 969 56 (94%)
Average 1356 69 (95%)
c_hits cache命中的数量。
cmisses cache未命中的数量。
(hit %) 命中数量/(命中数理+未命中数量)。
＊不难理解，(hit %)值越大越好，如果它低于90％，则应该调整相应的核心参数。
-p 报告分页活动
sar -p 5 3
SCO_SV scosvr 3.2v5.0.5 PentII(D)ISA 06/13/2002
13:45:26 vflt/s pflt/s pgfil/s rclm/s (-p)
13:45:31 36.25 50.20 0.00 0.00
13:45:36 32.14 58.48 0.00 0.00
13:45:41 79.80 58.40 0.00 0.00
Average 49.37 55.69 0.00 0.00
vflt/s 每秒进行页面故障地址转换的数量（由于有效的页面当前不在内存中）。
pflt/s 每秒来自由于保护错误出现的页面故障数量（由于对页面的非法存，取引起的页面故障）。
pgfil/s 每秒通过”页—入”满足vflt/s的数量。
rclm/s 每秒由系统恢复的有效页面的数量。有效页面被增加到自由页面队列上。
＊如果vflt/s的值高于100，可能预示着对于页面系统来说，应用程序的效率不高，也可能分页参数需要调整，或者内存配置不太合适。
-q 报告进程队列（运行队列和交换队列的平均长度）情况
sar -q 2 3
SCO_SV scosvr 3.2v5.0.5 PentII(D)ISA 06/13/2002
14:25:50 runq-sz %runocc swpq-sz %swpocc (-q)
14:25:52 4.0 50
14:25:54 9.0 100
14:25:56 9.0 100
Average 7.3 100
runq-sz 准备运行的进程运行队列。
%runocc 运行队列被占用的时间（百分比）
swpq-sz 要被换出的进程交换队列。
%swpocc 交换队列被占用的时间（百分比）。
＊如果%runocc大于90，并且runq-sz的值大于2，则表明CPU的负载较重。其直接后果，可能使系统的响应速度降低。如果%swpocc大于20，表明交换活动频繁，将严重导致系统效率下降。解决的办法是加大内存或减少缓存区数量，从而减少交换及页—入,页—出活动。
-r 报告内存及交换区使用情况（没有使用的内存页面和硬盘块）
sar -r 2 3
SCO_SV scosvr 3.2v5.0.5 PentII(D)ISA 06/14/2002
10:14:19 freemem freeswp availrmem availsmem (-r)
10:14:22 279729 6673824 93160 1106876
10:14:24 279663 6673824 93160 1106876
10:14:26 279661 6673824 93160 1106873
Average 279684 6673824 93160 1106875
freemem 用户进程可以使用的内存页面数，4KB为一个页面。
freeswp 用于进程交换可以使用的硬盘盘块，512B为一个盘块。
-u CPU利用率
sar -u 2 3
SCO_SV scosvr 3.2v5.0.5 PentII(D)ISA 06/14/2002
10:27:23 %usr %sys %wio %idle (-u)
10:27:25 2 3 8 88
10:27:27 3 3 5 89
10:27:29 0 0 0 100
Average 2 2 4 92
.
%usr cpu处在用户模式下时间（百分比）
%sys cpu处在系统模式下时间（百分比）
%wio cpu等待输入，输出完成（时间百分比）
%idle cpu空闲时间（百分比）
＊在显示的内容中，%usr和 %sys这两个值一般情况下对系统无特别影响，%wio的值不能太高，如果%wio的值过高，则CPU花在等待输入，输出上的时间太多，这意味着硬盘存在I/O瓶颈。如果%idle的值比较高，但系统响应并不快，那么这有可能是CPU花时间等待分配内存引起的。%idle的值可以较深入帮助人们了解系统的性能，在这种情况上，%idle的值处于40~100之间，一旦它持续低于30，则表明进程竟争的主要资源不是内存而是CPU。
＊在有大量用户运行的系统中，为了减少CPU的压力，应该使用智能多串卡，而不是非智能多串卡。智能多串卡可以承担CPU的某些负担。
＊此外，如果系统中有大型的作业运行，应该把它们合理调度，错开高峰，当系统相对空闲时再运行。
-v 报告系统表的内容（进程，i节点，文件和锁表状态）
sar -v 2 3
SCO_SV scosvr 3.2v5.0.5 PentII(D)ISA 06/14/2002
10:56:46 proc-sz ov inod-sz ov file-sz ov lock-sz (-v)
10:56:48 449/ 500 0 994/4147 0 1313/2048 0 5/ 128
10:56:50 450/ 500 0 994/4147 0 1314/2048 0 5/ 128
10:56:52 450/ 500 0 994/4147 0 1314/2048 0 5/ 128
proc-sz 目前在核心中正在使用或分配的进程表的表项数
inod-sz 目前在核心中正在使用或分配的i节点表的表项数
file-sz 目前在核心中正在使用或分配的文件表的表项数
ov 溢出出现的次数
lock-sz 目前在核心中正在使用或分配的记录加锁的表项数
＊除ov外，均涉及到unix的核心参数，它们分别受核心参数NPROC,NIMODE,NFILE和FLOCKREC的控制。
＊显示格式为：
实际使用表项/整个表可以使用的表项数
比如，proc-sz一列所显示的四个数字中，分母的100是系统中整个进程表的长度（可建立100个表项），分子上的24，26和25分别是采样的那一段时间所使用的进程表项。inod-sz，file-sz和lock-sz三列数字的意义也相同。
三列ov的值分别对应进程表，i节点表和文件表，表明目前这三个表都没有出现溢出现象，当出现溢出时，需要调整相应的核心参数，将对应表加大。
-w 系统交换活动
sar -w 2 3
SCO_SV scosvr 3.2v5.0.5 PentII(D)ISA 06/14/2002
11:22:05 swpin/s bswin/s swpot/s bswots pswch/s (-w)
11:22:07 0.00 0.0 0.00 0.0 330
11:22:09 0.00 0.0 0.00 0.0 892
11:22:11 0.00 0.0 0.00 0.0 1053
Average 0.00 0.0 0.00 0.0 757
swpin/s 每秒从硬盘交换区传送进入内存的次数。
bswin/s 每秒为换入而传送的块数。
swpot/s 每秒从内存传送到硬盘交换区的次数。
bswots 每秒为换出而传送的块数。
pswch/s 每秒进程交换的数量。
＊swpin/s，bswin/s，swpot/s和bswots描述的是与硬盘交换区相关的交换活动。交换关系到系统的效率。交换区在硬盘上对硬盘的读，写操作比内存读，写慢得多，因此，为了提高系统效率就应该设法减少交换。通常的作法就是加大内存，使交换区中进行的交换活动为零，或接近为零。如果swpot/s的值大于1，预示可能需要增加内存或减少缓冲区（减少缓冲区能够释放一部分自由内存空间）。
-y 报告终端的I/O活动（TTY设备活动）情况
sar -y 2 3
SCO_SV scosvr 3.2v5.0.5 PentII(D)ISA 06/14/2002
11:38:03 rawch/s canch/s outch/s rcvin/s xmtin/s mdmin/s (-y)
11:38:05 5 0 951 0 1 0
11:38:07 10 0 996 0 0 0
11:38:09 4 0 2264 0 0 0
Average 6 0 1404 0 1 0
rawch/s 每秒输入的字符数（原始队列）
canch/s 每秒由正则队列（canonical queue）处理的输入字符数。进行正则处理过程中，可以识别出一些有特殊意义的字符。比如，(中断字符)，(退出符)，(退格键)等。因此，canch/s中的计数不包括这些有特殊意义的字符。
outch/s 每秒输出的字符数。
rcvin/s 每秒接收的硬件中断次数。
xmtin/s 每秒发出的硬件中断次数。
mdmin/s 每秒modem中断次数。
＊应该特别说明，sar命令可以对任意终端活动进行统计，所谓任意终端，是指任意tty设备。它们可以是串行终端，主控台，伪终端等等。
＊在这几个量中，modem中断次数mdmin/s应该接近0。其它没有特殊要求，但如果每发送一个字符，中断的数量就动态地增加，这表明终端线出了差错，可能是接触不好。
top
Top命令显示了实际CPU使用情况，默认情况下，它显示了服务器上占用CPU的任务信息并且每5秒钟刷新一次。你可以通过多种方式分类它们，包括PID、时间和内存使用情况。
你可以使用renice命令为一个进程分配新的优先级。如果一个进程宕掉或者占用了太多的内存，可以使用kill命令杀死进程。下面是输出值的介绍，
PID：进程标识
USER；进程所有者的用户名
PRI：进程的优先级
NI：nice级别
SIZE：进程占用的内存数量（代码＋数据＋堆栈）
RSS；进程使用的物理内存数量
SHARE；该进程和其他进程共享内存的数量
STAT：进程的状态：S＝休眠状态，R＝运行状态，T＝停止状态，D＝中断休眠状态，Z＝僵尸状态
%CPU：共享的CPU使用
%MEM；共享的物理内存
TIME：进程占用CPU的时间
COMMAND：启动任务的命令行（包括参数）
Top命令有下面几个有用的热键，包括
t：是否显示概要信息
m：是否显示内存信息
A：通过不同的系统资源情况分类显示结果，对快速判断系统中影响性能的进程十分有效
f：输入一个top的交互式的配置画面
o：激活交换式的分类的选择
进程的优先级和nice级别
进程优先级是一个决定进程被CPU执行优先顺序的参数，内核会根据需要调整这个值。Nice值是一个对优先权的限制。进程优先级的值不能低于nice值。（nice值越低优先级越高）
进程优先级是无法去手动改变的，只有通过改变nice值去间接的调整进程优先级。如果一个进程运行的太慢了，你可以通过指定一个较低的nice值去为它分配更多的CPU资源。当然，这意味着其他的一些进程将被分配更少的CPU资源，运行更慢一些。Linux支持nice值的范围是19（低优先级）到-20（高优先级），默认的值是0。如果需要改变一个进程的nice值为负数（高优先级），必须使用su命令登陆到root用户。下面是一些调整nice值的命令示例，
以nice值-5开始程序xyz
#nice –n -5 xyz
改变已经运行的程序的nice值
#renice level pid
将pid为2500的进程的nice值改为10
#renice 10 2500
僵尸进程
当一个进程被结束，在它结束之前通常需要用一些时间去完成所有的任务（比如关闭打开的文件），在一个很短的时间里，这个进程的状态为僵尸状态。在进程完成所有关闭任务之后，会向父进程提交它关闭的信息。有些情况下，一个僵尸进程不能关闭它自己，这时这个进程状态就为z（zombie）。不能使用kill命令杀死僵尸进程，因为它已经标志为“dead”。如果你无法摆脱一个僵尸进程，你可以杀死它的父进程，这个僵尸进程也就消失了。然而，如果父进程是init进程，你不能杀死init进程，因为init是一个重要的系统进程，这种情况下你只能通过一次重新启动来摆脱僵尸进程。
ulimit
这个命令是基于bash的，可以通过ulimit来控制系统资源的使用，使用-a参数列出所有可调的参数。
ulimit –a
-H和-S参数可以对指定的资源进行软限制和硬限制，如果超过了软限制，系统管理员会接收到一个警告，在达到硬限制的时候命令就会提示报错。
例如，为系统打开文件的数量设定一个硬限制
ulimit -Hn 4096
为打开文件设定一个软限制
ulimit -Sn 1024
查看硬限制和软限制的值
ulimit -Hn
ulimit -Sn
这是一个很有用的命令，例如现在想在系统启动时对Oracle用户进行限制，在/etc/security/limits.conf中加入如下两行：
soft nofile 4096
hard nofile 10240
另外确保/etc/pam.d/system-auth文件有下面内容
session required /lib/security/$ISA/pam_limits.so
这一行确保系统会执行这个限制。
Mpstat
mpstat命令是sysstat包的一部分，如果没有安装sysstat包，可以在Red Hat Enterprise Linux安装源文件中找到并且安装这个rpm包。Mpstat命令用于监测一个多CPU系统中每个可用CPU的情况。Mpstat命令可以显示每个CPU或者所有CPU的运行情况，同时也可以像vmstat命令那样使用参数进行一定频率的采样结果的监测。下面是使用mpstat -P ALL命令的显示结果的示例，
[root@localhost ~]# mpstat -P ALL
Linux 2.6.9-55.0.2.ELsmp (localhost.localdomain)       2007Äê08ÔÂ24ÈÕ
10Ê±51·Ö02Ãë  CPU %user %nice %system %iowait %irq %soft %idle intr/s
10Ê±51·Ö02Ãë  all 0.32 0.00 0.13 0.23 0.00 0.01 99.30 1092.40
10Ê±51·Ö02Ãë 0 0.36 0.00 0.20 0.30 0.00 0.05 99.09 330.70
10Ê±51·Ö02Ãë 1 0.31 0.00 0.12 0.04 0.01 0.00 99.52 254.50
10Ê±51·Ö02Ãë 2 0.26 0.00 0.11 0.28 0.01 0.00 99.33 255.78
10Ê±51·Ö02Ãë 3 0.34 0.00 0.11 0.29 0.00 0.00 99.26 251.41
Strace
strace截取和记录进程的系统调用信息，还包括进程接受的命令信号。这是一个有用的诊断和调试工具，系统管理员可以通过strace来解决程序上的问题。
命令格式，需要指定需要监测的进程ID，下图是一个命令结果的示例。
strace -p
使用下面命令可以获得关于strace的完整语法信息
strace -?
注：当针对某个进程执行strace命令时，对该进程的运行性能将产生很大的影响，所以这个命令仅仅应该用在收集数据的时候。
Pmap
pmap命令显示一个或者多个进程使用内存的数量，你可以用这个工具来确定服务器上哪个进程占用了过多的内存从而导致内存瓶颈。
命令格式：pmap
关于pmap命令的详细语法可以使用下面命令查询
pmap -?
pmap
[root@localhost ~]# pmap 1
1: init [3]
0000000000400000    36K r-x--  /sbin/init
0000000000508000    8K rw---  /sbin/init
000000000050a000 132K rwx-- [ anon ]
0000002a95556000    4K rw--- [ anon ]
0000002a9557b000    8K rw--- [ anon ]
0000003508a00000    56K r-x--  /lib64/libselinux.so.1
0000003508a0e000 1024K -----  /lib64/libselinux.so.1
0000003508b0e000    4K rw---  /lib64/libselinux.so.1
0000003508b0f000    4K rw--- [ anon ]
0000003b7e700000    84K r-x--  /lib64/ld-2.3.4.so
0000003b7e814000    8K rw---  /lib64/ld-2.3.4.so
0000003b7e900000 1196K r-x--  /lib64/tls/libc-2.3.4.so
0000003b7ea2b000 1024K -----  /lib64/tls/libc-2.3.4.so
0000003b7eb2b000    8K r----  /lib64/tls/libc-2.3.4.so
0000003b7eb2d000    12K rw---  /lib64/tls/libc-2.3.4.so
0000003b7eb30000    16K rw--- [ anon ]
0000003b7ec00000    56K r-x--  /lib64/libsepol.so.1
0000003b7ec0e000 1020K -----  /lib64/libsepol.so.1
0000003b7ed0d000    4K rw---  /lib64/libsepol.so.1
0000003b7ed0e000    32K rw--- [ anon ]
0000007fbfffd000    12K rw--- [ stack ]
ffffffffff600000    4K r-x-- [ anon ]
total          4752K
声明：由于时间问题，这个里面有些是我自己总结的，有些是我从别人那里拿来的，如果有什么错误或者是其他方面的问题请谅解。总算享受了拿来主义的好处）：

本文来自ChinaUnix博客，如果查看原文请点：http://blog.chinaunix.net/u/26978/showart_353187.html

分享到：

hbase启动时zookeeper不能启动的问题 | Java Performance笔记

2013-09-11 15:45
浏览 978
评论(0)
分类:操作系统
查看更多

发表评论

您还没有登录,请您登录后再发表评论

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论