`

一些常见的运维排查问题的工具

 
阅读更多

今天分析生产的服务器图片问题时,请教了一位专家,发现专家的一些常用命令以及操作

 

1,linux下安装iftop工具

 

iftop可以用来监控实时流量

中间的<= =>这两个左右箭头,表示的是流量的方向。

TX:发送流量
RX:接收流量
TOTAL:总流量
Cumm:运行iftop到目前时间的总流量
peak:流量峰值
rates:分别表示过去 2s 10s 40s 的平均流量

 

2,使用awk命令分析nginx日志来源ip

awk '{print $1}' access_2019-04-23.log | sort -n | uniq -c | sort -rn

 

3,window目录下采用nslookup来发现dns解析

 

nslookup可以指定查询的类型,可以查到DNS记录的生存时间还可以指定使用哪个DNS服务器进行解释。在已安装TCP/IP协议的电脑上面均可以使用这个命令。主要用来诊断域名系统 (DNS) 基础结构的信息。Nslookup(name server lookup)( 域名查询):是一个用于查询 Internet域名信息或诊断DNS 服务器问题的工具.

当前的DNS服务器 ,可用server命令改变

 

4,vmstat 查看系统虚拟内存

 

vmstat  是virtual Memory Statistics 虚拟内存统计的缩写,可对操作系统的虚拟内存,进程,IO读写,cpu等活动进行监视,它是对系统的整体情况进行统计,不足之处是无法对某个进程进行深入分析

输出字段含义:

Procs

     r: The number of processes waiting for run time.

       等待运行的进程数。如果等待运行的进程数越多,意味着CPU非常繁忙。另外,如果该参数长期大于和等于逻辑cpu个数,则CPU资源可能存在较大的瓶颈。

     b: The number of processes in uninterruptible sleep. 

     处在非中断睡眠状态的进程数。意味着进程被阻塞。主要是指被资源阻塞的进程对列数(比如IO资源、页面调度等),当这个值较大时,需要根据应用程序来进行分析,比如数据库产品,中间件应用等。

Memory

     swpd: the amount of virtual memory used.

     已使用的虚拟内存大小。如果虚拟内存使用较多,可能系统的物理内存比较吃紧,需要采取合适的方式来减少物理内存的使用。swapd不为0,并不意味物理内存吃紧,如果swapd没变化,si、so的值长期为0,这也是没有问题的     

     free: the amount of idle memory.

       空闲的物理内存的大小

     buff: the amount of memory used as buffers.

       用来做buffer(缓存,主要用于块设备缓存)的内存数,单位:KB

     cache: the amount of memory used as cache.

       用来做cache(缓存,主要用于缓存文件)的内存,单位:KB

     inact: the amount of inactive memory. (-a option)

       inactive memory的总量

     active: the amount of active memory. (-a option)

       active memroy的总量。

Swap

     si: Amount of memory swapped in from disk (/s).

        从磁盘交换到swap虚拟内存的交换页数量,单位:KB/秒。如果这个值大于0,表示物理内存不够用或者内存泄露了  

     so: Amount of memory swapped to disk (/s).

        从swap虚拟内存交换到磁盘的交换页数量,单位:KB/秒,如果这个值大于0,表示物理内存不够用或者内存泄露了

   内存够用的时候,这2个值都是0,如果这2个值长期大于0时,系统性能会受到影响,磁盘IO和CPU资源都会被消耗。

   当看到空闲内存(free)很少的或接近于0时,就认为内存不够用了,这个是不正确的。不能光看这一点,还要结合si和so,

   如果free很少,但是si和so也很少(大多时候是0),那么不用担心,系统性能这时不会受到影响的。 

   当内存的需求大于RAM的数量,服务器启动了虚拟内存机制,通过虚拟内存,可以将RAM段移到SWAP DISK的特殊磁盘段上,

   这样会 出现虚拟内存的页导出和页导入现象,页导出并不能说明RAM瓶颈,虚拟内存系统经常会对内存段进行页导出,  但页导入操作就表明了服务器需要更多的内存了, 页导入需要从SWAP DISK上将内存段复制回RAM,导致服务器速度变慢。

 

IO

     bi: Blocks received from a block device (blocks/s).

        每秒从块设备接收到的块数,单位:块/秒 也就是读块设备。

     bo: Blocks sent to a block device (blocks/s).

        每秒发送到块设备的块数,单位:块/秒  也就是写块设备。

System

     in: The number of interrupts per second, including the clock.

        每秒的中断数,包括时钟中断 

     cs: The number of context switches per second. 

        每秒的环境(上下文)切换次数。比如我们调用系统函数,就要进行上下文切换,而过多的上下文切换会浪费较多的cpu资源,这个数值应该越小越好。

CPU

     These are percentages of total CPU time.

     us: Time spent running non-kernel code. (user time, including nice time)

        用户CPU时间(非内核进程占用时间)(单位为百分比)。 us的值比较高时,说明用户进程消耗的CPU时间多

     sy: Time spent running kernel code. (system time)

        系统使用的CPU时间(单位为百分比)。sy的值高时,说明系统内核消耗的CPU资源多,这并不是良性表现,我们应该检查原因。

     id: Time spent idle. Prior to Linux 2.5.41, this includes IO-wait time.

        空闲的CPU的时间(百分比),在Linux 2.5.41之前,这部分包含IO等待时间。

     wa: Time spent waiting for IO. Prior to Linux 2.5.41, shown as zero.

        等待IO的CPU时间,在Linux 2.5.41之前,这个值为0 .这个指标意味着CPU在等待硬盘读写操作的时间,用百分比表示。wait越大则机器io性能就越差。说明IO等待比较严重,这可能由于磁盘大量作随机访问造成,也有可能磁盘出现瓶颈(块操作)。

  st: Time stolen from a virtual machine. Prior to Linux 2.6.11, unknown.


5,iostat 查看系统IO

 

iostat -d -k 1 10        #查看TPS和吞吐量信息

iostat -d -x -k 1 10      #查看设备使用率(%util)、响应时间(await)

iostat -c 1 10            #查看cpu状态

 

 

 

 

 

 

 

 

 

分享到:
评论

相关推荐

    linux运维常见的22个故障排查和解决方法

    ### Linux运维中的常见故障排查与解决方法 #### 一、Shell脚本不执行 **问题描述**:在实际工作中,可能会遇到这样的情况:一个看似正常的Shell脚本在Linux环境下无法执行,报出“:bad interpreter: No such file ...

    运维必备 实用脚本工具合集

    例如,`boot-repair`是一个常见的Linux引导修复工具,它可以解决GRUB引导加载器的常见问题,帮助恢复多系统引导。此外,`fsck`用于检查和修复文件系统错误,保证系统数据的完整性和一致性。 系统检查脚本则包含了对...

    10大HBase常见运维工具整理小结

    以上就是HBase的常见运维工具,它们共同构成了运维人员日常管理HBase集群的工具箱。理解并熟练掌握这些工具,将有助于提升HBase集群的稳定性和效率。在使用过程中,需根据实际的HBase版本和集群环境来选择合适的工具...

    网络运维工具系统运维自动化批量登录

    在IT行业中,网络运维是一项复杂且重要的工作,它涉及到网络设备的管理、配置、监控以及故障排查等多个方面。为了提高工作效率,系统运维自动化和批量操作工具的使用变得越来越普遍。"网络运维工具系统运维自动化...

    税务综合办公系统常见问题运维.pptx

    以下是一些常见的税务综合办公系统运维问题及解决方案: 1. **客户端问题**:客户端问题可能源于浏览器设置、复合文档处理器或Office软件。对于浏览器问题,确保使用的是受支持的版本,如IE,并在“Internet选项”...

    最小的运维端口扫描工具

    标题中的“最小的运维端口扫描工具”暗示我们讨论的是一个轻量级的软件,用于系统运维人员进行网络端口扫描。端口扫描是网络安全和系统管理中的一个重要环节,它帮助用户发现网络上的开放端口,从而识别可能的服务、...

    Oracle数据库常见维护问题手册-精典

    #### 数据库常见问题排查 **如何初步判断数据库有问题** 当怀疑数据库出现问题时,可以采用以下几种方法进行初步诊断: 1. 检查数据库是否已打开: ```sql SQL&gt; select status from v$instance; ``` 2. 查看告...

    终端运维常见问题解决方案.docx

    【终端运维常见问题解决方案】 终端运维是IT支持中不可或缺的一部分,涉及到日常的设备维护、故障排查和用户支持。本文主要探讨了几个常见的终端运维问题及其解决方案。 1. **打印机问题**: - **重装系统后的...

    网络基础知识讲解和网络常见故障排查

    总的来说,“网络基础知识讲解和网络常见故障排查”涵盖了网络的各个方面,从基本概念到实际操作,再到问题解决,对提升网络技能有着重要作用。学习和掌握这些知识,不仅有助于理解网络的工作原理,还能有效提高工作...

    Redis集群日常维护工具,Redis集群日常运维工具.zip

    同时作为脚本化工具,下载即可使用,即使对于Redis初学者,也能够快速掌握集群的运行状况,完成集群配置管理、性能问题排查,具备Redis集群的基本运维能力。主要面向日常运维管理中的常见工作,提升运维效率,简化...

    电脑运维常用bat

    在IT行业中,Windows操作系统是广泛使用的桌面和服务器平台,而批处理(BAT)脚本则是进行系统管理和维护的重要工具。批处理脚本是基于DOS命令行环境的简单程序,可以自动化执行一系列命令,极大地提高了电脑运维的...

    Linux运维-运维工具箱-18个 Shell脚本经典案例-视频1-2.zip

    2. **命令行工具的运用**:学习如何在脚本中嵌入常见的Linux命令,如grep、sed、awk、find、rsync等,以实现数据过滤、文件操作、文件查找等功能。 3. **文件操作**:掌握如何读取、创建、修改和删除文件,例如使用...

    运维36计 PDF

    书中可能会介绍一些常见的故障排查方法和应急处理策略,以帮助运维工程师快速定位问题并恢复系统运行。 6. **安全运维**:安全是运维工作的重中之重。本书可能会介绍安全最佳实践,包括防火墙配置、入侵检测、数据...

    osrm_it_系统运维_cmdb_运维_运维平台_

    这样的平台可以帮助运维人员实时监控系统的运行状态,及时发现并处理问题,通过自动化脚本执行常见的运维任务,如系统更新、备份等,同时,也可以通过集成CMDB来实现更高效的服务请求处理。 在描述中提到的"告警...

    redis开发运维指南.pdf

    在运维方面,Redis的部署规划、常见运维操作、性能测试、持久化与备份恢复、监控和故障处理是运维人员必须掌握的知识。例如,关于部署规划,文档中提到了内存规划、服务器部署位置、持久化设置和多实例配置等。运维...

    税务综合办公系统常见问题运维PPT学习教案.pptx

    这个PPT学习教案主要针对系统常见的运维问题,特别是客户端配置、浏览器问题以及复合文档处理器的故障排查和解决。以下是对这些问题的详细说明: 1. **税务综合办公系统客户端问题**: - **浏览器问题**:主要涉及...

    Python写的IT运维工单管理系统源码.zip

    此外,对于运维领域的理解,如了解常见运维工具和服务,也有助于更好地理解和使用该系统。 总的来说,这个Python编写的IT运维工单管理系统是实现高效运维工作的重要工具,通过理解其设计思路和实现技术,我们可以...

Global site tag (gtag.js) - Google Analytics