今天分析生产的服务器图片问题时,请教了一位专家,发现专家的一些常用命令以及操作
1,linux下安装iftop工具
iftop可以用来监控实时流量
中间的<= =>这两个左右箭头,表示的是流量的方向。
TX:发送流量
RX:接收流量
TOTAL:总流量
Cumm:运行iftop到目前时间的总流量
peak:流量峰值
rates:分别表示过去 2s 10s 40s 的平均流量
2,使用awk命令分析nginx日志来源ip
awk '{print $1}' access_2019-04-23.log | sort -n | uniq -c | sort -rn
3,window目录下采用nslookup来发现dns解析
nslookup可以指定查询的类型,可以查到DNS记录的生存时间还可以指定使用哪个DNS服务器进行解释。在已安装TCP/IP协议的电脑上面均可以使用这个命令。主要用来诊断域名系统 (DNS) 基础结构的信息。Nslookup(name server lookup)( 域名查询):是一个用于查询 Internet域名信息或诊断DNS 服务器问题的工具.
当前的DNS服务器 ,可用server命令改变
4,vmstat 查看系统虚拟内存
vmstat 是virtual Memory Statistics 虚拟内存统计的缩写,可对操作系统的虚拟内存,进程,IO读写,cpu等活动进行监视,它是对系统的整体情况进行统计,不足之处是无法对某个进程进行深入分析
输出字段含义:
Procs
r: The number of processes waiting for run time.
等待运行的进程数。如果等待运行的进程数越多,意味着CPU非常繁忙。另外,如果该参数长期大于和等于逻辑cpu个数,则CPU资源可能存在较大的瓶颈。
b: The number of processes in uninterruptible sleep.
处在非中断睡眠状态的进程数。意味着进程被阻塞。主要是指被资源阻塞的进程对列数(比如IO资源、页面调度等),当这个值较大时,需要根据应用程序来进行分析,比如数据库产品,中间件应用等。
Memory
swpd: the amount of virtual memory used.
已使用的虚拟内存大小。如果虚拟内存使用较多,可能系统的物理内存比较吃紧,需要采取合适的方式来减少物理内存的使用。swapd不为0,并不意味物理内存吃紧,如果swapd没变化,si、so的值长期为0,这也是没有问题的
free: the amount of idle memory.
空闲的物理内存的大小
buff: the amount of memory used as buffers.
用来做buffer(缓存,主要用于块设备缓存)的内存数,单位:KB
cache: the amount of memory used as cache.
用来做cache(缓存,主要用于缓存文件)的内存,单位:KB
inact: the amount of inactive memory. (-a option)
inactive memory的总量
active: the amount of active memory. (-a option)
active memroy的总量。
Swap
si: Amount of memory swapped in from disk (/s).
从磁盘交换到swap虚拟内存的交换页数量,单位:KB/秒。如果这个值大于0,表示物理内存不够用或者内存泄露了
so: Amount of memory swapped to disk (/s).
从swap虚拟内存交换到磁盘的交换页数量,单位:KB/秒,如果这个值大于0,表示物理内存不够用或者内存泄露了
内存够用的时候,这2个值都是0,如果这2个值长期大于0时,系统性能会受到影响,磁盘IO和CPU资源都会被消耗。
当看到空闲内存(free)很少的或接近于0时,就认为内存不够用了,这个是不正确的。不能光看这一点,还要结合si和so,
如果free很少,但是si和so也很少(大多时候是0),那么不用担心,系统性能这时不会受到影响的。
当内存的需求大于RAM的数量,服务器启动了虚拟内存机制,通过虚拟内存,可以将RAM段移到SWAP DISK的特殊磁盘段上,
这样会 出现虚拟内存的页导出和页导入现象,页导出并不能说明RAM瓶颈,虚拟内存系统经常会对内存段进行页导出, 但页导入操作就表明了服务器需要更多的内存了, 页导入需要从SWAP DISK上将内存段复制回RAM,导致服务器速度变慢。
IO
bi: Blocks received from a block device (blocks/s).
每秒从块设备接收到的块数,单位:块/秒 也就是读块设备。
bo: Blocks sent to a block device (blocks/s).
每秒发送到块设备的块数,单位:块/秒 也就是写块设备。
System
in: The number of interrupts per second, including the clock.
每秒的中断数,包括时钟中断
cs: The number of context switches per second.
每秒的环境(上下文)切换次数。比如我们调用系统函数,就要进行上下文切换,而过多的上下文切换会浪费较多的cpu资源,这个数值应该越小越好。
CPU
These are percentages of total CPU time.
us: Time spent running non-kernel code. (user time, including nice time)
用户CPU时间(非内核进程占用时间)(单位为百分比)。 us的值比较高时,说明用户进程消耗的CPU时间多
sy: Time spent running kernel code. (system time)
系统使用的CPU时间(单位为百分比)。sy的值高时,说明系统内核消耗的CPU资源多,这并不是良性表现,我们应该检查原因。
id: Time spent idle. Prior to Linux 2.5.41, this includes IO-wait time.
空闲的CPU的时间(百分比),在Linux 2.5.41之前,这部分包含IO等待时间。
wa: Time spent waiting for IO. Prior to Linux 2.5.41, shown as zero.
等待IO的CPU时间,在Linux 2.5.41之前,这个值为0 .这个指标意味着CPU在等待硬盘读写操作的时间,用百分比表示。wait越大则机器io性能就越差。说明IO等待比较严重,这可能由于磁盘大量作随机访问造成,也有可能磁盘出现瓶颈(块操作)。
st: Time stolen from a virtual machine. Prior to Linux 2.6.11, unknown.
5,iostat 查看系统IO
iostat -d -k 1 10 #查看TPS和吞吐量信息
iostat -d -x -k 1 10 #查看设备使用率(%util)、响应时间(await)
iostat -c 1 10 #查看cpu状态
相关推荐
### Linux运维中的常见故障排查与解决方法 #### 一、Shell脚本不执行 **问题描述**:在实际工作中,可能会遇到这样的情况:一个看似正常的Shell脚本在Linux环境下无法执行,报出“:bad interpreter: No such file ...
例如,`boot-repair`是一个常见的Linux引导修复工具,它可以解决GRUB引导加载器的常见问题,帮助恢复多系统引导。此外,`fsck`用于检查和修复文件系统错误,保证系统数据的完整性和一致性。 系统检查脚本则包含了对...
以上就是HBase的常见运维工具,它们共同构成了运维人员日常管理HBase集群的工具箱。理解并熟练掌握这些工具,将有助于提升HBase集群的稳定性和效率。在使用过程中,需根据实际的HBase版本和集群环境来选择合适的工具...
在IT行业中,网络运维是一项复杂且重要的工作,它涉及到网络设备的管理、配置、监控以及故障排查等多个方面。为了提高工作效率,系统运维自动化和批量操作工具的使用变得越来越普遍。"网络运维工具系统运维自动化...
以下是一些常见的税务综合办公系统运维问题及解决方案: 1. **客户端问题**:客户端问题可能源于浏览器设置、复合文档处理器或Office软件。对于浏览器问题,确保使用的是受支持的版本,如IE,并在“Internet选项”...
标题中的“最小的运维端口扫描工具”暗示我们讨论的是一个轻量级的软件,用于系统运维人员进行网络端口扫描。端口扫描是网络安全和系统管理中的一个重要环节,它帮助用户发现网络上的开放端口,从而识别可能的服务、...
#### 数据库常见问题排查 **如何初步判断数据库有问题** 当怀疑数据库出现问题时,可以采用以下几种方法进行初步诊断: 1. 检查数据库是否已打开: ```sql SQL> select status from v$instance; ``` 2. 查看告...
【终端运维常见问题解决方案】 终端运维是IT支持中不可或缺的一部分,涉及到日常的设备维护、故障排查和用户支持。本文主要探讨了几个常见的终端运维问题及其解决方案。 1. **打印机问题**: - **重装系统后的...
总的来说,“网络基础知识讲解和网络常见故障排查”涵盖了网络的各个方面,从基本概念到实际操作,再到问题解决,对提升网络技能有着重要作用。学习和掌握这些知识,不仅有助于理解网络的工作原理,还能有效提高工作...
同时作为脚本化工具,下载即可使用,即使对于Redis初学者,也能够快速掌握集群的运行状况,完成集群配置管理、性能问题排查,具备Redis集群的基本运维能力。主要面向日常运维管理中的常见工作,提升运维效率,简化...
在IT行业中,Windows操作系统是广泛使用的桌面和服务器平台,而批处理(BAT)脚本则是进行系统管理和维护的重要工具。批处理脚本是基于DOS命令行环境的简单程序,可以自动化执行一系列命令,极大地提高了电脑运维的...
2. **命令行工具的运用**:学习如何在脚本中嵌入常见的Linux命令,如grep、sed、awk、find、rsync等,以实现数据过滤、文件操作、文件查找等功能。 3. **文件操作**:掌握如何读取、创建、修改和删除文件,例如使用...
书中可能会介绍一些常见的故障排查方法和应急处理策略,以帮助运维工程师快速定位问题并恢复系统运行。 6. **安全运维**:安全是运维工作的重中之重。本书可能会介绍安全最佳实践,包括防火墙配置、入侵检测、数据...
这样的平台可以帮助运维人员实时监控系统的运行状态,及时发现并处理问题,通过自动化脚本执行常见的运维任务,如系统更新、备份等,同时,也可以通过集成CMDB来实现更高效的服务请求处理。 在描述中提到的"告警...
在运维方面,Redis的部署规划、常见运维操作、性能测试、持久化与备份恢复、监控和故障处理是运维人员必须掌握的知识。例如,关于部署规划,文档中提到了内存规划、服务器部署位置、持久化设置和多实例配置等。运维...
这个PPT学习教案主要针对系统常见的运维问题,特别是客户端配置、浏览器问题以及复合文档处理器的故障排查和解决。以下是对这些问题的详细说明: 1. **税务综合办公系统客户端问题**: - **浏览器问题**:主要涉及...
此外,对于运维领域的理解,如了解常见运维工具和服务,也有助于更好地理解和使用该系统。 总的来说,这个Python编写的IT运维工单管理系统是实现高效运维工作的重要工具,通过理解其设计思路和实现技术,我们可以...