以下内容摘自田逸的《开源监控利器
nagios
》一文,来自
Linux/Unix
技术交流群共享。
服务器监控的一些策略
前段时间有人问我怎么用
nagios
监控
linux
内存使用情况
,
以及怎么设置报警阈值
?linux
运行时
,
是最大可能的利用内存
,
监控这个对象没有现实意义
,
明显属于无效的监控策略
.
另有一人说
:”
晚上没完没了的收到监控系统的发送的报警短
信,受不了
…”
。不言而喻,这也是一个不好的监控策略,实际上监控已经失去了它的意义。所以要让监控平台更有效的发挥作用,好的策略是必须的。那么
怎么才能算是好的策略,这里我结合我的实际情况,谈谈我的一些看法,希望对大家有所帮助。
策略一:监控对象选择
在一个规模较大的网络中,监控的对象可能包括服务器、防火墙、交换机、路由器等等设备,以及运行在各
对象上的服务。但是,我们没必要把所有的对象都放到这个监控系统中来。比如把某些测试系统放到监控中,就会产生如上那位老兄整个晚上收到报警短信的麻烦。
因此,选择正确的监控对象是实施有效监控的前提,个人建议,只有那些重要级别高的,不能随便停止服务的对象――如在线交易系统――才是值得监控的对象。当
然,服务器的使用者总希望你把它监控上,哪怕它不是那么重要。
策略二:故障报警方式选择
老板非常希望我们不知疲倦的坐在计算机旁,但是他只是一厢情愿而已。对监控系统而言,一定要有合适的
故障告警机制。目前常用的告警机制包括:邮件、短信、
msn
、
web
页面显示等几种手段,这几种手段中,短信报警最佳。因为在夜间睡梦中,我们没办法随时收邮件,但是短信去能唤醒我们,通知我们发生故
障了,而且在老板和用户发现这个故障以前。对于没有通道的机构来说,租用sp提供的服务是比较稳妥的方式,其他如用移动飞信等方式都不怎么考谱,不适合关
键性业务运营。另外我使用了一个小技巧,让监控平台每天下午给我发一条短信,不管有没有故障都发,这样以便让我知道短信接口是否正常。
策略三:故障报警时效和间隔的选择
由于网络通信等不可控因素,因此可能存在故障误报的情况。如果把报警发送设置成一次探测不成功就发送
报警信息就不是个好策略。经验表明:探测3-4次都失败再发送信息,并不耽误我们去处理故障。假如探测一次失败就报警,即可以很快把手机短信空间塞满,又
会让你睡不好觉。
故障报警开始发送以后,一般会没完没了的发送,直到故障排除恢复正常,才会发一条类似“
*** is ok!
”的短信。报警发送间隔设置,也是需要费一番心思,设短了,不停的消耗你的短信费用,设长了,恐怕不足以唤醒沉睡的人;如果没有人去
处理故障,也没有人去停止这个通知,报警信息就会一直发送下去。
那怎么样是一个合适的范围呢?我的做法是:探测4次失败开始报警,报警间隔10分钟,总共发送8次,
然后停止发送,假如第3次没有人去处理,我会电话通知,没回应则取消该对象的监控,并记录该次事件。
策略四:监控平台地点的选择
对于一个规模比较大的网络,为了解决南北互联问题而采取多个地点建立数据中心的办法。这时需要对不同
地理位置的服务器进行监控,也会遇到访问慢的问题。解决这个问题有几种方式:1、选择一个到各个位置访问都顺畅的数据机房;2、采取分步是监控平台,各处
自己收集监控信息,然后到一处汇总;3、各数据中心单独建监控平台。各人可以根据自己的实际情况自行选择。
策略五:流量控制和安全
有不少商业解决方案采取
snmp
和客户端软件来监控各个对象,这会引起额外的流量和带来安全问题。因此尽量不要使用
snmp
这样比较占资源的协议(具称
snmp v3
似乎有所改进)。开源解决方案
Nagios
在这方面做得比较完美,值得推荐一下。它可以以插件方式先收集到各监控对象的信息,然后
再传送到监控服务器上,大大节省网络带宽。
分享到:
相关推荐
《基于Linux的Nagios服务器监控系统的研究与实现》 在当前信息化高速发展的时代,服务器监控系统的重要性日益凸显。Nagios,作为一个开源的网络监控软件,是Linux系统中的佼佼者,为服务器管理和维护提供了强大的...
2. **Nagios服务器安装**: - **配置IP地址**:在服务器上配置静态IP地址,确保网络可达。 - **创建用户和组**:创建Nagios专用的用户和组,提高安全性,如`nagios`用户和`nagios`组。 - **开启sendmail服务**:...
Nagios是一款开源的网络监控系统,能够实时监控网络服务、服务器、网络设备等,并在出现问题时发出警报,确保业务的连续性和稳定性。 本书详细介绍了Nagios的基本概念、安装配置、监控对象的定义、插件的使用、报警...
Nagios是一款强大的网络监视系统,它能够实时监控网络服务、主机状态以及各种网络资源,及时发现并报告问题。在本文中,我们将详细介绍如何向...同时,定期更新和优化监控策略以适应网络环境的变化也是至关重要的。
这种模式适合大规模服务器监控,因为它能有效减轻监控服务器的负担。 Nagios的安装可以在CentOS Linux系统中通过YUM包管理器进行,也可以选择源代码编译安装。YUM安装简单快捷,只需要几条命令即可完成;源代码安装...
Nagios的灵活性在于可以通过定制这些配置文件来监控各种不同的网络资源,并根据需求调整报警策略。此外,Nagios还可以与其他工具如NRPE(Nagios Remote Plugin Executor)结合,实现远程监控,以及使用Icinga或...
3. **配置文件**:编辑配置文件(如`nagios.cfg`),配置监控策略。 4. **插件安装**:安装必要的插件以实现特定的服务监控功能。 5. **测试与调试**:启动Nagios Core服务,并进行监控测试,确保一切正常工作。 ##...
- 要使用这些脚本,首先需要在Nagios服务器上安装Nagios插件,如nagios-plugins。 - 配置Nagios的`objects.cfg`文件,定义服务对象,包括主机名、服务名(CPU、内存、uptime)、命令行参数、阈值等。 - 在`...
4. **自定义配置**:Nagios允许用户自定义配置文件,根据实际需求定制监控项和报警策略。 ### 二、Nagios安装与配置 1. **系统要求**:确保系统满足Nagios的最低硬件和软件需求,通常Linux发行版更为常见。 2. **...
总结来说,企业级部署Nagios监控系统,需要制定合理的监控策略,充分配置监控和报警机制,确保系统可以及时发现问题并迅速通知相关人员。通过遵循最佳实践,可以最大化Nagios监控系统的效能,提升整个IT基础设施的...
此外,用户可以通过命令行参数指定警告和严重级别的阈值,从而实现更灵活的监控策略。 #### 脚本功能分析 1. **参数解析**:脚本支持以下命令行参数: - `-w <integer>`:如果CPU使用率超过此值,则返回警告状态...
4. **关键应用监控的重要策略**:针对特定的关键应用,制定合理的监控策略,确保能够及时发现并解决问题。 #### 七、总结 通过上述介绍,我们可以看到Nagios作为一款强大的开源监控工具,在实际应用中具有广泛的...
1. **安装依赖**:确保Nagios服务器和被监控Oracle服务器上已安装必要的软件包,如Oracle客户端库、Perl等。 2. **权限设置**:为Nagios用户分配足够的权限,以允许插件执行监控检查。 3. **配置文件**:编辑Nagios...
`nrpe`是Nagios Remote Plugin Executor的缩写,是Nagios的一个关键插件,允许Nagios服务器远程执行客户端上的监控检查。在`nrpe`文件夹中,你可能找到了NRPE的配置文件、插件和其他相关资源,这对于在多台主机上...
Nagios是一款强大的网络监控系统,它被广泛用于实时监控网络服务、服务器状态以及各种IT基础设施的运行状况。本手册是Nagios的中文帮助文档,适用于版本3.2.0,旨在帮助用户更好地理解和使用Nagios系统。 1. **...
- 在Nagios服务器上安装所需的插件或脚本。 - 配置Nagios的核心文件,定义监控对象和服务。 - 在目标主机上安装相应的代理程序(如果需要)。 - 定义报警规则和通知策略。 - 测试监控设置的有效性。 #### Thold和...
总结来说,Cacti和Nagios都是强大且功能齐全的监控工具,它们在监控策略和目标上有所不同。Cacti强调图形化数据呈现和历史记录,适合需要深度分析的场合;而Nagios侧重于服务的可用性和即时警报,适用于保证业务连续...
1. **NRPE(Nagios Remote Plugin Executor)**:允许Nagios服务器远程在客户端执行插件,提高监控效率。 2. **NSCA(Nagios Server Agent)**:用于安全地发送服务状态信息回Nagios服务器。 3. **Nagios XI**:商业...