公司要求实时监控服务器，写个Web的监控系统

kakaluyi

浏览: 444389 次
性别:
来自: 苏州

最近访客更多访客>>

ymgjava

tom2139779

wzlzh

lijun0349

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

博客分类：

java监控技术

应用服务器 Web 浏览器 Ajax Linux

公司的服务器需要实时监控，而且当用户空间已经满了，操作失败，或者出现程序Exception的时候就需要实时提醒，便于网管和程序员调式，这样就把这个实时监控系统分为了两部分，

第一部分：实时系统监控（cpu利用率，cpu温度，总内存大小，已使用内存大小）

第二部分：实时告警

由于无刷新实时性，所以只能使用Ajax，这里没有用到任何ajax框架，因为调用比较简单

大家知道，由于java的先天不足，对底层系统的调用和操作一般用jni来完成，特别是cpu温度，你在window下是打死用命令行是得不到的，但由于我们的服务器系统是linux，所以可以不调用jni完全用java的方式来得到系统信息，这里用到了runtime的exec()函数，通过解析本地命令调用的结果来查询本地信息，

这里要感谢公司同事qinkun推荐ecsun兄的这篇文章http://papa.iteye.com/blog/220532，

* 取得linux系统下的cpu、内存信息 
* 
* */ 
public final class LinuxSystemTool 
{ 
/** 
* get memory by used info 
* 
* @return int[] result 
* result.length==4;int[0]=MemTotal;int[1]=MemFree;int[2]=SwapTotal;int[3]=SwapFree; 
* @throws IOException 
* @throws InterruptedException 
*/ 
public static int[] getMemInfo() throws IOException, InterruptedException 
{ 
File file = new File("/proc/meminfo"); 
BufferedReader br = new BufferedReader(new InputStreamReader( 
new FileInputStream(file))); 
int[] result = new int[4]; 
String str = null; 
StringTokenizer token = null; 
while((str = br.readLine()) != null) 
{ 
token = new StringTokenizer(str); 
if(!token.hasMoreTokens()) 
continue; 

str = token.nextToken(); 
if(!token.hasMoreTokens()) 
continue; 

if(str.equalsIgnoreCase("MemTotal:")) 
result[0] = Integer.parseInt(token.nextToken()); 
else if(str.equalsIgnoreCase("MemFree:")) 
result[1] = Integer.parseInt(token.nextToken()); 
else if(str.equalsIgnoreCase("SwapTotal:")) 
result[2] = Integer.parseInt(token.nextToken()); 
else if(str.equalsIgnoreCase("SwapFree:")) 
result[3] = Integer.parseInt(token.nextToken()); 
} 

return result; 
} 

/** 
* get memory by used info 
* 
* @return float efficiency 
* @throws IOException 
* @throws InterruptedException 
*/ 
public static float getCpuInfo() throws IOException, InterruptedException 
{ 
File file = new File("/proc/stat"); 
BufferedReader br = new BufferedReader(new InputStreamReader( 
new FileInputStream(file))); 
StringTokenizer token = new StringTokenizer(br.readLine()); 
token.nextToken(); 
int user1 = Integer.parseInt(token.nextToken()); 
int nice1 = Integer.parseInt(token.nextToken()); 
int sys1 = Integer.parseInt(token.nextToken()); 
int idle1 = Integer.parseInt(token.nextToken()); 

Thread.sleep(1000); 

br = new BufferedReader( 
new InputStreamReader(new FileInputStream(file))); 
token = new StringTokenizer(br.readLine()); 
token.nextToken(); 
int user2 = Integer.parseInt(token.nextToken()); 
int nice2 = Integer.parseInt(token.nextToken()); 
int sys2 = Integer.parseInt(token.nextToken()); 
int idle2 = Integer.parseInt(token.nextToken()); 

return (float)((user2 + sys2 + nice2) - (user1 + sys1 + nice1)) / (float)((user2 + nice2 + sys2 + idle2) - (user1 + nice1 + sys1 + idle1)); 
} 
}

这里的两个方法，解释一下，

方法1文件"/proc/meminfo"里面包含的就是内存的信息，还包括了swap的信息。例如：

$ cat /proc/meminfo

total: used: free: shared: buffers: cached:
Mem: 1057009664 851668992 205340672 0 67616768 367820800
Swap: 2146787328 164429824 1982357504
MemTotal: 1032236 kB
MemFree: 200528 kB
MemShared: 0 kB
这样可以用截取字符串的方法，来得到linux内存信息.

方法2在文件"/proc/stat"里面就包含了CPU的信息。每一个CPU的每一tick用在什么地方都在这个文件里面记着。后面的数字含义分别是： user、nice、sys、idle、iowait。有些版本的kernel没有iowait这一项。这些数值表示从开机到现在，CPU的每tick用在了哪里。例如：

cpu0 256279030 0 11832528 1637168262

就是cpu0从开机到现在有 256279030 tick用在了user消耗，11832528用在了sys消耗。所以如果想计算单位时间（例如1s）里面CPU的负载，那只需要计算1秒前后数值的差除以每一秒的tick数量就可以了。

ok这样还剩下cpu温度，怎么做呢

发现了一个文件"cat /proc/acpi/thermal_zone/THM/temperature";可以返回本机的linux温度，

大概是这样的：temperature： 68C

但不是每台linux机器都有这个THM你要确定你的linux加载了这个THM才能使用这个文件，这样就用InputStreamReader(new FileInputStream（new File("/proc/acpi/thermal_zone/THM/temperature")）,去读取这个文件，后面的相信大家一定会做了吧，就是把内容读出来,然后分割字符串去得到这个68。ok,系统基本信息全部完成，然后ok现在就只有一件事就是用Ajax去调用这个类来得到基本信息，然后返回到页面上，Ajax的用法就不赘言了。

下面是系统监控的效果，大概是Ajax每几秒去linux下去取一次系统信息，然后显示在jsp页面上，以下是效果。

到这里第一部分系统监控部分已经完成，现在开始完成实时告警部分，分析需求

1温度和cpu超过额定值需要告警

2用户操作系统失败，用户存储空间不足也需要告警，还有我们公司的业务操作失败告警，如果发生Exception也只能告警，当然要把异常的堆栈的信息保存在数据库里，我就这样设计如果用户在操作中触发了这些错误，则保存在数据库的告警表里，然后实时监控的再取出来这些信息。

3告警是要实时的那么要怎么从告警表里查到当前以后的数据呢，一开始想到用当前时间，在当前时间加上Ajax发送时间间隔，select * from warnlist where date>new Date()+AjaxTime这种形式,后来发现时间是很不正确的，网络延迟，程序处理时间，（cpu信息用了sleep函数），等等你常常会发现有些告警信息被无情的放过，而有的时候有重复数据，这样我想到了用id，每次进入告警系统先查询到最大的告警id,然后保存在session中，然后ajax从数据库里取告警信息的时候都查这个id之后的数据（就是进入监控系统后的最新数据），然后session再保存新的最大id,下次ajax取还是从这个session中取最大id,这样信息就可以当ajax取的时候都保证是最新的，而且没有重复，very good!就这样做了

这样设计了一张告警处理表

CREATE TABLE `warnlist` (
  `Id` bigint(20) NOT NULL auto_increment,
  `warnleave` tinyint(2) NOT NULL default '0',//告警级别：告警的严重程度
  `fromguy` varchar(20) NOT NULL,//属于哪个用户哪个组织的告警
  `warncontent` varchar(100) NOT NULL,//告警内容，比如cpu使用率超过80%
  `aviliablevalue` varchar(12) default NULL,//允许值 比如85%
  `warnvalue` varchar(12) default NULL,//告警值 80
  `warntime` datetime NOT NULL,//告警时间
  `stackinfo` varchar(255) default NULL,//异常的堆栈信息
  `dealwith` tinyint(2) NOT NULL default '0',//处理结果
  `version` int(11) default NULL,//version
  `organizerID` varchar(20) default NULL,//组织id
  `des` varchar(255) default NULL,
  PRIMARY KEY  (`Id`)
) ENGINE=InnoDB DEFAULT CHARSET=utf8;

假设我ajax从系统取信息后，那么要写个逻辑，if(cpuTempature>75C)or if(cpuUserd>80%)则写入数据库，然后再查询大于上一次发送Ajax数据库的最大id的告警信息（这期间如果发生的以下错误一并查出：用户存储空间不足，还有我们公司的业务操作失败告警，Exception等），循环插入一个xml解析类中，大概形式是这样的Ajax返回这个xml,供页面提取信息

<response>
<cpuUsed>67</cpuUsed>
<cpuTemp>76<cpuTemp>
<Memory>1023422</Memory>
<freeMemory>43244</freeMemory>
<wannlist>
<warnid>2</warnid>
<warncontent>系统存储空间不足</warncontent>
<fromguy>kakaluyi</fromguy>
..............
</wanrlist>
<warnlist>
<warnid>3</warnid>
<warncontent>cpu温度过高</warncontent>
<fromguy>系统</fromguy>
<orgid>系统</orgid>
<warnvalue>78</warnvalue>
.............
</warnlist>
........

</response>

系统信息的显示代码，就是关联上面那个图片的：

var cpuUsed=req.responseXML.getElementsByTagName('cpuUsed')[0].firstChild.nodeValue;
var totalMemory=req.responseXML.getElementsByTagName('totalMemory')[0].firstChild.nodeValue;
var freeMemory=req.responseXML.getElementsByTagName('freeMemory')[0].firstChild.nodeValue;
var cpuTemp=req.responseXML.getElementsByTagName('cpuTemp')[0].firstChild.nodeValue;
$('cpuUsed').innerHTML=cpuUsed;
$('totalMemory').innerHTML=totalMemory;
$('freeMemory').innerHTML=freeMemory;
$('cpuTemp').innerHTML=cpuTemp;

//jsp
<tr>
<td class="label" width="20%">
服务器CPU使用率：</td>
<td class="text">
<font color="#FF0000" size="+2"><label id="cpuUsed"></label>
</font> < 告警预定阀值: 80% >
</td>
</tr>
 .........

然后就是页面展现的问题了这里我用了dom节点的增删，一个页面保持50条记录，如果超过50条则删除以前的节点，代码为：

var length=req.responseXML.getElementsByTagName('warnlist').length;
if(length>0)
{
var trlength=document.getElementsByTagName('table')[4].childNodes[0].childNodes.length;

if(trlength+length-1>50)//如果大于50条，则查找告警列表的table，得到
告警信息的子节点，然后删除多余的最早的告警信息
{
var tbody=document.getElementsByTagName('table')[4].childNodes[0];
for(var i=1;i<trlength+length-50;i++)
{
var tr=tbody.childNodes[i];
tr.parentNode.removeChild(tr);

}

然后插入新的告警信息，

for(var i=0;i<length;i++)
{
var onewarnlist=req.responseXML.getElementsByTagName('warnlist')[i].childNodes;
if(onewarnlist[0].firstChild.nodeValue==0)
{
var leave="企业级告警";
}
else {
var leave="运营商级告警";
}
var from=onewarnlist[1].firstChild.nodeValue;
var warncontent=onewarnlist[2].firstChild.nodeValue;
var aviliablevalue=onewarnlist[3].firstChild.nodeValue;
var warnvalue=onewarnlist[4].firstChild.nodeValue;
var warntime=onewarnlist[5].firstChild.nodeValue;
var id=onewarnlist[8].firstChild.nodeValue;
if(onewarnlist[6].firstChild.nodeValue==0)
{
var dealwith="未处理" ;
}
else {
var dealwith="<font color='red'>已处理</font>";
}
var table=document.getElementById('warntable');
var tr=document.createElement('tr');
 if(x%2==1)
{
tr.style.backgroundColor="#BFD3F9"
}
else{
tr.style.backgroundColor="#FBFCEB"
}
x++;
table.appendChild(tr);
var td=document.createElement('td');
td.className ='listText';
td.innerHTML =x;
tr.appendChild(td);
var td1=document.createElement('td');
td1.className ='listText';
td1.innerHTML = leave;
tr.appendChild(td1);
var td2=document.createElement('td');
td2.className ='listText';
td2.innerHTML = from;
tr.appendChild(td2);
var td3=document.createElement('td');
td3.className ='listText';
td3.innerHTML = warncontent;
tr.appendChild(td3);6
var td4=document.createElement('td');
td4.className ='listText';
td4.innerHTML = aviliablevalue;
tr.appendChild(td4);
var td5=document.createElement('td');
td5.className ='listText';
td5.innerHTML = '<font color="#FF0000">'+warnvalue+'</font>';
tr.appendChild(td5);
var td6=document.createElement('td');
td6.className ='listText';
td6.innerHTML = warntime;
tr.appendChild(td6);
var td7=document.createElement('td');
td7.className ='listText';
td7.innerHTML = dealwith;
tr.appendChild(td7);
var td8=document.createElement('td');
td8.className ='listText';
td8.innerHTML = id;
tr.appendChild(td8);
   }

ok，一切大功告成，以下是最终效果

XMLHelper.rar (488 Bytes)
描述: 简单的，生成xml格式文本的类
下载次数: 806

LinuxSystemTool.rar (871 Bytes)
描述: 用来获取linux系统信息 ecsun兄的LinuxSystemTool类
下载次数: 889

分享到：

密码强度检测 | JAVA读取WORD,EXCEL,POWERPOINT,PDF文件的 ...

2008-08-16 12:38
浏览 30717
评论(43)
论坛回复 / 浏览 (40 / 35400)
分类:企业架构
查看更多

23 楼 xieke 2008-08-21

kakaluyi 写道

xieke 写道

kakaluyi 写道

楼上的朋友建议很好，但是不符合我这个系统吧，如果用push（服务器驱动客户端），
像我做的cpu，内存等系统信息不好做成服务端的事件驱动吧，总不能每内存， cpu有改变就推
一次客户端，只能用轮询的方法吧

你说的轮询是指服务器端的，是监控数据的实现。
他们说的推指客户端的，指浏览器取数据的方式，不一样的。

不不，我的轮询是客户端（浏览器）发送请求轮询服务器的系统信息，当然项目要做的是一个会议系统就是一个推比如有用户进入会议，则要通知浏览器有用户进入，这样就要用到长连接，要servlet和客户端一直挂住，这就是我理解的推，由事件驱动，如果由客户端一直查询servlet是否有用户加入会议，则用到了轮询，这个实时性都非常不好，性能也损失很大，正在优化，每个用户进入会议想把从轮询过度到，服务端通知浏览器。而这个实时监控我觉得用浏览器轮询服务器会比较好，因为系统信息不好事件驱动

我开始以为系统是这么设计的，
在服务器端开一个线程不断轮询，当查询到有新数据时，保存数据等待客户端来取，或者直接推给客户端。

你的方案是ajax直接来轮询，这样做网络流量会变大，对服务器压力也大。我觉得可以改进成服务器端轮询，有数据变化的时候推给客户端的方式。

22 楼 duobin3000 2008-08-21

用什么ajax去刷新啊，报警的时候把数据推送到前台，节省资源。

21 楼 kakaluyi 2008-08-20

xboss 写道

有现成的开源的Ganglia，很好用，我们公司就用他

http://wiki.huihoo.com/index.php?title=Ganglia

谢谢分享，看起来不错，似乎可以支持集群和分布式，好好研究一下

20 楼 xboss 2008-08-20

有现成的开源的Ganglia，很好用，我们公司就用他

http://wiki.huihoo.com/index.php?title=Ganglia

19 楼 kakaluyi 2008-08-20

neora 写道

给良好了。这是非常有热情的帖子阿。JavaEye应该也鼓励这种展示自己的精神的。这类东西我以前也做过。原理类似。不过给你几个小建议：

不要用静态类（方法）来完成采集。用下面的方式：

定义一个接口
Interface SysInfoFetcher {
    public CpuInfo fetchCpuInfo();
    public MemInfo fetchMemInfo();
    public DiskInfo fetchDIskInfo();
}

然后把你自己写的代码重构成下面的东东：
class LinuxSysInfoFetcher implements SysInfoFetcher {
    //TODO 实现相应的方法
}

这样的好处在于：
1、你的前端应用代码可以面向SysInfoFetcher接口来编写，不依赖具体的实现；
2、你现在可以在现在的项目中注入LinuxSysInfoFetcher实现，今后如果有精力或者有能力了，还可以写若干个WinxpSysInfoFetcher或者SolarisSysInfoFetcher。你的代码生命就延长了扩展了。
3、也许有一天你觉得你掌握JNI了，于是你可以用JNI重构LinuxSysInfoFetcher,而不影响接口和前段应用。甚至你可以直接写个新的LinuxISysInfoFetcherJniImpl实现类。

到了那一天，你就可以把包直接放到sf.net上了。

接口的建议非常好，以前写代码没有想过设计模式，都是想到用什么就写什么，没有设计可能是菜鸟的必经阶段吧，一语惊醒梦中人啊，确实用接口来重构这样非常方便扩展，已经在项目中接入接口了，必要的时候还准备用snmp4j来扩展监控更多的功能。
看了后真的很振奋，被投了良好贴啊（虽然是精神鼓励成分比较大），以后一定会继续把原创的体验放到javaeye上让大家拍砖，虽然很多技术没有创新，也没什么特别好的架构和选型，但新人真的很需要这种鼓励，这里多谢neora的建议和鼓励（写了那么多），和对菜鸟的关怀

18 楼 ffyahoo 2008-08-20

我们使用snmphibernate, cpu, memory信息都可以取到了，jboss就用jmx，然后一个timetask去轮询访问各个点。

17 楼 neora 2008-08-20

16 楼 pdw2009 2008-08-20

ajax可以考虑使用DWR简单,方便

15 楼 kakaluyi 2008-08-19

xieke 写道

kakaluyi 写道

你说的轮询是指服务器端的，是监控数据的实现。
他们说的推指客户端的，指浏览器取数据的方式，不一样的。

14 楼 xieke 2008-08-19

kakaluyi 写道

你说的轮询是指服务器端的，是监控数据的实现。
他们说的推指客户端的，指浏览器取数据的方式，不一样的。

13 楼 kakaluyi 2008-08-19

12 楼 vip01 2008-08-19

偶就是用退的
JMS推到监控服务器
服务器用bds推到页面flex
全程无刷新
动态实时

11 楼 troyconder 2008-08-19

wzpwork 写道

不错,学习了.其实像这个应用,不用AJAX也可以,直接用XMLHTTP.

你现在用的Ajax其实就是个拉模型技术需要的时候不停的去取信息相反你也可以采用推模型的技术通过模拟Http协议不停的像客户端发送信息这样实时性是非常高的

10 楼 troyconder 2008-08-19

适合学习玩玩但不实用程序设计比较有创意让我回想起很久以前设计的IP语音会议的实时监控原理差不多但是Java毕竟是Java 后来我们的程序改用Qt写了祝你好运。

9 楼 jackchen_2008 2008-08-19

可以参考一下jsnmp或snmp4j

8 楼。。。 2008-08-18

我以前做过一个项目里面涉及过这方面的需求是采用SNMP实现的。LZ不妨参考下SNMP相关的资料

7 楼 godson_2003 2008-08-18

楼主能不能直接给个war包？

6 楼 kakaluyi 2008-08-18

回楼上，多谢回复
不过你说不用Ajax而用xmlhttp应该这句话值得商榷吧，
据我所知，XMLHTTP就是Ajax的组成部分吧

5 楼 wzpwork 2008-08-18

不错,学习了.其实像这个应用,不用AJAX也可以,直接用XMLHTTP.

4 楼 kakaluyi 2008-08-18

看来大家很少需要做这种实时监控，或者javaeye大牛真的很多，
觉得鄙人做得东东档次太低，不屑给建议，曲低和寡啊。。。

发表评论

您还没有登录,请您登录后再发表评论

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论