论坛首页 Java企业应用论坛

GC调优及awk脚本分析GC日志

浏览 3933 次
精华帖 (0) :: 良好帖 (0) :: 新手帖 (0) :: 隐藏帖 (0)
作者 正文
   发表时间:2011-07-20  
原有GC参数
JAVA_OPTS="-server -XX:+UseParNewGC -Xms768m -Xmx1280m -XX:MaxNewSize=128m -XX:NewSize=128m -XX:PermSize=96m -XX:MaxPermSize=128m -XX:+UseConcMarkSweepGC -XX:+CMSPermGenSweepingEnabled -verbose:gc -XX:+PrintGCDetails -XX:+PrintGCTimeStamps -XX:CMSInitiatingOccupancyFraction=1 -XX:+CMSIncrementalMode -XX:MaxTenuringThreshold=0 -XX:SurvivorRatio=20000 -XX:+UseCMSCompactAtFullCollection -XX:CMSFullGCsBeforeCompaction=0  -XX:CMSIncrementalDutyCycleMin=10 -XX:CMSIncrementalDutyCycle=30 -XX:CMSMarkStackSize=8M -XX:CMSMarkStackSizeMax=32M"
调优后的GC参数
JAVA_OPTS="-server -XX:+UseParNewGC -Xms768m -Xmx1280m -XX:MaxNewSize=128m -XX:NewSize=128m -XX:PermSize=96m -XX:MaxPermSize=128m -XX:+UseConcMarkSweepGC -XX:+CMSPermGenSweepingEnabled -verbose:gc -XX:+PrintGCDetails -XX:+PrintGCTimeStamps -XX:+UseCMSCompactAtFullCollection -XX:CMSFullGCsBeforeCompaction=0  -XX:CMSMarkStackSize=8M -XX:CMSMarkStackSizeMax=32M"

原有现象:

每天有大量的CMS (concurrent mode failure)导致的Full GC.
根据网上相关文档,CMS (concurrent mode failure)的原因为当对年轻代GC时,vm估算年老代空间不足或者由于年老代内存碎片,年老代无法容纳最坏情况下的对象提升(把对象从年轻代移到年老代)而触发。
CMS GC被中断,使用Serial Collector进行Full GC。
一般的处理方式为增大年老代空间,减少年老代内存碎片。

由于原有参数中有-XX:+UseCMSCompactAtFullCollection -XX:CMSFullGCsBeforeCompaction=0,每次都会做compaction,所以推断不是内存碎片的原因。

但是观测GC日志
stdout.log.20110711.142555:26031.261: [Full GC 26031.262: [CMS (concurrent mode failure): 96426K->96441K(655360K), 0.7360040 secs] 182006K->96441K(786368K), [CMS Perm : 52050K->52028K(98304K)], 0.7362900 secs]
发现还有大量的年老代内存未使用。


同时观测到原有配置下CMS GC比较多。
原因为参数配置了 -XX:SurvivorRatio=20000,导致Survivor基本没有被使用,大量短生命对象会被移动到年老代,导致CMS GC比较多。

原来配置的策略是想让对象尽快移动到年老代,使用了iCMS GC,试图尽量降低GC对APP的影响,缩短响应时间。
但是结果导致CMS GC频繁触发。
1670.018: [GC [1 CMS-initial-mark: 92481K(655360K)] 138440K(786368K), 0.0881390 secs]
可以看到,年老代的内存还有大量空闲的时候就会触发CMS GC。

原有-XX:CMSInitiatingOccupancyFraction=1配置基本没有用。
标准CMS可以由以下2个事件触发:
1 vm经过计算认为可以触发了。
2 或者年老代空间占用比超过了CMSInitiatingOccupancyFraction。默认68%。

想让vm只被内存占用比超限触发,可以同时配置
-XX:CMSInitiatingOccupancyFraction=xx和UseCMSInitiatingOccupancyOnly选项。

同时,没有找到iCMS如何决定触发gc的时间。

根据web app的特点,短生命周期对象比较多,应该尽量让对象被minor gc回收掉。一般而言,minor gc的速度还是很快的。
综上所述,调整了GC参数,删除了iCMS的配置,调整SurvivorRatio使用默认值25。

以下为调整前后数据对比(单位为天,空为0):
actioin = concurrent mode failure Unloading class count = 12
actioin = concurrent mode failure Unloading class count =

actioin = concurrent mode failure count = 168 time = 123.321 total_time = 493.283
actioin = concurrent mode failure count =  time =  total_time = 0

actioin = Full GC CMS-concurrent-mark count = 145 time = 64.492 total_time = 64.492
actioin = Full GC CMS-concurrent-mark count =  time =  total_time =

actioin = Full GC Unloading.class count = 10
actioin = Full GC Unloading.class count =

actioin = Full GC count = 156 time = 105.449 total_time = 421.796
actioin = Full GC count = 24 time = 17.0339 total_time = 68.1356

actioin = CMS-initial-mark count = 1560 time = 120.12 total_time = 480.479
actioin = CMS-initial-mark count =  time =  total_time = 0

actioin = Young GC count = 2383 time = 22.6272 total_time = 90.5086
actioin = Young GC count = 2766 time = 22.0372 total_time = 88.1487

可以看到:

GC动作concurrent mode failure Unloading class,原有每天12次左右,调整后为0.

原有concurrent mode failure导致full gc每天168次左右,耗时123.321m,调整后为0.

Full GC CMS-concurrent-mark该动作没有找到确切含义,但是也是从每天145次降到0.

Full GC Unloading.class从每天10次降为0.

Full GC从每天156次,降为24次,时间从105.449m,降到17.0339s。

CMS GC从每天1560,降为0,。

minor GC次数略有增大,但是时间每次minor时间减少,总时间基本保持不变。

总而言之,调整的效果还是比较好的。

经验小结:
搞清楚gc的机制。
搞不清楚的时候动手实验。
只有搞清楚了gc参数的意义并且验证了结果才配置特殊的gc参数。
写脚本分析gc日志来对比调整前后的gc运行情况。

awk脚本如下:
note:
1 由于服务器不支持“语句;语句”的形式,改为{{语句}{语句}}的形式。
2 由于服务器不支持for(init;condition;increment){语句}的形式,改为对应的while形式。


--统计gc信息 单机版本
#本脚本监测GC日志,输出gc动作的次数,耗时。

##start

grep [0-9][0-9][0-9]: stdout.log |
 awk 
 '
BEGIN
{

 #常量定义
{secondsInHour=3600}
{secondsInDay=24*3600}
{zero=0}


 #用户输入变量 机器核数
 {cores=4}
 
 #不需要计算的,这些action都有对应的带有时间的日志输出。
 #33.039: [CMS-concurrent-mark-start]
 #33.261: [CMS-concurrent-preclean-start]
 #33.270: [CMS-concurrent-abortable-preclean-start]
 #37.094: [CMS-concurrent-sweep-start]
 #37.205: [CMS-concurrent-reset-start]
 {ignoreList["CMS-concurrent-mark-start"]=0}
 {ignoreList["CMS-concurrent-preclean-start"]=0}
 {ignoreList["CMS-concurrent-abortable-preclean-start"]=0}
 {ignoreList["CMS-concurrent-sweep-start"]=0}
 {ignoreList["CMS-concurrent-reset-start"]=0}
 
 
                
 #number规定连续的优先级,number越小,优先级越高。
 #以下每个number相同的项,定义了一个gc action。
 
 #gc日志的关键字。可以使用正则表达式。
 #{searchKey[number]="concurrent mode failure"}
 
 #输出中的文字。
 #{msg[number]="concurrent mode failure"}
 
 #该动作是否有耗时,1为有,0为无。
 #{hastime[number]=1}
 
 #查找时间时日志的分隔符。
 #{timesperator[number]="[ ]"}
 
 #耗时所在的序位数,从1开始。
 #{timeindex[number]=10}
 
 #gc是否是并发动作,1为和app并发,0为停止app,只能执行gc.
 #{currentactions[number]=0}
 
 
 
 
 # 没有什么好说的,unloading class。
 {searchKey[1]="concurrent mode failure.*Unloading class"}
 {msg[1]="concurrent mode failure Unloading class"}
 {hastime[1]=0}
 
 # concurrent mode failure
 # The concurrent mode failure can either be avoided by increasing the tenured generation size or initiating the CMS collection at a lesser heap occupancy
 {searchKey[2]="concurrent mode failure"}
 {msg[2]="concurrent mode failure"}
 {hastime[2]=1}
 {timesperator[2]="[ ]"}
 {timeindex[2]=10}
 {currentactions[2]=0}
  
 
 #38182.941: [Full GC 38182.942: [CMS38183.331: [CMS-concurrent-mark: 0.390/60.394 secs] 
 {searchKey[3]="Full.GC.*CMS-concurrent-mark"}
 {msg[3]="Full GC CMS-concurrent-mark"}
 {hastime[3]=1}
 {timesperator[3]="[ /]"}
 {timeindex[3]=7}
 
 #存疑 ???????????????????????????????????????????????????????????????
 #不清楚该项是否为并发。暂定为不是并发。
 {currentactions[3]=0}
 
 
 
 #unloading class
 #202826.209: [Full GC 202826.209: [CMS[Unloading class sun.reflect.GeneratedMethodAccessor1455] 
 {searchKey[4]="Full.GC.*Unloading.class"}
 {msg[4]="Full GC Unloading.class"}
 {hastime[4]=0}
 
 
 
 
 #31312.911: [Full GC 31312.911: [CMS: 95681K->95673K(655360K), 0.6410280 secs] 132804K->95673K(786368K), [CMS Perm : 51969K->51959K(98304K)], 0.6412890 secs]
 {searchKey[5]="Full.GC"}
 {msg[5]="Full GC"}
 {hastime[5]=1}
 {timesperator[5]="[ ]"}
 {timeindex[5]=7}
 {currentactions[5]=0}
 
 
 
 #-------------------------------------------------------
 # CMS phase.
 #-------------------------------------------------------
  
 # CMS initial mark
 #167885.626: [GC [1 CMS-initial-mark: 106656K(655360K)] 152632K(786368K), 0.0822730 secs]
 {searchKey[6]="GC.*CMS-initial-mark"}
 {msg[6]="CMS-initial-mark"}
 {hastime[6]=1}
 {timesperator[6]="[ ]"}
 {timeindex[6]=7}
 {currentactions[6]=0}
 
 # CMS concurrent mark
 #0.334: [CMS-concurrent-mark: 0.077/0.079 secs]
 {searchKey[7]="CMS-concurrent-mark:"}
 {msg[7]="CMS-concurrent-mark"}
 {hastime[7]=1}
 {timesperator[7]="[ /]"}
 {timeindex[7]=4}
 {currentactions[7]=1}
 
 # CMS CMS-concurrent-preclean
 #170972.192: [CMS-concurrent-preclean: 0.000/0.000 secs]
 {searchKey[8]="CMS-concurrent-preclean:"}
 {msg[8]="CMS-concurrent-preclean"}
 {hastime[8]=1}
 {timesperator[8]="[ /]"}
 {timeindex[8]=4}
 {currentactions[8]=1}
 
 # CMS-concurrent-abortable-preclean
 #60.393: [CMS-concurrent-abortable-preclean: 0.000/0.000 secs]
 {searchKey[9]="CMS-concurrent-abortable-preclean:"}
 {msg[9]="CMS-concurrent-abortable-preclean"}
 {hastime[9]=1}
 {timesperator[9]="[ /]"}
 {timeindex[9]=4}
 {currentactions[9]=1}
 
 #  CMS-remark
 #1040.645: [GC[YG occupancy: 67535 K (131008 K)]1040.645: [Rescan (parallel) , 0.0682420 secs]1040.713: [weak refs processing, 0.0219150 secs] [1 CMS-remark: 95660K(655360K)] 163195K(786368K), 0.0903850 secs]
 {searchKey[10]="CMS-remark"}
 {msg[10]="CMS-remark"}
 {hastime[10]=1}
 {timesperator[10]="[ ]"}
 {timeindex[10]=22}
 {currentactions[10]=0}
 
 # CMS-concurrent-sweep
 #42.720: [CMS-concurrent-sweep: 0.052/0.890 secs]
 {searchKey[11]="CMS-concurrent-sweep:"}
 {msg[11]="CMS-concurrent-sweep"}
 {hastime[11]=1}
 {timesperator[11]="[ /]"}
 {timeindex[11]=4}
 {currentactions[11]=1}
 
 
 # CMS-concurrent-reset
 #214.712: [CMS-concurrent-reset: 0.013/0.013 secs]
 {searchKey[12]="CMS-concurrent-reset:"}
 {msg[12]="CMS-concurrent-reset"}
 {hastime[12]=1}
 {timesperator[12]="[ /]"}
 {timeindex[12]=4}
 {currentactions[12]=1}
 
 #-------------------------------------------------------
 # CMS phase end.
 #-------------------------------------------------------
 
 
 # Young GC
 #11135.036: [GC 11135.036: [ParNew: 130944K->0K(131008K), 0.0112680 secs] 233110K->103480K(786368K), 0.0114720 secs]
 {searchKey[13]="GC.*ParNew"}
 {msg[13]="Young GC"}
 {hastime[13]=1}
 {timesperator[13]="[ ]"}
 {timeindex[13]=9}
 {currentactions[13]=0}
 
 
 # 计算要计数的gc action。
 {maxPriority=0}
 
 for(key in searchKey) { maxPriority++ }
 
 
 #变量,最大日期。
 {maxDay=0} 
 
#end of BEGIN 
}


{

# .的位置
{dotIndex=index($0,".")}
# 总秒数
{seconds=zero+substr($0,1,dotIndex)}

# 第几天,index from 0.
{leftDaySeconds=seconds%secondsInDay}
{day=(seconds-leftDaySeconds)/secondsInDay}


# 第几个小时,index from 0.
{leftHourSeconds=leftDaySeconds%secondsInHour}
{hour=(leftDaySeconds-leftHourSeconds)/secondsInHour}

# 存储最大日期。
{maxDay=day}



{temp=1}
while(temp<=maxPriority)
{
  if(match($0,searchKey[temp])>0)
  {

    {gcday[day , msg[temp]]++}
    {gchour[day,hour,msg[temp]]++} 
    
    if(hastime[temp]==1)
    {
     {split($0,fields,timesperator[temp])} 
     {gcdaytime[day,msg[temp]]+=fields[timeindex[temp]]} 
     {gchourtime[day,msg[temp]]+=fields[timeindex[temp]]}
    }
    
    {next}
  }

  {temp++}
}


#忽略指定的gc log
for(ignoreAction in ignoreList)
{
if(index($0,ignoreAction)>0){next}
}

{print $0}

}


END
{

  {temp=1}
  while(temp<=maxPriority)
  {  
    {print "\n\n"}  
    
    {temDay=maxDay}    
    while(temDay>=0)
    {
      
      {timeString=""}      
      {totalTimeString=""}
      
      if(hastime[temp]==1)
      {
      {timeString=" time = " gcdaytime[temDay,msg[temp]]}
      
      
      if(currentactions[temp]==0)
      {totalTimeString=" total_time = " gcdaytime[temDay,msg[temp]]*cores}
      else
      {totalTimeString=" total_time = " gcdaytime[temDay,msg[temp]]}      
      
      }     
      
      
      {print "actioin = " msg[temp] " count = " gcday[temDay,msg[temp]] timeString totalTimeString}
      
      
      {temDay--}        
    }        
    
    
    {temp++}    
  }    
  
}

 '
| less

##end









   发表时间:2011-07-21  
这组原参数跟我上周收到的好像…是同一件事么?
0 请登录后投票
论坛首页 Java企业应用版

跳转论坛:
Global site tag (gtag.js) - Google Analytics