xtuhcy

浏览: 144937 次
性别:
来自: 北京

最近访客更多访客>>

gnomewarlock

zlf3865072

james1110

orangehome

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

java爬虫gecco监控来了，不再裸奔

博客分类：

gecco

java 爬虫 gecco jmxutils jolokia

java爬虫gecco监控来了，不再裸奔

爬虫为什么要监控

gecco是一个十分简单易用的java开源爬虫框架，同时也一个款拥有很好扩展性的框架，目前已经有：

结合spring的插件gecco-spring

结合htmlunit的插件gecco-htmlunit

结合redis的插件gecco-redis

在开发爬虫时，由于要对很多网站和链接进行抓取，并对抓取下来的网站进行内容的抽取。大量的链接下载和内容抽取如果没有监控，很难发现问题。特别是对于主题爬虫，需要抽取页面的具体内容，如果网站改版务必要能尽快的发现并修正，gecco爬虫框架在完成了基本的框架和必要的插件的实现后，将重点放在了监控的开发上。

对扩展开放，对修改关闭的开闭原则一致是gecco框架的基本设计原则。gecco爬虫的监控模块同样基于该原则，基于jmx协议，使用aop模式。

监控指标

爬虫基本信息

刷新基本信息：exec/com.geccocrawler.gecco:name=gecco/monitor

读取基本信息：read/com.geccocrawler.gecco:name=gecco

  {
  Interval: 5000,//抓取间隔时间ms
  StartTime: "2016-03-20 20:34:11",//抓取开始时间
  ThreadCount: 1,//爬虫线程数量
  StarUrlCount: 8//初始url数量
  }

下载监控

获取当前正在抓取的所有域名：exec/com.geccocrawler.gecco:name=downloader/hosts
获取某个域名的下载监控信息：exec/com.geccocrawler.gecco:name=downloader/statistics/xx.xx.com

读取下载监控信息：read/com.geccocrawler.gecco:name=downloader

  Statistics: "{
      "exception":8,//该域名抓取异常的数量，主要是超时等异常
      "serverError":0,//该域名返回500，404等错误信息的数量
      "success":3263//成功抓取数量
  }",
  Host: "xx.xx.com"//域名

内容抽取监控

刷新内容抽取监控信息：exec/com.geccocrawler.gecco:name=render/refresh

获取内容抽取监控信息：read/com.geccocrawler.gecco:name=render

  Statistics: "{
      "xx.xx.com":0,//域名xx.xx.com的网站内容抽取的异常数量
      "yy.yy.com":0//域名yy.yy.com的网站内容抽取的异常数量
  }"

jmxutils和jolokia

jmxutils

gecco的监控使用了jmxutils这个开源的mbean注解框架。在以前的开发工作中要么就用原生的动态mbean，要么是使用spring的jmx注解框架。原生的动态mbean写起来太繁琐，spring的jmx注解框架使用起来还是很方便的，但是现在spring感觉有些重。jmxutils这个框架很轻量，使用方法可以参考https://github.com/martint/jmxutils。

jolokia

Jolokia是一个利用JSON通过Http实现JMX远程管理的开源项目。具有快速、简单等特点。除了支持基本的JMX操作之外，它还提供一些独特的特性来增强JMX远程管理如：批量请求，细粒度安全策略等。也就是说jmx的mbean可以通过http来访问不需要在启动java时配置那么多参数。只需要新增一个servlet：

<servlet>
    <servlet-name>jolokia-agent</servlet-name>
    <servlet-class>org.jolokia.http.AgentServlet</servlet-class>
</servlet>
<servlet-mapping>
    <servlet-name>jolokia-agent</servlet-name>
    <url-pattern>/jmx/*</url-pattern>
</servlet-mapping>

这样应用中的mbean就能轻松控制和访问。jolokia还提供了java客户端和js客户端来访问mbean，具体的使用方法和权限控制可以查看jolokia的官方文档https://jolokia.org/reference/html/index.html

1
顶

2
踩

分享到：

java爬虫gecco的稳定性测试 | java开源爬虫gecco发布版本1.0.6，更灵活 ...

2016-03-21 10:52
浏览 3019
评论(2)
分类:开源软件
查看更多

2 楼 xtuhcy 2016-03-21

Chen.H 写道

结合reids的插件gecco-reids reids=>redis

多谢，已改

1 楼 Chen.H 2016-03-21

结合reids的插件gecco-reids reids=>redis

发表评论

您还没有登录,请您登录后再发表评论

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

java爬虫gecco监控来了，不再裸奔

java爬虫gecco监控来了，不再裸奔

爬虫为什么要监控

监控指标

爬虫基本信息

下载监控

内容抽取监控

jmxutils和jolokia

jmxutils

jolokia

评论

发表评论

相关推荐

最近访客 更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

java爬虫gecco监控来了，不再裸奔

java爬虫gecco监控来了，不再裸奔

爬虫为什么要监控

监控指标

爬虫基本信息

下载监控

内容抽取监控

jmxutils和jolokia

jmxutils

jolokia

评论

发表评论

相关推荐

无头浏览器，从phantomjs到webkit4j

教您使用DynamicGecco抓取JD全部商品信息

DynamicGecco实现爬取规则的动态加载

Gecco爬虫框架的线程和队列模型

Gecco框架典型案例—闲逛APP

gecco 1.1.0稳定版发布，易用的轻量化爬虫

gecco 1.0.9 发布，易用的轻量化爬虫

java开源爬虫gecco 发布1.0.8版本

java爬虫gecco的稳定性测试

java开源爬虫gecco发布版本1.0.6，更灵活的配置downloader

java爬虫gecco支持htmlunit

教您使用java爬虫gecco抓取JD全部商品信息（三）

教您使用java爬虫gecco抓取JD全部商品信息（二）

教您使用java爬虫gecco抓取JD全部商品信息（一）

java开源爬虫gecco详细文档新鲜出炉

Java主题爬虫Gecco发布1.0.4版本

最近访客更多访客>>