nutch 过滤掉不正确的URL实现方法: -

a280606790

浏览: 485733 次
性别:
来自: 湖南

最近访客更多访客>>

paganini0102

Hello---World

yezhi3514

hellodota

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

nutch 过滤掉不正确的URL实现方法:

博客分类：

nutch

Blog

nutch 1.0 读源码，过滤掉不正确的URL实现方法:

对URL不规则或想过滤掉的地方，可以通过修改源码来实现，省去写配置文件，因为配置文件并不是太明朗，有些配置了也不一定成功。所以我考虑在源码上作操作。更好地扩展。当然你也可以去写插件，这儿就不说了，因为我也没有去那样实现，我只是对插件进行了扩展采集自己想要的内容。

过滤URL部分：

类：CrawlDbFilter

// 对url过滤的处理方法。可以实现一个自己的过滤器对URL进行重新定义成自己喜欢的URL
public void map(Text key, CrawlDatum value,
OutputCollector<Text, CrawlDatum> output,
Reporter reporter) throws IOException {

    String url = key.toString();
    if (urlNormalizers) {
      try {
        url = normalizers.normalize(url, scope); // normalize the url
      } catch (Exception e) {
        LOG.warn("Skipping " + url + ":" + e);
        url = null;
      }
    }
    if (url != null && urlFiltering) {
      try {
       //此处为过滤的URL规则
        url = filters.filter(url); // filter the url
      } catch (Exception e) {
        LOG.warn("Skipping " + url + ":" + e);
        url = null;
      }
    }

    //在此加入自己的过滤器:如定义MyUrlFilter
    //即可以如此判断：
    // if(url != null){
    // url = MyUrlFilter.filter(url);//处理掉不要的url
    // }


    //如果两次过滤都符合要求规则，则为有效URL
    if (url != null) { // if it passes
      newKey.set(url); // collect it
      output.collect(newKey, value);
    }
}

原文来自：http://nhy520.iteye.com/blog/693512

分享到：

提高Nutch局域网抓取的速度 | nutch中Nutch-defaul.xml相关配置

2010-11-29 22:39
浏览 1999
评论(0)
分类:编程语言
查看更多

发表评论

您还没有登录,请您登录后再发表评论

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

nutch 过滤掉不正确的URL实现方法:

评论

发表评论

相关推荐

最近访客 更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

nutch 过滤掉不正确的URL实现方法:

评论

发表评论

相关推荐

网页去重

nutch 抓取动态网页设置

nutch 中的MapReduce详细分析

提高Nutch局域网抓取的速度

nutch中Nutch-defaul.xml相关配置

nutch的核心流程分析

Nutch中文分词总结

nutch累积式抓取

提高Nutch局域网抓取的速度

nutch如何才能抓取到动态的url

Nutch-0.9源代码：Crawl类整体分析

网络爬虫调研报告

配置完成nutch容易出现的错误

Nutch1.0的配置与运行

Nutch1.0的配置与运行

Nutch的资料

nutch的基本工作流程理解

最近访客更多访客>>