`

Heritrix 抓取 高级篇

阅读更多
使用Heritrix进行抓取网页,有半天阅读我之前博客的话,很容易就能够顺利的进行抓取任务,但在抓取过程中可能会遇到:
1 想抓取特定格式/特定要求 的网页
这个要根据具体的网站,才能采取具体的措施。这主要是根据网站编写的时候,它的出度的具体格式。如果是类似<a href="http://www.xxx.xxx.xx...." ..>这样的可以直接指向某个具体的URL,那么添加到URI中的应该是这个完整的URL,如果是去掉了http://www等的前面的内容,而只是简单指向本网站下的某个网页,那么在加入到URI中的时候,要记得加上头使得它是一个完整的网页的URL。根据CCER网站下的网页内容,自己写了个CCERExtractor.java来进行过滤,只抓取符合条件的URL。
package org.archive.crawler.extractor;

import java.io.IOException;
import java.util.regex.Matcher;
import java.util.regex.Pattern;

import org.apache.commons.httpclient.URIException;
import org.archive.crawler.datamodel.CrawlURI;
import org.archive.io.ReplayCharSequence;
import org.archive.util.HttpRecorder;

/**
 * I ignore the log information.
 * @author Administrator
 *
 */
public class CCERExtractor extends Extractor{
	
	/**
	 * if the url starts with http			----		if it is under http://www.pku.edu.cn, not then "not"
	 * else if matches mailto or javascript	----		"not"
	 * else									----		"yes"
	 */
	public static final String pattern_ahref = "<[aA] href=\"([^\"]+)\"";// group(1)
	
	public CCERExtractor(String name){
		super(name,"CCER Extractor");
	}
	
	public CCERExtractor(String name, String description) {
		super(name, description);
	}

	@Override
	protected void extract(CrawlURI curi) {
		HttpRecorder hr = curi.getHttpRecorder();
		ReplayCharSequence cs = null;
		try {
			cs = hr.getReplayCharSequence();
		} catch (IOException e) {
			e.printStackTrace();
		}
		if(cs == null){
			return;
		}
		
		String content = cs.toString();
		Matcher matcher = Pattern.compile(CCERExtractor.pattern_ahref).matcher(content);
		while(matcher.find()){
			String newUrl = matcher.group(1);
			if(newUrl.startsWith("http")){//find the ccer website
				if(newUrl.startsWith("http://www.pku.edu.cn")){// case 1 that matches
					createAndAddLinkRelativeToBase(curi, newUrl, Link.NAVLINK_HOP);
				}
			}else if(!newUrl.toLowerCase().startsWith("mailto") && !newUrl.toLowerCase().startsWith("javascript")){//case 2 that matches. Ignore the mailto and javascript href. 
				if(newUrl.trim().startsWith("/")){
					newUrl = newUrl.trim().substring(1).trim();
				}
				newUrl = "http://www.ccer.pku.edu.cn/cn/" + newUrl;//" http://www.ccer.pku.edu.cn/cn/ " should be added to the first
				createAndAddLinkRelativeToBase(curi, newUrl, Link.NAVLINK_HOP);// make sure that the newUrl is available.
			}
		}
	}

	private void createAndAddLinkRelativeToBase(CrawlURI curi, String newUrl, char hopType){
		try {
			curi.createAndAddLinkRelativeToBase(newUrl, "", hopType);
		} catch (URIException e) {
			e.printStackTrace();
		}
	}
}


在modules下的Processor.options下将这个新的解析器加入进去,那么在配置的时候便可以出现这个选项。但是必须注意:Crawler是严格按照配置的信息来进行抓取的,所以CCERExtractor必须在ExtractorHttp后面。在options里面的位置无所谓,只要放到extractor中即可,没有先后顺序。



2 单线程的困扰(我之前的博客http://hanyuanbo.iteye.com/blog/788177)

3 机器内存的限制(在run configuration中,设置VM-arguments为-Xmx512m。见附件)

4 robots.txt的限制
这个是“君子协定”的内容,如果不考虑这个限制的话,可以提高抓取的效率(虽然某些网站可能不希望你这样肆无忌惮的抓取它的网站)。这个很简单,只需要把
org.archive.crawler.prefetch.PreconditionEnforcer
中将
private boolean considerRobotsPreconditions(CrawlURI curi) {
         ...
}
改成
private boolean considerRobotsPreconditions(CrawlURI curi) {
        return false;//无论如何都不考虑robots.txt的限制
}

5 有时候配置的时候,那个可选项的下拉菜单没有了!!(在Heritrix的run configuration中,classpath中的user entries中选择右边的advanced,然后选择external folder,选择conf目录即可。见附件)


至此,便开始抓取啦,还是按照之前博客里所说的配置,记得在选择extractor的时候,选择CCERExtractor,并且这个要放在ExtractorHtml后面。抓取过程如下:









  • 大小: 100.3 KB
  • 大小: 40.3 KB
  • 大小: 130.3 KB
  • 大小: 78.6 KB
  • 大小: 92.1 KB
  • 大小: 90.7 KB
  • 大小: 56.6 KB
  • 大小: 187.7 KB
分享到:
评论

相关推荐

    开发自己的搜索引擎——Lucene+Heritrix(第2版)光盘内容

    本篇文章将深入探讨如何使用Lucene和Heritrix这两个强大的工具来开发自己的搜索引擎。 Lucene是一个由Apache软件基金会开发的全文检索库,它是Java编程语言中的一个核心组件,用于构建高效的搜索引擎。Lucene提供了...

    爬虫设计文档 关于网络爬虫设计的文档

    此外,Heritrix是一个高级的爬虫框架,其工作原理包括URI的选择、获取、分析、归档以及处理过的URI标记。Heritrix的核心组件包括范围部件(决定哪些URI被纳入)、边界部件(管理URI的选取和剔除)和处理器链(处理...

    开发自己的搜索引擎7-9

    本篇将深入探讨如何利用Heritrix作为Web爬虫,以及Lucene作为索引和搜索的核心工具,来开发自己的搜索引擎。 Heritrix是一个开源的、高度可配置的Web抓取器,它被广泛用于互联网档案馆和其他需要大规模网页抓取的...

    z_mysearch

    本篇文章将深入探讨如何利用Lucene 2.0和Heritrix来开发一个名为"z_mysearch"的自定义搜索引擎,以及在该过程中针对手机搜索引擎优化网页代码的策略。我们将详细解析"z_mysearch"相较于旧版本的改进之处,以及在实际...

    基于lucene的搜索引擎

    Heritrix是一个开源的网络爬虫,用于抓取网页并将其转化为适合Lucene处理的格式。在本论文中,Heritrix可能被用来收集网络上的数据,然后通过Lucene进行索引和搜索,构建一个全面的网络搜索引擎。 总的来说,基于...

Global site tag (gtag.js) - Google Analytics