网络爬虫相关文章

package my.processor;
import java.util.logging.Logger;
import java.util.regex.Matcher;
import java.util.regex.Pattern;

import org.archive.crawler.datamodel.CandidateURI;
import org.archive.crawler.postprocessor.FrontierScheduler;
public class FrontierWsdlOnly extends FrontierScheduler
{

	final static Logger logger=Logger.getLogger(FrontierWsdlOnly.class.getName());		
	public FrontierWsdlOnly(String name) {
		super(name);		
	}
	protected void schedule(CandidateURI caUri){
		
		String url=caUri.toString();
		if(url.endsWith(".jpg")
				||url.endsWith(".gif")
				||url.endsWith(".doc")
				||url.endsWith(".html")
				||url.contains("/images/"))
		{
			return;
		}
		getController().getFrontier().schedule(caUri);		
	}

	
}

切记切记要添加1.12.1-src的conf而不是1.12.1的conf

crawl.rar (8.3 KB)
下载次数: 5

分享到：

项目分析 | 面向服务的开发过程

2009-08-31 15:29
浏览 942
评论(0)
查看更多

发表评论

您还没有登录,请您登录后再发表评论

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

网络爬虫相关文章

1.Programming a Spider in Java

评论

发表评论

相关推荐

最近访客 更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

网络爬虫相关文章

1.Programming a Spider in Java

评论

发表评论

相关推荐

最近访客更多访客>>