Heritrix3.1 过滤url - 应用程序员 - ITeye博客

`

阿浊I

浏览: 210318 次
性别:
来自: 北京

最近访客更多访客>>

xiaoran99

jjj000123

dongskjava

schappy

博主相关

博客

微博

相册

收藏

留言

关于我

文章分类

社区版块

存档分类

最新评论

xiaoyao3857：这是什么原理呢？还有，为什么我设好之后，运行appletvie ...
警告：不能读取 AppletViewer 的属性文件解决
阿浊I： I think so,this work had done a ...
How to change max_allowed_packet value in mysql?
zhuorulin：丁林.tb 写道 If you don't use globa ...
How to change max_allowed_packet value in mysql?
丁林.tb： If you don't use global or use ...
How to change max_allowed_packet value in mysql?

Heritrix3.1 过滤url

博客分类：

Heritrix

阅读更多

现在做Heritrix抓取，由于java版本之类的，我选择用了3.1，可是大部分的资料都是介绍1.14的，太让人生气，尤其一个最简单的功能：让保留的文件是和这个域名下有关的文件，不要被js那些抽取的链接又访问到其他站点抓取。在1.14版本，已经非常多的扩展代码等，可是完全和3.1不同。

在这个前提下，我感觉是可以写个扩展替换的，我这里直接再源码中修改了，所改动的文件是 org.archive.crawler.postprocessor.CandidatesProcessor

写道

protected boolean shouldProcess(CrawlURI puri) {
//return true;
String uris;
uris=puri.toString();
//System.out.println("======>2"+uris);
if (uris.contains("**域名关键字等")){
return true;
}
return false;
}

我也搞不清true false具体代表什么，代码结果显示false是不执行抓取，true是执行抓取

0
顶

1
踩

分享到：

XML文件要有根标签（Extra content at the ... | h5py的安装

2016-06-28 10:54
浏览 1504
评论(0)
分类:Web前端
查看更多

评论

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

heritrix3.1 官方指导手册: ### Heritrix 3.1 官方指导手册 #### 一、简介 Heritrix 是互联网档案馆推出的一款开源、可扩展、可伸缩、具备高质量归档能力的网络爬虫工具。它旨在帮助用户高效地从互联网上抓取数据，并将其归档保存。Heritrix ...

heritrix 3.1: Heritrix 3.1是互联网档案馆开发的一款开源网络爬虫工具，专门用于抓取和保存网页。这款强大的爬虫软件广泛应用于学术研究、数据分析、网站备份等多个领域。了解Heritrix 3.1的默认配置以及类之间的关系对于有效使用...

heritrix-3.1.0 最新jar包: - **URL管理**：Heritrix使用URL队列来管理待抓取的链接，并且可以设置URL过滤规则，避免重复抓取或不符合条件的URL。 - **内容解析**：Heritrix内置了HTML、XML、PDF等多种格式的解析器，可以解析网页内容并提取出...

Lucene2.0+Heritrix(ch4源代码）: Heritrix支持自定义抓取策略，如基于优先级的队列管理、抓取频率限制、URL过滤规则等，确保抓取的高效性和合法性。 2.3 爬虫组件 Heritrix的组件化设计使得开发者可以方便地扩展和定制爬虫行为，如使用不同的解析器...

《开发自己的搜索引擎-Lucene 2.0 Heritrix》cd(全)（下载地址）: 2. **配置爬取规则**：设置URL过滤器、爬取深度限制等参数。 3. **启动爬虫**：Heritrix会根据配置自动抓取页面并存储数据。 4. **数据处理**：对抓取到的数据进行后处理，如清洗、分析等。 ### 三、构建搜索引擎 ...

Global site tag (gtag.js) - Google Analytics