elfhash多线程抓取 -

wangwei3

浏览: 123296 次
性别:
来自: 北京

最近访客更多访客>>

jeffkuang

蔚蓝之天空

whut0503

lincolnlee1982

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

elfhash多线程抓取

博客分类：

heritrix

多线程 Scheme

1.添加了org.archive.crawler.frontier.ELFHashQueueAssignmentPolicy.java
public class ELFHashQueueAssignmentPolicy extends QueueAssignmentPolicy {

private static final Logger logger = Logger
.getLogger(ELFHashQueueAssignmentPolicy.class.getName());

private static String DEFAULT_CLASS_KEY = "default...";

private static final String DNS = "dns";

/**
*
*/
@Override
public String getClassKey(CrawlController controller, CandidateURI cauri) {
String uri = cauri.getUURI().toString();
String scheme = cauri.getUURI().getScheme();
String candidate = null;

try {
if (scheme.equals(DNS)) {
if (cauri.getVia() != null) {
// Special handling for DNS: treat as being
// of the same class as the triggering URI.
// When a URI includes a port, this ensures
// the DNS lookup goes atop the host:port
// queue that triggered it, rather than
// some other host queue
UURI viaUuri = UURIFactory.getInstance(cauri.flattenVia());
candidate = viaUuri.getAuthorityMinusUserinfo();
// adopt scheme of triggering URI
scheme = viaUuri.getScheme();
} else {
candidate = cauri.getUURI().getReferencedHost();
}
} else {
// String uri = cauri.getUURI().toString();
long hash = ELFHash(uri);
candidate = Long.toString(hash % 100);
}

if (candidate == null || candidate.length() == 0) {
candidate = DEFAULT_CLASS_KEY;
}
} catch (URIException e) {
logger.log(Level.INFO,
"unable to extract class key; using default", e);
candidate = DEFAULT_CLASS_KEY;
}

return candidate.replace(':', '#');
}

public String getClassKey(String uri) {
// String uri = cauri.getUURI().toString();
long hash = ELFHash(uri);
String a = Long.toString(hash % 100);
return a;
}

public static long ELFHash(String str) {
long hash = 0;
long x = 0;
for (int i = 0; i < str.length(); i++) {
hash = (hash << 4) + str.charAt(i);
if ((x = hash & 0xF0000000L) != 0) {
hash ^= (x >> 24);
hash &= ~x;
}
}
return (hash & 0x7FFFFFFF);
}

public static void main(String args[]){
ELFHashQueueAssignmentPolicy el=new ELFHashQueueAssignmentPolicy();
String a=el.getClassKey("http://www.chinanews.com.cn/");
System.out.println(a);
}

}

2.修改了AbstractFrontier 类的AbstractFrontier方法
/**
         * 自己添加修改的配置----------------------------
         */
        String queueStr = System.getProperty(AbstractFrontier.class.getName() +
                "." + ATTR_QUEUE_ASSIGNMENT_POLICY,
                ELFHashQueueAssignmentPolicy.class.getName() + " " +
                IPQueueAssignmentPolicy.class.getName() + " " +
                BucketQueueAssignmentPolicy.class.getName() + " " +
                SurtAuthorityQueueAssignmentPolicy.class.getName() + " " +
                TopmostAssignedSurtQueueAssignmentPolicy.class.getName());
        Pattern p = Pattern.compile("\\s*,\\s*|\\s+");
       /**
        * -----------------------------------------------
        */
3.修改了heritrix.properties
修改为

#############################################################################
# FRONTIER
#############################################################################

# List here all queue assignment policies you'd have show as a
# queue-assignment-policy choice in AbstractFrontier derived Frontiers
# (e.g. BdbFrontier).
org.archive.crawler.frontier.AbstractFrontier.queue-assignment-policy = org.archive.crawler.frontier.ELFHashQueueAssignmentPolicy org.archive.crawler.frontier.IPQueueAssignmentPolicy org.archive.crawler.frontier.BucketQueueAssignmentPolicy org.archive.crawler.frontier.SurtAuthorityQueueAssignmentPolicy org.archive.crawler.frontier.TopmostAssignedSurtQueueAssignmentPolicy
org.archive.crawler.frontier.BdbFrontier.level = INFO

要新建一个job才有效，否则还是默认的HostnameQueueAssignmentPolicy
还有，有时候只是散列出30个DNS就关闭。
解决方法1,增加入口连接
        2，对这个job重新建立以下with exist

分享到：

job配置经验分享 | heritrix入门及配置

2010-04-02 10:49
浏览 1846
评论(2)
分类:编程语言
查看更多

2 楼 wangwei3 2010-06-29

neolimeng 写道

我遇到了“有时候只是散列出30个DNS就关闭”的情况，请问，如何解决？

有时候只是散列出30个DNS就关闭。
解决方法1,增加入口连接
2，对这个job重新建立以下with exist

1 楼 neolimeng 2010-05-20

我遇到了“有时候只是散列出30个DNS就关闭”的情况，请问，如何解决？

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

基于Heritrix的web信息抽取优化与实现 (2012年): 主要优化手段是运用ELFHash算法实现多线程处理，增加爬取线程数以提高爬取效率。Heritrix的架构是模块化的，每个组件之间通过松耦合的方式连接，允许研究人员根据需要自行拆卸和替换，便于进行自定义开发。在文章...

稳压罐sw16_三维3D设计图纸_包括零件图_机械3D图可修改打包下载_三维3D设计图纸_包括零件图_机械3D图可修改打包下载.zip: 稳压罐sw16_三维3D设计图纸_包括零件图_机械3D图可修改打包下载_三维3D设计图纸_包括零件图_机械3D图可修改打包下载.zip

基于递推最小二乘法的永磁同步电机参数辨识及其MATLAB仿真: 内容概要：本文详细介绍了利用递推最小二乘法（RLS）进行永磁同步电机参数辨识的方法及其MATLAB仿真过程。首先解释了RLS算法的优势，如不需要概率模型、计算量适中以及适用于嵌入式系统的实时参数更新。接着展示了将电机电压方程转换为标准形式Y=φθ的具体步骤，并提供了核心的RLS迭代代码。文中还讨论了仿真过程中的一些关键技术细节，如遗忘因子的选择、协方差矩阵的初始化和更新方式、电流信号的处理方法等。最终给出了仿真结果，显示电阻和电感的辨识误差分别达到了0.08%和0.12%，并指出了实际应用中需要注意的数据同步和数值稳定性问题。适合人群：从事电机控制研究的技术人员、研究生及以上学历的学生。使用场景及目标：①帮助研究人员理解和掌握RLS算法在电机参数辨识中的应用；②提供详细的仿真代码和配置建议，便于快速搭建实验环境；③指导如何优化算法性能，提高参数辨识精度。其他说明：本文不仅涵盖了理论推导，还包括了大量的实践经验分享和技术细节探讨，有助于读者全面理解RLS算法的实际应用。同时，文中提到的仿真方案可以方便地移植到DSP平台，进一步扩展了其实用价值。

零起点Python大数据与量化交易: 零起点Python大数据与量化交易

管道清污机器人sw16可编辑_三维3D设计图纸_包括零件图_机械3D图可修改打包下载_三维3D设计图纸_包括零件图_机械3D图可修改打包下载.zip: 管道清污机器人sw16可编辑_三维3D设计图纸_包括零件图_机械3D图可修改打包下载_三维3D设计图纸_包括零件图_机械3D图可修改打包下载.zip

电路仿真：数字电路仿真.zip: 电子仿真教程，从基础到精通，每个压缩包15篇教程，每篇教程5000字以上。

电能质量分析：电压暂降与中断分析.zip: 电子仿真教程，从基础到精通，每个压缩包15篇教程，每篇教程5000字以上。

thai-scalable-garuda-fonts-0.6.5-1.el8.x64-86.rpm.tar.gz: 1、文件说明： Centos8操作系统thai-scalable-garuda-fonts-0.6.5-1.el8.rpm以及相关依赖，全打包为一个tar.gz压缩包 2、安装指令： #Step1、解压 tar -zxvf thai-scalable-garuda-fonts-0.6.5-1.el8.tar.gz #Step2、进入解压后的目录，执行安装 sudo rpm -ivh *.rpm

基于ABAQUS的滑坡与沉降对埋地管道影响的有限元分析及应用: 内容概要：本文详细介绍了利用ABAQUS进行滑坡和沉降对埋地管道影响的有限元分析方法。主要内容涵盖了几何建模、材料属性定义、接触设置、边界条件与加载等方面的技术细节。通过具体的Python脚本示例展示了如何构建模型，并深入探讨了滑坡和沉降条件下管道的应力、应变分布及其潜在破坏机制。此外，还分享了一些实战经验和优化技巧，如材料模型选择、接触条件设置、边界条件处理等，强调了这些因素对结果准确性的重要影响。适合人群：从事地下管道工程设计、施工及维护的专业技术人员，尤其是那些希望深入了解滑坡和沉降对管道影响的研究人员和技术专家。使用场景及目标：适用于评估和预测滑坡和沉降对埋地管道造成的力学响应，帮助工程师们更好地理解和应对复杂的地质灾害环境，从而提高管道系统的安全性与稳定性。其他说明：文中提供的Python代码片段仅为示意，具体实施时需结合ABAQUS的实际接口和项目需求进行适当调整。同时，对于大规模模型的计算，建议使用高性能计算资源以确保效率和精度。

Java实习一天高频面试突击!最常见的几种面试题型！！！: Java一天面试突击，迅速掌握Java常见面试题

莲子去壳机设计模型SW10_三维3D设计图纸_包括零件图_机械3D图可修改打包下载_三维3D设计图纸_包括零件图_机械3D图可修改打包下载.zip: 莲子去壳机设计模型SW10_三维3D设计图纸_包括零件图_机械3D图可修改打包下载_三维3D设计图纸_包括零件图_机械3D图可修改打包下载.zip

MFRC-522+RC522+RFID射频+IC卡感应模块: MFRC-522+RC522+RFID射频+IC卡感应模块

学术研究学术研究提示设计50招：从论文撰写到润色降重的全方位指南学术研究中常见的: 内容概要：《学术研究提示设计 50 招》是一份详尽的指南，旨在帮助研究人员提高学术写作和研究效率。该文档涵盖了从论文撰写、润色、翻译、查重降重、参考文献管理、投稿审稿到文献阅读等多个方面的具体操作指令。每一章节均针对特定任务提供了详细的步骤和注意事项，例如如何撰写标题、摘要、致谢，如何进行英文润色、中英翻译，以及如何优化逻辑结构等。文档还介绍了如何利用AI工具进行文献分析、术语表提取和研究方向探索等内容，为研究者提供了全面的支持。适合人群：适用于学术研究人员，特别是那些需要撰写、润色和提交学术论文的研究者，包括研究生、博士生及高校教师等。使用场景及目标：① 提供一系列具体的指令，帮助研究者高效完成论文的各个部分，如撰写标题、摘要、致谢等；② 提供润色和翻译的详细指导，确保论文语言的准确性和专业性；③ 提供查重降重的方法，确保论文的原创性；④ 提供参考文献管理和投稿审稿的指导，帮助研究者顺利发表论文；⑤ 利用AI工具进行文献分析、术语表提取和研究方向探索，提高研究效率。阅读建议：此资源不仅提供了具体的指令和方法，更重要的是引导研究者如何思考和解决问题。因此，在学习过程中，不仅要关注具体的步骤，还要理解背后的原理和逻辑，结合实际案例进行实践和反思。

项目optionc-20250409: 项目optionc-20250409

2023年c语言程序设计基本概念考点归纳.doc: 2023年c语言程序设计基本概念考点归纳.doc

电能质量仿真：谐波分析与仿真.zip: 电子仿真教程，从基础到精通，每个压缩包15篇教程，每篇教程5000字以上。

基于Matlab的模拟与数字滤波器设计：IIR、FIR及经典滤波器类型的实战详解: 内容概要：本文详细介绍了使用Matlab进行模拟和数字滤波器设计的方法，涵盖了巴特沃斯、切比雪夫等多种经典滤波器类型。首先讲解了模拟滤波器的设计，如巴特沃斯滤波器的通带平坦性和切比雪夫滤波器的通带波纹特性，并提供了具体的代码示例。接着讨论了数字滤波器的设计，包括IIR滤波器的递归特性和FIR滤波器的线性相位特性，同样附有详细的代码实现。文中还特别强调了不同类型滤波器之间的转换方法以及设计过程中常见的注意事项，如频率归一化、阶数选择等。最后推荐了一些实用的Matlab工具，如fvtool和FDATool，帮助用户更直观地理解和调试滤波器设计。适合人群：具有一定信号处理基础和技术背景的研究人员、工程师及学生。使用场景及目标：适用于需要进行滤波器设计的实际工程应用，如通信系统、音频处理等领域。目标是让读者掌握滤波器设计的基本原理和具体实现方法，能够独立完成滤波器的设计和调试。其他说明：文章不仅提供了理论知识，还通过大量实例代码帮助读者更好地理解和应用所学内容。建议读者在实践中多尝试不同的参数配置，以加深对滤波器特性的理解。

饲料干燥装置sw16_三维3D设计图纸_包括零件图_机械3D图可修改打包下载_三维3D设计图纸_包括零件图_机械3D图可修改打包下载.zip: 饲料干燥装置sw16_三维3D设计图纸_包括零件图_机械3D图可修改打包下载_三维3D设计图纸_包括零件图_机械3D图可修改打包下载.zip

最近访客 更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

elfhash多线程抓取

评论

发表评论

相关推荐

出售分布式网络爬虫程序

Heritrix中的SURT和SurtPrefixedDecideRule

heritrix设计详解(一) 总述

spider技术综述

Heritrix源码之 处理链

Heritrix源码分析(十三) Heritrix的控制中心(大脑)CrawlController(二)

爬虫基本原理及概念

heritrix 下载不通过服务器缓存

转 互联网反爬虫策略

爬虫被封原因

网站防爬虫

Heritrix 学习笔记1.Heritrix defined codes

Heritrix去重

heritrix无法抓取中文URL的问题解决方案

heritrix 多个job合并的方案

继续抓取的一些问题及解决方案

heritrix在原有基础上抓取

job配置经验分享

heritrix入门及配置

最近访客更多访客>>

Heritrix源码之处理链

转互联网反爬虫策略