heritrix ELFHash多线程抓取

eimhee

浏览: 2179457 次
性别:
来自: 北京

最近访客更多访客>>

loginboot

u012363178

feichuanliushi

xx5333

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

博客分类：

heritrix

多线程 Scheme

1.添加了org.archive.crawler.frontier.ELFHashQueueAssignmentPolicy.java

引用

public class ELFHashQueueAssignmentPolicy extends QueueAssignmentPolicy {

private static final Logger logger = Logger
.getLogger(ELFHashQueueAssignmentPolicy.class.getName());

private static String DEFAULT_CLASS_KEY = "default...";

private static final String DNS = "dns";

/**
*
*/
@Override
public String getClassKey(CrawlController controller, CandidateURI cauri) {
String uri = cauri.getUURI().toString();
String scheme = cauri.getUURI().getScheme();
String candidate = null;

try {
if (scheme.equals(DNS)) {
if (cauri.getVia() != null) {
// Special handling for DNS: treat as being
// of the same class as the triggering URI.
// When a URI includes a port, this ensures
// the DNS lookup goes atop the host:port
// queue that triggered it, rather than
// some other host queue
UURI viaUuri = UURIFactory.getInstance(cauri.flattenVia());
candidate = viaUuri.getAuthorityMinusUserinfo();
// adopt scheme of triggering URI
scheme = viaUuri.getScheme();
} else {
candidate = cauri.getUURI().getReferencedHost();
}
} else {
// String uri = cauri.getUURI().toString();
long hash = ELFHash(uri);
candidate = Long.toString(hash % 100);
}

if (candidate == null || candidate.length() == 0) {
candidate = DEFAULT_CLASS_KEY;
}
} catch (URIException e) {
logger.log(Level.INFO,
"unable to extract class key; using default", e);
candidate = DEFAULT_CLASS_KEY;
}

return candidate.replace(':', '#');
}

public String getClassKey(String uri) {
// String uri = cauri.getUURI().toString();
long hash = ELFHash(uri);
String a = Long.toString(hash % 100);
return a;
}

public static long ELFHash(String str) {
long hash = 0;
long x = 0;
for (int i = 0; i < str.length(); i++) {
hash = (hash << 4) + str.charAt(i);
if ((x = hash & 0xF0000000L) != 0) {
hash ^= (x >> 24);
hash &= ~x;
}
}
return (hash & 0x7FFFFFFF);
}

public static void main(String args[]){
ELFHashQueueAssignmentPolicy el=new ELFHashQueueAssignmentPolicy();
String a=el.getClassKey("http://www.chinanews.com.cn/");
System.out.println(a);
}

}

2.修改了AbstractFrontier 类的AbstractFrontier方法
/**
         * 自己添加修改的配置----------------------------
         */
        String queueStr = System.getProperty(AbstractFrontier.class.getName() +
                "." + ATTR_QUEUE_ASSIGNMENT_POLICY,
                ELFHashQueueAssignmentPolicy.class.getName() + " " +
                IPQueueAssignmentPolicy.class.getName() + " " +
                BucketQueueAssignmentPolicy.class.getName() + " " +
                SurtAuthorityQueueAssignmentPolicy.class.getName() + " " +
                TopmostAssignedSurtQueueAssignmentPolicy.class.getName());
        Pattern p = Pattern.compile("\\s*,\\s*|\\s+");
       /**
        * -----------------------------------------------
        */

3.修改了heritrix.properties
修改为

引用

#############################################################################
# FRONTIER
#############################################################################

# List here all queue assignment policies you'd have show as a
# queue-assignment-policy choice in AbstractFrontier derived Frontiers
# (e.g. BdbFrontier).
org.archive.crawler.frontier.AbstractFrontier.queue-assignment-policy = org.archive.crawler.frontier.ELFHashQueueAssignmentPolicy org.archive.crawler.frontier.IPQueueAssignmentPolicy org.archive.crawler.frontier.BucketQueueAssignmentPolicy org.archive.crawler.frontier.SurtAuthorityQueueAssignmentPolicy org.archive.crawler.frontier.TopmostAssignedSurtQueueAssignmentPolicy
org.archive.crawler.frontier.BdbFrontier.level = INFO

要新建一个job才有效，否则还是默认的HostnameQueueAssignmentPolicy
还有，有时候只是散列出30个DNS就关闭。
解决方法1,增加入口连接
2，对这个job重新建立以下with exist

因为heritrix1.14.4 默认认为你的站点是按每个域名来爬的, 修改成一个站点多个线程，会有一定问题，比如导致很多次执行同样的DNS。建议使用heritrix3, heritrix3能支持这个功能

2
顶

2
踩

分享到：

Inner Join with hibernate and HQL | 各类网络spider蜘蛛User-Agent标识

2010-07-17 12:50
浏览 4171
评论(1)
分类:编程语言
查看更多

1 楼 xtuali 2012-12-23

Heritrix3好像默认也是单线程的，不知道在哪配置呢？谢谢！

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

基于Heritrix的web信息抽取优化与实现 (2012年): 主要优化手段是运用ELFHash算法实现多线程处理，增加爬取线程数以提高爬取效率。Heritrix的架构是模块化的，每个组件之间通过松耦合的方式连接，允许研究人员根据需要自行拆卸和替换，便于进行自定义开发。在文章...

SNS单模无芯光纤仿真与传感器结构特性分析——基于Rsoft beamprop模块: 内容概要：本文主要探讨了SNS单模无芯光纤的仿真分析及其在通信和传感领域的应用潜力。首先介绍了模间干涉仿真的重要性，利用Rsoft beamprop模块模拟不同模式光在光纤中的传播情况，进而分析光纤的传输性能和模式特性。接着讨论了光纤传输特性的仿真，包括损耗、色散和模式耦合等参数的评估。随后，文章分析了光纤的结构特性，如折射率分布、包层和纤芯直径对性能的影响，并探讨了镀膜技术对光纤性能的提升作用。最后，进行了变形仿真分析，研究外部因素导致的光纤变形对其性能的影响。通过这些分析，为优化光纤设计提供了理论依据。适合人群：从事光纤通信、光学工程及相关领域的研究人员和技术人员。使用场景及目标：适用于需要深入了解SNS单模无芯光纤特性和优化设计的研究项目，旨在提高光纤性能并拓展其应用场景。其他说明：本文不仅提供了详细的仿真方法和技术细节，还对未来的发展方向进行了展望，强调了SNS单模无芯光纤在未来通信和传感领域的重要地位。

发那科USM通讯程序socket-rece: 发那科USM通讯程序socket-set

嵌入式八股文面试题库资料知识宝典-WIFI.zip: 嵌入式八股文面试题库资料知识宝典-WIFI.zip

JS+HTML源码与image: 源码与image

物流行业车辆路径优化：基于遗传算法和其他优化算法的MATLAB实现及应用: 内容概要：本文详细探讨了物流行业中路径规划与车辆路径优化（VRP）的问题，特别是针对冷链物流、带时间窗的车辆路径优化（VRPTW）、考虑充电桩的车辆路径优化（EVRP）以及多配送中心情况下的路径优化。文中不仅介绍了遗传算法、蚁群算法、粒子群算法等多种优化算法的理论背景，还提供了完整的MATLAB代码及注释，帮助读者理解这些算法的具体实现。此外，文章还讨论了如何通过MATLAB处理大量数据和复杂计算，以得出最优的路径方案。适合人群：从事物流行业的研究人员和技术人员，尤其是对路径优化感兴趣的开发者和工程师。使用场景及目标：适用于需要优化车辆路径的企业和个人，旨在提高配送效率、降低成本、确保按时交付货物。通过学习本文提供的算法和代码，读者可以在实际工作中应用这些优化方法，提升物流系统的性能。其他说明：为了更好地理解和应用这些算法，建议读者参考相关文献和教程进行深入学习。同时，实际应用中还需根据具体情况进行参数调整和优化。

嵌入式八股文面试题库资料知识宝典-C and C++ normal interview_8.doc.zip: 嵌入式八股文面试题库资料知识宝典-C and C++ normal interview_8.doc.zip

基于灰狼优化算法的城市路径规划Matlab实现——解决TSP问题: 内容概要：本文介绍了基于灰狼优化算法（GWO）的城市路径规划优化问题（TSP），并通过Matlab实现了该算法。文章详细解释了GWO算法的工作原理，包括寻找猎物、围捕猎物和攻击猎物三个阶段，并提供了具体的代码示例。通过不断迭代优化路径，最终得到最优的城市路径规划方案。与传统TSP求解方法相比，GWO算法具有更好的全局搜索能力和较快的收敛速度，适用于复杂的城市环境。尽管如此，算法在面对大量城市节点时仍面临运算时间和参数设置的挑战。适合人群：对路径规划、优化算法感兴趣的科研人员、学生以及从事交通规划的专业人士。使用场景及目标：①研究和开发高效的路径规划算法；②优化城市交通系统，提升出行效率；③探索人工智能在交通领域的应用。其他说明：文中提到的代码可以作为学习和研究的基础，但实际应用中需要根据具体情况调整算法参数和优化策略。

嵌入式八股文面试题库资料知识宝典-Intel3.zip: 嵌入式八股文面试题库资料知识宝典-Intel3.zip

嵌入式八股文面试题库资料知识宝典-2019京东C++.zip: 嵌入式八股文面试题库资料知识宝典-2019京东C++.zip

嵌入式八股文面试题库资料知识宝典-北京光桥科技有限公司面试题.zip: 嵌入式八股文面试题库资料知识宝典-北京光桥科技有限公司面试题.zip

物理学领域十字形声子晶体的能带与传输特性研究及应用: 内容概要：本文详细探讨了十字形声子晶体的能带结构和传输特性。首先介绍了声子晶体作为新型周期性结构在物理学和工程学中的重要地位，特别是十字形声子晶体的独特结构特点。接着从散射体的形状、大小、排列周期等方面分析了其对能带结构的影响，并通过理论计算和仿真获得了能带图。随后讨论了十字形声子晶体的传输特性，即它对声波的调控能力，包括传播速度、模式和能量分布的变化。最后通过大量实验和仿真验证了理论分析的正确性，并得出结论指出散射体的材料、形状和排列方式对其性能有重大影响。适合人群：从事物理学、材料科学、声学等相关领域的研究人员和技术人员。使用场景及目标：适用于希望深入了解声子晶体尤其是十字形声子晶体能带与传输特性的科研工作者，旨在为相关领域的创新和发展提供理论支持和技术指导。其他说明：文中还对未来的研究方向进行了展望，强调了声子晶体在未来多个领域的潜在应用价值。

嵌入式系统开发_USB主机控制器_Arduino兼容开源硬件_基于Mega32U4和MAX3421E芯片的USB设备扩展开发板_支持多种USB外设接入与控制的通用型嵌入式开发平台_.zip: 嵌入式系统开发_USB主机控制器_Arduino兼容开源硬件_基于Mega32U4和MAX3421E芯片的USB设备扩展开发板_支持多种USB外设接入与控制的通用型嵌入式开发平台_

e2b8a-main.zip: e2b8a-main.zip

少儿编程scratch项目源代码文件案例素材-火柴人跑酷(2).zip: 少儿编程scratch项目源代码文件案例素材-火柴人跑酷(2).zip

【HarmonyOS分布式技术】远程启动子系统详解：跨设备无缝启动与智能协同的应用场景及未来展望: 内容概要：本文详细介绍了HarmonyOS分布式远程启动子系统，该系统作为HarmonyOS的重要组成部分，旨在打破设备间的界限，实现跨设备无缝启动、智能设备选择和数据同步与连续性等功能。通过分布式软总线和分布式数据管理技术，它能够快速、稳定地实现设备间的通信和数据同步，为用户提供便捷的操作体验。文章还探讨了该系统在智能家居、智能办公和教育等领域的应用场景，展示了其在提升效率和用户体验方面的巨大潜力。最后，文章展望了该系统的未来发展，强调其在技术优化和应用场景拓展上的无限可能性。适合人群：对HarmonyOS及其分布式技术感兴趣的用户、开发者和行业从业者。使用场景及目标：①理解HarmonyOS分布式远程启动子系统的工作原理和技术细节；②探索该系统在智能家居、智能办公和教育等领域的具体应用场景；③了解该系统为开发者提供的开发优势和实践要点。其他说明：本文不仅介绍了HarmonyOS分布式远程启动子系统的核心技术和应用场景，还展望了其未来的发展方向。通过阅读本文，用户可以全面了解该系统如何通过技术创新提升设备间的协同能力和用户体验，为智能生活带来新的变革。

嵌入式八股文面试题库资料知识宝典-C and C++ normal interview_1.zip: 嵌入式八股文面试题库资料知识宝典-C and C++ normal interview_1.zip

少儿编程scratch项目源代码文件案例素材-激光反弹.zip: 少儿编程scratch项目源代码文件案例素材-激光反弹.zip

最近访客 更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论