有哪位哥们知道为什么我用Heritrix抓取页面(在一个网站中),却只有一个线程工作.
package com.lantao.bookuu.frontierschedule;
import org.archive.crawler.datamodel.CandidateURI;
import org.archive.crawler.framework.CrawlController;
import org.archive.crawler.frontier.QueueAssignmentPolicy;
public class MyQueueAssignmentPolicy extends QueueAssignmentPolicy {
@Override
public String getClassKey(CrawlController controller, CandidateURI cauri) {
String uri = cauri.getUURI().toString();
long hash = ELFHash(uri);
String a = Long.toString(hash % 100);
return a;
}
public long ELFHash(String str)
{
long hash = 0;
long x = 0;
for(int i = 0; i < str.length(); i++)
{
hash = (hash << 4) + str.charAt(i);
if((x = hash & 0xF0000000L) != 0)
{
hash ^= (x >> 24);
hash &= ~x;
}
}
return hash & 0x7FFFFFFF;
}
}
分享到:
相关推荐
在这个项目中,我们将使用Apache Lucene和Heritrix这两个开源工具来开发我们自己的搜索引擎。Apache Lucene是一个强大的全文搜索引擎库,而Heritrix则是一个功能丰富的网页抓取器,用于收集互联网上的数据。接下来,...
除了Lucene和Heritrix之外,开发搜索引擎还需要掌握其他一些技能和知识点,比如网络协议的理解、服务器和数据库的使用、数据存储技术、编程语言(尤其是Java)的熟练运用等等。此外,搜索算法的设计和优化也是一个...
开发自己的搜索引擎---Lucene+Heritrix(第2版)。超星导出来的,非常清晰。CSDN上传限制60MB,点击我的用户名查看part2。
《开发自己的搜索引擎--Lucene+Heritrix》这本书是中国首部深入探讨搜索引擎开发的专业书籍,其内容涵盖了从理论到实践的全面知识体系。书中重点介绍了两个核心工具:Apache Lucene和Heritrix,它们在搜索引擎开发...
在这个过程中,Lucene 和 Heritrix 是两个非常关键的工具,它们分别在搜索引擎的构建中扮演着不同的角色。 首先,Lucene 是一个基于 Java 的开源信息检索库,它为开发者提供了一系列用于构建搜索引擎的工具和接口。...
本章节将深入探讨如何利用Lucene 2.0和Heritrix来开发自己的搜索引擎。 Lucene是Apache软件基金会的一个开放源代码项目,它是一个全文检索库,提供了强大的文本搜索功能。在Lucene 2.0版本中,它已经相当成熟,支持...
开发自己的搜索引擎 Lucene Heritrix 第2版
根据提供的文件信息,我们可以深入探讨与“开发自己的搜索引擎-Lucene 2.0 Heritrix”相关的知识点,主要包括Lucene 2.0和Heritrix的基本概念、特点以及如何利用它们来构建一个简单的搜索引擎。 ### 一、Lucene 2.0...
通过深入学习和实践Lucene和Heritrix,开发者可以掌握构建自定义搜索引擎的关键技术,满足特定业务需求,如垂直搜索、内部文档检索等。同时,理解这两个工具的内部工作原理,也有助于提升对信息检索系统设计的整体...
《构建个人搜索引擎:深入理解Lucene 2.0与Heritrix》 在这个数字化时代,搜索引擎已经成为我们获取信息的关键工具。对于IT专业人士来说,了解并掌握搜索引擎的内部工作原理及开发技术,不仅可以提升自身技能,还能...
Lucene和Heritrix是两个在信息技术领域中用于搜索引擎构建的重要工具。Lucene是一个高性能、全文本搜索库,由Apache软件基金会开发,它提供了一个简单的API来索引和搜索大量文本数据。Heritrix,另一方面,是一个...
《搜索引擎Lucene+Heritrix(第二版)4》是一本深入探讨搜索引擎技术的专业书籍,主要围绕两个核心组件——Lucene和Heritrix展开。Lucene是Apache软件基金会的一个开源全文检索库,而Heritrix则是一个网络爬虫工具,...
这里我们关注的是基于开源项目Lucene 2.0和Heritrix的一本书——《开发自己的搜索引擎》的源码资料。Lucene是一个高性能、全文本搜索库,而Heritrix则是一个强大的网页抓取工具,它们共同构成了搜索引擎的基础架构。...
### 开发自己的搜索引擎:Lucene 2.0 + Heritrix #### 一、概述 在构建搜索引擎的过程中,Lucene 和 Heritrix 是两个至关重要的工具。本文将深入探讨这两个工具的功能及其如何协同工作,帮助读者理解如何使用它们...
在探究如何使用Lucene和Heritrix构建搜索引擎之前,我们需要了解这两个工具分别扮演的角色及其在搜索引擎开发中的作用。 Lucene是一个高性能、可伸缩、可扩展的全文检索库,它是用Java编写的开源项目。Lucene的目的...
讲一个简单搜索引擎的实现,深入浅出,很容易理解
讲一个简单搜索引擎的实现,深入浅出,很容易理解
讲一个简单搜索引擎的实现,深入浅出,很容易理解