Nutch 是一个基于Lucene开发的诞生不久的开放源代码(open-source)的web搜索引擎.
尽管Web搜索是漫游Internet的基本要求, 但是现有web搜索引擎的数目却在下降. 并且这很有可能进一步演变成为一个公司垄断了几乎所有的web搜索为其谋取商业利益.这显然不利于广大Internet用户.
Nutch为我们提供了这样一个不同的选择. 相对于那些商用的搜索引擎, Nutch作为开放源代码搜索引擎将会更加透明, 从而更值得大家信赖. 现在所有主要的搜索引擎都采用私有的排序算法, 而不会解释为什么一个网页会排在一个特定的位置. 除此之外, 有的搜索引擎依照网站所付的费用, 而不是根据它们本身的价值进行排序. 与它们不同, Nucth没有什么需要隐瞒, 也没有动机去扭曲搜索的结果. Nutch将尽自己最大的努力为用户提供最好的搜索结果.
Nutch 致力于让每个人能很容易, 同时花费很少就可以配置世界一流的Web搜索引擎. 为了完成这一宏伟的目标, Nutch必须能够做到:
---每个月取几十亿网页
---为这些网页维护一个索引
---对索引文件进行每秒上千次的搜索
---提供高质量的搜索结果
---以最小的成本运作
分享到:
相关推荐
11. **ivy** 文件夹或文件:Ivy是一个依赖管理工具,Nutch使用它来管理和解决项目依赖,使得构建过程更加简单。 通过研究这个Nutch工具包,开发者可以了解到Nutch的架构设计,如何配置和运行爬虫,以及如何处理抓取...
段是爬行过程中的临时存储单元,每个段包含了一次抓取循环中获取的网页及其索引。根据Web DB生成的抓取列表(Fetch List),Fetcher抓取URL对应的网页,构建索引后存储在段中。段的生命周期有限,随着新抓取的发生,...
通过Eclipse编译Nutch-1.0不仅是一次技术实践,更是深入理解开源软件开发流程的机会。它帮助开发者掌握跨平台的项目构建技巧,同时也提供了学习如何解决开源项目中常见问题的经验。这对于任何希望在IT行业特别是...
每循环一次就生成一个页面链接,并且通过表单提交的方式跳转到相应的页面。页面编号通过 `<%=i / hitsPerPage + 1%>` 计算得出。 ##### 4. 下一页功能实现 ```java if ((hits.totalIsExact() && end ()) || (!...
- 第一次排序的实现方法。 - 第二次排序的目的及其实现方式。 - 如何优化二次排序过程以提高整体性能。 #### 十一、Hive SQL 手册翻译 - **主要内容**:翻译并介绍了 Hive SQL 的使用手册。 - **技术要点**: ...
二次排序 联接 map端联接 reduce端联接 边数据分布 利用JobConf来配置作业 分布式缓存 MapReduce库类 第9章 构建Hadoop集群 集群规范 网络拓扑 集群的构建和安装 安装Java 创建Hadoop用户...
二次排序 联接 map端联接 reduce端联接 边数据分布 利用JobConf来配置作业 分布式缓存 MapReduce库类 第9章 构建Hadoop集群 集群规范 网络拓扑 集群的构建和安装 安装Java 创建Hadoop用户 安装Hadoop 测试安装 SSH...
论文要求学生独立完成,字数要求超过5000字,可以使用中文或英文写作,需在第8周前通过FTP上传。 通过本课程的学习,学生不仅能够掌握Hadoop生态系统的理论知识,还能通过实践环节熟悉大数据技术的实际应用,为将来...
本书由第四版,意味着它已经经历了多次修订和更新,以保持内容的前沿性和相关性。从书中提供的片段可以得知,Hadoop起源于Nutch项目,该项目旨在开发一个开源的网络搜索引擎。由于网络数据规模巨大,开发者们面临着...
6. **内存管理与性能优化**:合理设计数据结构,减少内存占用,例如使用生成器避免一次性加载大量数据。同时,可以对解析过程进行优化,如使用XPath或CSS选择器代替正则表达式,提高解析速度。 7. **持久化存储优化...
一般而言,数据块的第一个副本会被放置在客户端所在的数据节点上(如果客户端是数据节点的话),第二个副本会被放置在集群内的另一个节点上,第三个副本则会被放置在另一个机架上的节点上。 ##### 5.2 数据块选择 ...
- **2.2.4 Nutch网络搜索软件**:Nutch是一款开源的网络爬虫项目,用于抓取网页并构建索引,本节介绍其基本使用方法。 - **2.2.5 用户界面**:讨论如何设计友好的用户界面,以便用户更轻松地使用搜索引擎。 - **...
Nutch是一种开源的Java实现搜索引擎框架,能够提供完整的搜索引擎工具,包括全文搜索和Web爬虫功能。 - **基础架构**:Nutch基于Lucene和Hadoop,利用Hadoop的分布式处理模型保证系统的高性能,同时通过插件机制实现...