`

nutch = Hadoop + Lucene + 网络爬虫(内容属于转载)

阅读更多
原文链接: http://www.ibm.com/developerworks/cn/opensource/os-cn-hadoop1/index.html

Hadoop 是一个开源的可运行于大规模集群上的分布式并行编程框架,由于分布式存储对于分布式编程来说是必不可少的,这个框架中还包含了一个分布式文件系统 HDFS( Hadoop Distributed File System )。也许到目前为止,Hadoop 还不是那么广为人知,其最新的版本号也仅仅是 0.16,距离 1.0 似乎都还有很长的一段距离,但提及 Hadoop 一脉相承的另外两个开源项目 Nutch 和 Lucene ( 三者的创始人都是 Doug Cutting ),那绝对是大名鼎鼎。Lucene 是一个用 Java 开发的开源高性能全文检索工具包,它不是一个完整的应用程序,而是一套简单易用的 API 。在全世界范围内,已有无数的软件系统,Web 网站基于 Lucene 实现了全文检索功能,后来 Doug Cutting 又开创了第一个开源的 Web 搜索引擎(http://www.nutch.org) Nutch, 它在 Lucene 的基础上增加了网络爬虫和一些和 Web 相关的功能,一些解析各类文档格式的插件等,此外,Nutch 中还包含了一个分布式文件系统用于存储数据。从 Nutch 0.8.0 版本之后,Doug Cutting 把 Nutch 中的分布式文件系统以及实现 MapReduce 算法的代码独立出来形成了一个新的开源项 Hadoop。Nutch 也演化为基于 Lucene 全文检索以及 Hadoop 分布式计算平台的一个开源搜索引擎。

基于 Hadoop,你可以轻松地编写可处理海量数据的分布式并行程序,并将其运行于由成百上千个结点组成的大规模计算机集群上。从目前的情况来看,Hadoop 注定会有一个辉煌的未来:"云计算"是目前灸手可热的技术名词,全球各大 IT 公司都在投资和推广这种新一代的计算模式,而 Hadoop 又被其中几家主要的公司用作其"云计算"环境中的重要基础软件,如:雅虎正在借助 Hadoop 开源平台的力量对抗 Google, 除了资助 Hadoop 开发团队外,还在开发基于 Hadoop 的开源项目 Pig, 这是一个专注于海量数据集分析的分布式计算程序。Amazon 公司基于 Hadoop 推出了 Amazon S3 ( Amazon Simple Storage Service ),提供可靠,快速,可扩展的网络存储服务,以及一个商用的云计算平台 Amazon EC2 ( Amazon Elastic Compute Cloud )。在 IBM 公司的云计算项目--"蓝云计划"中,Hadoop 也是其中重要的基础软件。Google 正在跟IBM合作,共同推广基于 Hadoop 的云计算。
分享到:
评论

相关推荐

    Nutch+solr + hadoop相关框架搭建教程

    Apache Nutch 是一个开源的网络爬虫项目,主要用于构建大规模的搜索引擎。Nutch 提供了从互联网抓取网页、解析内容、提取链接到存储索引的完整流程。Nutch 1.2 版本后,它开始使用 Ivy 进行依赖管理,方便构建和集成...

    nutch+lucene开发自己的搜索引擎ch3.pdf

    部分内容介绍了如何利用开源工具快速搭建具有搜索功能的系统,具体涵盖了Nutch和Lucene的基础知识及其在搜索引擎开发中的应用。 #### 二、Nutch与Lucene简介 1. **Lucene系统概述**: - **背景**: Lucene是由Doug ...

    nutch爬虫+java+eclipse

    Nutch 是一个开源的全文搜索引擎框架,主要用于网络数据抓取,是Java开发的,因此它为Java开发者提供了一个构建大规模网络爬虫的平台。在Java环境下结合Eclipse IDE,我们可以轻松地开发和调试Nutch爬虫项目。下面将...

    Lucene+Nutch搜索光盘资料

    而Nutch则是一个基于Lucene的网络爬虫系统,它能够抓取互联网上的网页并建立索引,为搜索引擎提供数据来源。 一、Lucene详解 Lucene的核心功能包括文本分析、索引构建、搜索和结果排序等。文本分析涉及分词、去除...

    \Lucene Nutch和安装说明文旦

    Lucene是一个全文搜索引擎库,它提供了核心的搜索功能,而Nutch则是一个基于Lucene的开源网络爬虫项目,用于抓取网页并建立索引。描述中的“LuceneChapter12 光盘使用说明.DOC”可能是指一份包含第12章内容的文档,...

    Lucene+nutch搜索引擎开发(源代码)

    Lucene是一个强大的全文检索库,而Nutch则是一个完整的网络爬虫框架,两者结合为搜索引擎的构建提供了全面的解决方案。 Lucene是Java编写的一个高性能、可扩展的信息检索库。它提供了索引和搜索文本的API,支持倒排...

    Nutch公开课从搜索引擎到网络爬虫

    Apache Nutch是一个用Java语言编写的开源搜索引擎项目,最早可以追溯到2002年8月,其设计理念是基于搜索引擎的架构,但随着时间的推移和版本迭代,Nutch逐渐演变成了一个网络爬虫工具。Nutch的发展历程中出现了两个...

    nutch 爬虫数据nutch 爬虫数据nutch 爬虫数据nutch 爬虫数据

    总的来说,Nutch 爬虫数据提供了对互联网内容的深入洞察,对于搜索引擎开发者、数据分析人员以及网络研究者来说具有重要的价值。通过理解和分析这些数据,我们可以了解Nutch如何工作,如何改进其性能,以及如何利用...

    lucene+nutch代码

    Nutch则是在Lucene基础上发展起来的一个开源网络爬虫项目,它负责抓取互联网上的网页并进行预处理,然后利用Lucene进行索引。Nutch的核心组件包括:爬虫(Crawler)、分割器(Segmenter)、索引器(Indexer)和搜索...

    lucene+nutch搜索引擎开发源码1

    Nutch是建立在Lucene基础上的一个开源网络爬虫项目,用于抓取网页并建立可供搜索的索引。Nutch的源码可能包含爬虫的配置、数据存储、URL管理和分发等功能。虽然这个压缩包未提供Nutch的源码,但在学习Lucene的同时,...

    apache-nutch-1.13-src.zip_nutch_网络爬虫

    Apache Nutch 是一款开源的网络爬虫项目,其1.13版本的源代码提供了丰富的学习资源,适合对网络爬虫技术感兴趣的开发者深入研究。Nutch 主要用于抓取、索引和搜索互联网上的信息,它是一个高度可扩展的系统,能够...

    Lucene+Nutch搜索引擎开发

    在探讨“Lucene+Nutch搜索引擎开发”这一主题时,我们需要深入了解Lucene与Nutch这两个开源项目的功能、工作原理以及如何将它们结合起来构建一个高效的搜索引擎。 ### Lucene简介 Lucene是一个高性能、全功能的...

    lucene+nutch搜索引擎(12章源码)

    Nutch是基于Lucene构建的开源网络爬虫项目,用于抓取、索引和搜索Web内容。Nutch的关键特性包括: 1. 网页抓取:通过分布式爬虫系统,Nutch能够高效地抓取大量网页。 2. URL存储与管理:使用URL数据库和分割策略,...

    Lucene+Nutch搜索引擎开发(配套光盘资源)

    Nutch是基于Apache Lucene的开源全文搜索引擎,两者结合使用可以构建强大的网络爬虫和搜索引擎系统。 Lucene是Java编写的一个高性能、全文检索库,它提供了索引和搜索文本的基本功能。Lucene的核心功能包括分词、...

    Apache Nutch网络爬虫 v1.19.zip

    Apache Nutch 是一个开源的网络爬虫项目,用于抓取互联网上的网页并建立索引,以便于搜索引擎进行高效的数据检索。v1.19 是该项目的一个稳定版本,提供了丰富的功能和改进,适用于研究、开发以及各种数据分析任务。...

    Lucene+nutch开发自己的搜索引擎 part2

    Nutch则是一个基于Lucene的开源网络爬虫,它的主要任务是抓取网页并建立索引。Nutch的知识点包括: 1. **爬虫架构**:Nutch采用分布式爬虫设计,利用Hadoop框架处理大规模数据,能有效应对海量网页的抓取和索引。 ...

    Lucene.Nutch搜索引擎开发

    3. **Nutch入门教程**: 这部分内容可能涵盖了Nutch的基本概念、安装配置、配置文件解释、爬虫流程、数据存储(Hadoop HDFS)以及如何进行分布式爬取等。通过学习,读者可以了解如何启动Nutch爬虫,如何定制爬取策略...

    lucene+nutch搜索引擎光盘源码(1-8章)

    第七章开始引入Nutch,Nutch是一个开源的网络爬虫项目,它基于Lucene构建,用于抓取和索引网页。这部分内容会讲解Nutch的架构,配置,以及如何设置和运行爬虫任务。 第八章可能继续深入Nutch,介绍如何处理抓取的...

    Lucene nutch 搜索引擎 开发 实例 源码

    Nutch则是一个完整的网络爬虫项目,它扩展了Lucene的功能,集成了网页抓取、分析、存储和索引等一整套流程。Nutch的源码揭示了其如何使用HTTP协议抓取网页,通过Parser解析HTML内容,然后使用Lucene进行索引。特别地...

Global site tag (gtag.js) - Google Analytics