`

nutch 01 认识nutch

阅读更多

1.1 什么是nutch
nutch 就一个开源的java 实现的搜索引擎,它提供了我们运行自己的搜索引擎所需的全部工具,包括全文搜索和web爬虫。现在的nutch 的发展趋势是网络爬虫,全文搜索是用lucene的内核,nutch 是lucene的一个子项目,apache 又从nutch项目里面产生了hadoop,tika,gora等其他子项目,其实就是对一些公共模块的封装,重用,然后起个名字,实现松耦合。

1.2 学nutch的原因
     1,透明性:nutch是开放源代码的,排序算法是公平,透明,没有商业因素,如百度竞价排名等。】
      2,理解搜索引擎:我们没有google的源代码,所以学习nutch有助于我们学习搜索引擎,nutch在写的过程中从学院派和工业派借鉴了很多知识,比如:nutch的核心已经被MapReduce重新实现了,MapReduce是一个分布式的处理模型,最先是从google实验室提出来的,
      3,nutch的扩展性也很好。
1.3 nutch的目标
      让每个人都可以花很少的时间,配置世界上一流的web搜索引擎,所以nutch必须要做到:
          1,每月取几十亿网页。
          2,为这些网页维护一个索引。
          3, 对索引文件进行每秒上千万次的搜索。
          4,提供高质量的搜索结果。
          5,最小成本运行。
1.4 nutch vs lucene
        lucene 不是完整的应用程序,而是实现全文检索的应用程序。
        nutch 是一个应用程序,可以以lucene为基础实现搜索引擎的应用。lucene 为nutch提供了文本索引和搜索的api 。一句话总结nutch抓取数据,用lucene建立索引,提供搜索服务。
1.5 nutch 的发展历程
2002年8月由Doug Cutting发起,托管于Sourceforge,之后发布了0.4、0.5、0.6三个版本
2004年9月Oregon State University(俄勒冈州立大学)采用Nutch
2004年9月Creative Commons(知识共享)推出基于Nutch的搜索服务
2005年1月加入Apache的孵化器
2005年6月孵化结束成为Lucene的子项目
2005年8月发布版本0.7( Apache Lucene sub-project)
2005年10月发布版本0.7.1
2006年3月发布版本0.7.2
2006年7月发布版本0.8(全新的架构,基于Hadoop 0.4 ,Hadoop诞生)其实就是封装常用功能,降低耦合度,起一个新名字。
2006年9月发布版本0.8.1
2007年4月发布版本0.9
2009年3月发布版本1.0(Tika诞生,0.1-incubating)
2010年4月Nutch成为Apache顶级项目
2010年6月发布版本1.1
2010年9月发布版本1.2
2011年6月发布版本1.3( 从搜索引擎到网络爬虫)发展趋势有了小改变。
2011年11月发布版本1.4
2012年6月发布版本1.5

从下面开始有了两个发展方向,1开头的沿着就有的方向发展,2开头的开始孵化出一些新的技术。
2012年7月发布版本2.0( 2.X  Gora诞生,table-based architecture )
2012年7月发布版本1.5.1
2012年8月Nutch诞生十周年
2012年10月发布版本2.1( 2.X开始支持elastic search )
2012年12月发布版本1.6
2013年6月发布版本2.2(crawler-commons 诞生)
2013年6月发布版本1.7(crawler-commons 诞生)
2013年7月发布版本2.2.1
1.6 相关项目的解释
  hadoop  一个分布式系统基础架构,实现了一个分布式文件系统(hadoop distributed file system HDFS)它有着高容错性,并且用来部署在低廉的机器上,提供高传输率来访问应用程序的数据,适合那些有超大数据集的应用程序。
  tika 利用现有的解析类库,从不同格式的文档中(如:html,pdf,docx...)侦测和提取出元数据和结构化内容。功能包括:侦测文档类型,字符编码,语言等其他文档属性,提取结构化的文档文字内容,
  gora 是一个开源的ORM框架,主要为大数据提供内存数据模型与数据的持久化,目前,Gora支持对于列数据,key-value数据,文档数据,RDBMS数据的存储,还支持使用hadoop来对大数据进行分析。
  其实孵化出这些新的东西,是nutch在发展的时候,发现把公共的东西进行封装,起个名字,让其不仅能用于Nutch,还能用于其它项目。其实只要随便一想就知道上面这三个东西用在nutch工作流程里面的那个部分了。


                                                                                                             ---------2013 10 22 号, 今天我做到了!good job 。 世界上最残酷的事情是比你优秀的人比你还要努力。
  

 

0
5
分享到:
评论
1 楼 cphmvp 2013-11-25  
赞一个 

相关推荐

    大数据基础Hadoop

    通过以上知识点的介绍,读者可以对大数据和Hadoop有一个全面的认识,理解到Hadoop在大数据处理领域的重要地位和作用,以及它如何通过借鉴Google的技术,为处理海量、多样化数据提供了一套行之有效的解决方案。...

    Hadoop运行原理分析

    Hadoop运行原理分析主要涉及MapReduce编程模式、HDFS的架构以及Hadoop分布式计算的基本流程。以下是对该文件内容的详细解析。 1. Hadoop概述 ...通过这些知识点,用户可以对Hadoop有一个更全面、更深入的认识。

    hadoop笔记2.pdf

    综上所述,Hadoop平台的搭建涉及到对大数据概念的理解,对Hadoop生态圈内各组件的认识,对Hadoop历史发展和技术演进的把握,以及对Linux操作系统和shell编程的熟练应用。这些都是构建和管理一个稳定高效的大数据平台...

    Hadoop The Definitive Guide

    Nutch项目中的开发者认识到,他们需要构建类似的系统来满足自己项目的计算需求。于是,两个半职的开发者开始尝试构建这样的系统,并将其作为Nutch的一部分。这个尝试最终演变成了Hadoop,一个独立的分布式计算平台。...

    大数据分析与应用-课件

    在学习过程中,学生们会了解到数据采集、存储、处理和分析的一系列方法,从而对大数据技术有一个全面的认识。 在学习Hadoop的过程中,我们会了解到它是一个由Apache软件基金会提供的开源分布式存储和计算框架。...

    Hadoop阶段初识学习笔记

    通过以上介绍,我们对Hadoop有了初步的认识。作为一种强大的大数据处理工具,Hadoop不仅提供了分布式存储和计算的能力,而且还具备高度的可扩展性和容错性,这使得它成为现代大数据处理领域的关键技术之一。

    hadoop培训总结

    同时,学员应能熟悉传统数据中心向云计算中心转变的关键技术,并对市场上的主流大数据产品有深入认识。 学习总结部分,重点提到了Hadoop与其相关组件的关系,例如Lucene和Nutch在全文搜索和网络爬虫中的作用。通过...

    hadoop基础入门

    ### Hadoop基础入门知识点详解 #### 一、Hadoop概览与背景介绍 **1.1 什么是Hadoop** Hadoop是由Apache基金会维护...通过上述内容的学习,初学者可以对Hadoop有一个全面的认识,并为进一步深入学习打下坚实的基础。

    纸牌屋与大数据培训.pptx

    这个词最早出现在Apache Nutch项目中,用于描述需要批量处理以更新网络搜索索引的大规模数据集。大数据的核心价值在于对数据的专业化处理,通过分析数据来创造新的价值,而非单纯地收集和存储信息。 【大数据的四大...

    个人简历2016-21

    1. **评论分析系统** - 在这个项目中,他参与了一个3人团队,利用Nutch搜索引擎框架抓取信息并进行索引,通过词法分析处理关键词。他还负责使用highcharts框架和ajax从数据库获取数据并绘制图形。此项目使他对...

    Apache Spark在NASA JPL的应用详解

    从文档中提到的信息可以了解到,Chris Ma2mann曾参与了多个Apache项目,包括OODT (Open Data Technology)、Tika、Nutch、SIS、Gora、Airavata等。其中,OODT项目尤为值得关注,它旨在为大规模科学数据提供一个完整的...

    从大数据热看我国计算机学界的机遇.pptx

    大数据的发展驱动力主要来自以下几个方面:技术进步(如云计算、物联网)、数据量的爆炸式增长、业务需求的变化以及对数据价值的认识加深。对中国计算机学界而言,大数据带来了诸多机遇,如在人工智能、系统设计、...

    大数据Hadoop开发基础

    Hadoop最初由Doug Cutting和Mike Cafarella为Apache Nutch搜索引擎项目开发,后来成为Apache软件基金会的一个顶级项目。随着大数据时代的到来,Hadoop因其分布式、容错性和可扩展性而迅速普及,成为了大数据处理的...

    基于Python的天猫商品爬虫技术.pdf

    2. 爬虫框架:由于爬虫技术的完善,目前存在多种优质的爬虫框架,例如基于Java的webmagic框架、ApacheNutch框架;基于Python的scrapy框架;基于C语言的DotnetSpider框架等。 3. 功能模块:爬虫框架能够实现分布式和...

    CSDN大数据学习班第一节分享:大数据入门技术初探

    - **发展历程**:2005年,Hadoop作为Lucene的子项目Nutch的一部分被引入Apache基金会。2006年,MapReduce和NDFS被纳入名为Hadoop的新项目中。 - **核心组件**: - **HDFS**(Hadoop Distributed File System):...

Global site tag (gtag.js) - Google Analytics