`
banditjava
  • 浏览: 160174 次
  • 性别: Icon_minigender_1
  • 来自: 北京
社区版块
存档分类
最新评论

Nutch:一个灵活可扩展的开源web搜索引擎

阅读更多
在网上找到一篇于2004年11月由CommerceNet Labs出具关于Nutch的技术研究报告,报告由DougCutting和CommerceNet Labs的三位研究员一起来完成的。

报告的全名是Nutch: A Flexible and Scalable Open-Source Web Search Engine。基本描述了Nutch、Lucene与其它开源搜索软件的比较,Nutch的组成框架,索引和搜索功能等等。

从报告内容来看,Nutch正在接近当初的目标,甚至有一些方面已经超过报告内容的描述。报告中并没有提到现在很牛的Hadoop,因为Hadoop是在Nutch项目启动后,分离出去的,现在用的Nutch0.9版本中的Hadoop还不是最新的,只是0.12版本,最新的已经是0.19啦!

具体的内容详见附件。
分享到:
评论
8 楼 banditjava 2008-10-24  
最新发布有0.18,现在正在开发0.19-dev,可以从SVN上拿
7 楼 chenlb 2008-10-23  
目前, 最新的hadoop是0.18.1吧
6 楼 banditjava 2008-09-28  
我刚才试了一下,用“中”搜索时,可以分页啊。现在默认一页10条,如果hits集大于10分页应该没有问题啊
5 楼 lengweiping1983 2008-09-28  
你哪个so.21315.com我发现在一个问题,搜索"中国"分页可以,搜索"中"分页就不行了.
4 楼 lengweiping1983 2008-09-28  
看到你的文章,真的感觉到开源的力量,自己身为做java方面的开发多年,都没有好好去研究,真是可惜.
3 楼 lengweiping1983 2008-09-28  
看过一些,写得不错,近来关心了一下云运算,就找到hadoop,lucene(以前也用过,自己写了一个站内搜索),后来就找到了nutch,就找到了你的blog.你做了这个东西,是不是得到了好多好的评价,其实我不只是想做来玩玩的,而是想做一个到时候有公司需要.
2 楼 banditjava 2008-09-28  
10.1我不在线,可以给我发站内信,呵!但基本上关于如果配置的问题都已经在我blog里面写到了
1 楼 lengweiping1983 2008-09-28  
十一国庆期间,我也来做一个玩玩,有问题请教你.

相关推荐

    nutch框架 搜索引擎

    ### Nutch框架:一个灵活与可扩展的开源搜索引擎 #### 基本概念与起源 Nutch是一款由Nutch组织发起、多个实验室如CommerceNet Labs共同研发的开源Web搜索引擎。其设计初衷旨在提供一个透明、公正的全球网络搜索...

    Nutch 是一个开源Java 实现的搜索引擎(学习资料)----下载不扣分,回帖加1分,童叟无欺,欢迎下载 。不下也来看看啊!!

    Nutch是一个基于Java的开源搜索引擎项目,其设计目标是提供一套高效、可扩展的网络爬虫和全文检索框架。这个项目对于那些希望自建搜索引擎或者对搜索引擎技术有研究需求的人来说,是一个宝贵的资源。 Nutch的核心...

    开源的搜索引擎工具包和web搜索引擎系统 - austin lius fashion - 博客园.pdf

    这些开源工具包在构建和维护Web搜索引擎系统中扮演着关键角色,它们不仅提供了基础的索引和搜索功能,还通过其灵活性和可扩展性,促进了搜索引擎技术的创新和发展。开发者可以根据项目需求选择合适的工具包,结合...

    nutch开发资料 搜索引擎

    1. **Nutch介绍**:Nutch是一个基于Java的开源Web爬虫,它能够抓取互联网上的网页,并对抓取的数据进行索引和搜索。Nutch的设计目标是提供可扩展性和高效率,适合大规模的Web数据处理。 2. **增量索引**:在Nutch中...

    Nutch公开课从搜索引擎到网络爬虫

    Apache Nutch是一个用Java语言编写的开源搜索引擎项目,最早可以追溯到2002年8月,其设计理念是基于搜索引擎的架构,但随着时间的推移和版本迭代,Nutch逐渐演变成了一个网络爬虫工具。Nutch的发展历程中出现了两个...

    开发基于 Nutch 的集群式搜索引擎

    Nutch是一款开源搜索引擎,使用Java语言编写,并且依赖于Lucene这一高性能全文搜索引擎库。自Nutch 0.8.0版本起,它完全运行在Hadoop平台上,这使Nutch能够利用Hadoop的分布式文件系统(HDFS)以及MapReduce编程模型...

    apache-nutch-1.4-src.tar.gz_nutch_搜索引擎

    Apache Nutch 是一款高度可扩展的开源全文搜索引擎框架,它为构建自定义的网络爬虫和搜索引擎提供了强大的工具集。Nutch 的设计目标是处理大量网页数据,进行高效的抓取、索引和搜索操作。在“apache-nutch-1.4-src....

    nutch+lucene开发自己的搜索引擎ch3.pdf

    - Nutch不同于Lucene,它提供了一个完整的搜索引擎解决方案,包括爬虫、索引构建、搜索等功能。 - 适用于希望快速构建搜索引擎的应用场景。 - 基于Java实现,易于集成和扩展。 #### 三、Lucene的关键特性 1. **...

    Lucene.Nutch搜索引擎开发

    Lucene是一个高性能、全文本搜索库,而Nutch则是一个基于Lucene的开源网络爬虫项目,两者结合可以构建强大的互联网搜索引擎。 1. **Lucene**: Lucene是Apache软件基金会的一个项目,提供了一个高级的、完全基于Java...

    Nutch an Open-Source Platform for Web Search

    ### Nutch:一个开源的网络搜索引擎平台 #### 概述 Nutch 是一个由 Apache Software Foundation 托管的开源项目,旨在提供一个完整的、高质量的网络搜索系统,并为开发新型网络搜索引擎提供了一个灵活且可扩展的...

    lucene+nutch搜索引擎(12章源码)

    Lucene和Nutch作为开源的全文检索库和搜索引擎框架,为开发者提供了构建高效、可扩展的搜索解决方案。本篇文章将深入探讨这两者的核心技术和实际应用。 一、Lucene:全文检索库的基石 Lucene是Apache软件基金会...

    Lucene+Nutch搜索引擎开发(配套光盘资源)

    Nutch是基于Apache Lucene的开源全文搜索引擎,两者结合使用可以构建强大的网络爬虫和搜索引擎系统。 Lucene是Java编写的一个高性能、全文检索库,它提供了索引和搜索文本的基本功能。Lucene的核心功能包括分词、...

    nutch帮助文档;nutch学习 入门

    Nutch是一个高度可扩展的开源搜索引擎,它提供了网页抓取、解析、过滤、索引和搜索等功能。Nutch最初设计的目标是创建一个与商业搜索引擎相媲美的开放源代码搜索解决方案,用于企业内部或特定领域的信息检索。 2. ...

    Web Crawling and Data Mining with Apache Nutch

    Nutch最初是作为一个独立的网络爬虫存在的,但后来与Hadoop平台的集成让它成为了一个可扩展的网络爬虫,能够处理海量数据。Nutch的主要特点包括高度可定制的爬取策略、灵活的插件机制、以及利用分布式存储和计算资源...

Global site tag (gtag.js) - Google Analytics