`
banditjava
  • 浏览: 159870 次
  • 性别: Icon_minigender_1
  • 来自: 北京
社区版块
存档分类
最新评论

Nutch1.0的那些事

阅读更多

      很久没有更新博客了,应该快一年了。现在呢,我把去年研究过的Nutch重新拾掇起来,开始了新的开源搜索引擎研究旅程。更多感慨是,Nutch已经在今年3月份已经发布了1.0版本,之前研究的Nutch还是0.9版本,其最大的变化并不是版本的升级,而是Nutch已经正式成为了Apache.org的子项目,并且可爱的Hadoop发的速度甚至超过了Nutch本身。也正在由于Hadoop存在使得Nutch在众多的开源搜索引擎里面显得更有魅力。而且,国内的牛人们已经将hadoop的中文资料给整理出来了,在http://www.hadoop.org.cn,很有范,学习中。

 

     包括:

     1)namespace名字空间配额管理指南

     2)hadoop命令

     3)FS Shell

     4)DistCp分布式拷贝

     5)Hadoop Map/Reduce

     6)Hadoop本地库

     7)Hadoop Streaming

     8)Hadoop Archives

     9) Hadoop On Demand

     可以去看看这些文章,对于Nutch的理解会更深刻一些

 

     Nutch1.0修正了很多的BUG,其中就有我之前文章中提到的urls/nutch.txt只有一行时的报错,看过Nutch1.0源码中已经修复过了。

 

     另外,集成的Hadoop已经升级成为了0.19.1版本,paoding分词也到了2.0.4版本,lucene升级到了2.0.4版本等等。接下来的文章中,我会将研究Nutch1.0的感想一一分享出来,并回复一些热心的顶贴朋友的提问,争取成为Nutch达人或者Hadoop达人。

 

     呵呵,继续努力。

 

分享到:
评论
1 楼 talangniao 2010-01-12  
准备学习和研究一下nutch 谢谢你贡献的好文

相关推荐

    Nutch1.0的API chm格式

    Nutch1.0的API,不过注意没有搜索功能

    开源搜索引擎nutch-1.0.part01.rar

    Nutch 是一个开源的、Java 实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具。

    Nutch1.0:Nutch1.0修改版(整合中文分词)原始码修改,编译打包-修改

    Nutch1.0是一款著名的开源网络爬虫项目,它的主要目标是提供一个可扩展、高效且可靠的搜索引擎解决方案。在这个特定的“Nutch1.0修改版”中,开发者已经对原始代码进行了调整,以整合中文分词功能。这使得Nutch能够...

    Nutch 1.0part6

    Nutch 是一个开源Java 实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具。包括全文搜索和Web爬虫。

    Nutch1.0 part4

    Nutch 是一个开源Java 实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具。包括全文搜索和Web爬虫。

    Nutch1.0part5

    Nutch 是一个开源Java 实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具。包括全文搜索和Web爬虫。

    Eclipse中编译Nutch-1.0

    ### Eclipse中编译Nutch-1.0:深入解析与实践指南 #### 一、环境准备与基础构建 在Linux环境中使用Eclipse编译Nutch-1.0,首要任务是确保开发环境满足项目需求。这包括确认Eclipse的JDK、JRE版本至少为1.6或更高...

    开源搜索引擎nutch-1.0.part09.rar

    Nutch 是一个开源的、Java 实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具。 nutch 1.0

    nutch-1.0part1

    Nutch 是一个开源Java 实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具。包括全文搜索和Web爬虫。

    开源搜索引擎nutch-1.0.part08.rar

    Nutch 是一个开源的、Java 实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具。 nutch 1.0

    开源搜索引擎nutch-1.0.part07.rar

    Nutch 是一个开源的、Java 实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具。 nutch 1.0

    nutch-1.0-dev.jar

    nutch-1.0-dev.jar nutch devlope

    Nutch-1.0分布式安装手册.rar

    Nutch-1.0分布式安装手册是一份详细指导如何在多台计算机上部署和配置Apache Nutch的文档。Apache Nutch是一款开源的网络爬虫软件,用于抓取互联网上的网页并进行索引,是大数据领域中搜索引擎构建的重要工具。这份...

    nutch Eclipse

    在本文中,我们将深入探讨如何在 Linux 环境下使用 Eclipse 编译 Apache Nutch 1.0。Apache Nutch 是一个开源的网络爬虫框架,主要用于抓取和索引网页内容。Eclipse 是一个广泛使用的 Java 开发集成环境,它支持多种...

    Nutch-1.0 part2

    Nutch 是一个开源Java 实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具。包括全文搜索和Web爬虫。

    开源搜索引擎nutch-1.0.part03.rar

    Nutch 是一个开源的、Java 实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具。

    开源搜索引擎nutch-1.0.part02.rar

    Nutch 是一个开源的、Java 实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具。

    开源搜索引擎nutch-1.0.part06.rar

    Nutch 是一个开源的、Java 实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具。

    开源搜索引擎nutch-1.0.part04.rar

    Nutch 是一个开源的、Java 实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具。

    开源搜索引擎nutch-1.0.part05.rar

    Nutch 是一个开源的、Java 实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具。

Global site tag (gtag.js) - Google Analytics