`
zhouxianglh
  • 浏览: 267693 次
  • 性别: Icon_minigender_1
  • 来自: 深圳
社区版块
存档分类
最新评论

(2)Nutch1.0 浅析

阅读更多

关于Nutch1.0 导入Eclipse http://www.iteye.com/topic/525839   给了详细具体的说明

 

1  Nutch1.0 抓取类package org.apache.nutch.fetcher.Fetcher;

src\java\org\apache\nutch\fetcher\Fetcher.java

它有6个内部类,其中FetcherThread.run() 负责抓取

2  nutch-1.0.job  因为它的原因,Nutch 要在Cygwin 下运行.和Nutch-1.0.jar没有直接关系.nutch-1.0.job 是通过 build.xml 文件获得的

    <touch datetime="01/25/1971 2:00 pm">
      <fileset dir="${conf.dir}" includes="**/*.template"/>
    </touch>

 这里有错,注释掉就可以build了.

分享到:
评论

相关推荐

    Nutch1.0的API chm格式

    Nutch1.0的API,不过注意没有搜索功能

    开源搜索引擎nutch-1.0.part01.rar

    Nutch 是一个开源的、Java 实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具。

    Nutch1.0:Nutch1.0修改版(整合中文分词)原始码修改,编译打包-修改

    Nutch1.0是一款著名的开源网络爬虫项目,它的主要目标是提供一个可扩展、高效且可靠的搜索引擎解决方案。在这个特定的“Nutch1.0修改版”中,开发者已经对原始代码进行了调整,以整合中文分词功能。这使得Nutch能够...

    Nutch 1.0part6

    Nutch 是一个开源Java 实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具。包括全文搜索和Web爬虫。

    Nutch1.0 part4

    Nutch 是一个开源Java 实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具。包括全文搜索和Web爬虫。

    Nutch1.0part5

    Nutch 是一个开源Java 实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具。包括全文搜索和Web爬虫。

    Eclipse中编译Nutch-1.0

    ### Eclipse中编译Nutch-1.0:深入解析与实践指南 #### 一、环境准备与基础构建 在Linux环境中使用Eclipse编译Nutch-1.0,首要任务是确保开发环境满足项目需求。这包括确认Eclipse的JDK、JRE版本至少为1.6或更高...

    开源搜索引擎nutch-1.0.part09.rar

    Nutch 是一个开源的、Java 实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具。 nutch 1.0

    nutch-1.0part1

    Nutch 是一个开源Java 实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具。包括全文搜索和Web爬虫。

    开源搜索引擎nutch-1.0.part08.rar

    Nutch 是一个开源的、Java 实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具。 nutch 1.0

    开源搜索引擎nutch-1.0.part07.rar

    Nutch 是一个开源的、Java 实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具。 nutch 1.0

    nutch-1.0-dev.jar

    nutch-1.0-dev.jar nutch devlope

    Nutch-1.0分布式安装手册.rar

    Nutch-1.0分布式安装手册是一份详细指导如何在多台计算机上部署和配置Apache Nutch的文档。Apache Nutch是一款开源的网络爬虫软件,用于抓取互联网上的网页并进行索引,是大数据领域中搜索引擎构建的重要工具。这份...

    Nutch-1.0 part2

    Nutch 是一个开源Java 实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具。包括全文搜索和Web爬虫。

    nutch Eclipse

    在本文中,我们将深入探讨如何在 Linux 环境下使用 Eclipse 编译 Apache Nutch 1.0。Apache Nutch 是一个开源的网络爬虫框架,主要用于抓取和索引网页内容。Eclipse 是一个广泛使用的 Java 开发集成环境,它支持多种...

    debugNutchWithEclipse

    ### 在Eclipse中调试Nutch 1.0 #### 概述 本文旨在提供一个详细的指南,帮助用户在Eclipse IDE环境下配置并调试Nutch 1.0版本。Nutch是一款开源的网络爬虫框架,它能够抓取、索引互联网上的网页,并支持多种插件...

    开源搜索引擎nutch-1.0.part03.rar

    Nutch 是一个开源的、Java 实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具。

    开源搜索引擎nutch-1.0.part06.rar

    Nutch 是一个开源的、Java 实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具。

    开源搜索引擎nutch-1.0.part02.rar

    Nutch 是一个开源的、Java 实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具。

    开源搜索引擎nutch-1.0.part04.rar

    Nutch 是一个开源的、Java 实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具。

Global site tag (gtag.js) - Google Analytics