1.操作系统是ubuntu .在终端用svn工具安装,如果没有svn工具,使用命令安装svn工具。
2.nutch 是使用svn进行源代码管理的,nutch svn 的地址是:http://svn.apache.org/repos/asf/nutch/tags/release-1.7/ release-1.xx 可能有所不同。使用它的源代码,而不是它发布的二进制版本,可以对他有更好的理解。根据网速不同,时间有所不同。
3.下载完成后,进入到release-1.7的文件夹,执行ant命令,nutch是用ant来编译源代码的。如果没有安装ant。
使用 sudo apt-get install ant执行安装。根据网速不同,时间有所不同。
4.nutch 使用ivy 进行依赖管理,ivy.xml中有依赖的第三方名字。
<dependencies> <dependency org="org.elasticsearch" name="elasticsearch" rev="0.90.1" conf="*->default"/>//Elasticsearch 是基于Lucene构建的开源的,分布式,RESTful搜索引擎,设计用于计算中,能够达到实时搜索,稳定,可靠,快速,安装使用方便。支持通过http 使用JSON进行数据索引。 <dependency org="org.apache.solr" name="solr-solrj" rev="3.4.0" conf="*->default" /> //搜索服务器,基于Lucene,一款非常优秀的全文搜索引擎。 <dependency org="org.slf4j" name="slf4j-api" rev="1.6.1" conf="*->master" />//简单日志门面 <dependency org="org.slf4j" name="slf4j-log4j12" rev="1.6.1" conf="*->master" />//简单日志门面 <dependency org="commons-lang" name="commons-lang" rev="2.6" conf="*->default" /> <dependency org="commons-collections" name="commons-collections" rev="3.1" conf="*->default" /> <dependency org="commons-httpclient" name="commons-httpclient" rev="3.1" conf="*->master" /> <dependency org="commons-codec" name="commons-codec" rev="1.3" conf="*->default" /> <dependency org="org.apache.hadoop" name="hadoop-core" rev="1.2.0" conf="*->default">//分布式系统基础架构 <exclude org="hsqldb" name="hsqldb" /> <exclude org="net.sf.kosmosfs" name="kfs" /> <exclude org="net.java.dev.jets3t" name="jets3t" /> <exclude org="org.eclipse.jdt" name="core" /> <exclude org="org.mortbay.jetty" name="jsp-*" /> <exclude org="ant" name="ant" /> </dependency> <dependency org="org.apache.tika" name="tika-core" rev="1.3" /> //解析文档工具 <dependency org="com.ibm.icu" name="icu4j" rev="4.0.1" /> <dependency org="org.mortbay.jetty" name="jetty-client" rev="6.1.22" /> <dependency org="log4j" name="log4j" rev="1.2.15" conf="*->master" /> <dependency org="xerces" name="xercesImpl" rev="2.9.1" /> <dependency org="xerces" name="xmlParserAPIs" rev="2.6.2" /> <dependency org="oro" name="oro" rev="2.0.8" /> <dependency org="com.google.guava" name="guava" rev="11.0.2" /> <dependency org="com.google.code.crawler-commons" name="crawler-commons" rev="0.2" /> <!--Configuration: test --> <!--artifacts needed for testing --> <dependency org="junit" name="junit" rev="3.8.1" conf="*->default" /> <dependency org="org.apache.hadoop" name="hadoop-test" rev="1.2.0" conf="test->default" /> <dependency org="org.mortbay.jetty" name="jetty" rev="6.1.22" conf="test->default" /> <dependency org="org.mortbay.jetty" name="jetty-util" rev="6.1.22" conf="test->default" /> <!--global exclusion --> <exclude module="jmxtools" /> <exclude module="jms" /> <exclude module="jmxri" /> </dependencies> 当执行ant 命令后,会自动去网上下载依赖的第三方包。Nutch里面本身是不包含上面哪些包的。只有执行ant命令后才会去网上自动下载。
相关推荐
下面我们将详细探讨如何在 Linux 系统上安装这些组件以及配置 Nutch。 首先,你需要下载以下软件: 1. apache-ant-1.10.5-bin.tar.gz:Ant 是一个 Java 编写的构建工具,用于自动化构建过程,如编译、打包和测试。 ...
### Nutch 的安装方法详解 #### 一、前言 Nutch是一款开源的网络爬虫项目,基于Hadoop实现,可以抓取整个互联网,并且能够根据网页内容进行索引和检索。本文将详细介绍如何在Windows环境下安装配置Nutch,使初学者...
本文将详细介绍 Apache Nutch 1.7 在 Windows 和 Linux 下的安装过程,包括安装前的准备工作、安装 Cygwin、安装 Nutch 1.7、测试 Nutch 1.7 以及与 Solr 结合使用等内容。 1. 准备工作 在安装 Apache Nutch 1.7 ...
### Nutch 2.3.1 安装与配置指南 #### 一、配置 ant 环境 在安装 Nutch 之前,首先需要确保环境中已经安装了 Apache Ant 工具,因为 Nutch 的构建过程依赖于 Ant。以下是具体步骤: 1. **下载 ant**: - 访问 ...
【Nutch安装详解】 Nutch是一款开源的网络爬虫软件,用于抓取互联网上的网页并构建搜索引擎。本文将详细介绍如何安装Nutch version 0.8。 **1. 安装前提** 在开始Nutch的安装前,需要确保满足以下硬件和软件条件...
在介绍Windows下Nutch的安装过程之前,首先需要了解Nutch和Cygwin这两个工具的基本概念和作用。Nutch是一个开源的Web搜索引擎框架,基于Java编写,它使用Lucene作为搜索引擎核心。Nutch能够抓取网站并建立索引,实现...
在安装和配置 Nutch 开发环境时,可能会遇到各种问题,以下是对这些问题的详细解答。 首先,确保你已经下载了 Nutch 的正确版本。Nutch 的官方网站可能只提供最新的稳定版本,如 1.6 或 2.1。如果需要其他版本,...
Nutch在windows下的安装 JDK安装 Tomcat安装 Cygwin安装
### Nutch 1.4 在 Windows 下的安装与配置知识点详解 #### 一、Nutch 简介 - **定义**: Apache Nutch 是一款基于 Java 的开源网页爬虫项目,能够自动抓取互联网上的网页及其内部链接,并对其进行索引处理。 - **...
在配置Nutch之前,首先确保已安装Java Development Kit (JDK)。这里推荐使用JDK 1.6。下载地址:...
- 安装Solr,配置Solr的连接信息在Nutch的`conf/nutch-site.xml`中。 - 使用Nutch的`bin/nutch solrindex`命令将生成的索引数据推送到Solr,实现搜索功能。 **Nutch 在 Linux 下的搭建过程** 1. **准备工作** -...
然而,Nutch的安装和配置可能对初学者来说有些复杂,尤其是在不同的操作系统和开发环境中。因此,利用Eclipse作为开发工具,可以简化Nutch的配置流程,提供一个友好的图形界面来管理项目和代码,同时利用其强大的...
【Nutch 安装与配置】Nutch 是一个开源的搜索引擎项目,主要负责网页抓取、索引和搜索。在Windows环境下,为了运行Nutch,我们需要先安装Cygwin,这是一个提供Unix-like环境的工具,使得Windows用户可以执行类似于...
在使用Nutch之前,你需要配置Nutch的运行环境,包括安装Java、设置Hadoop(如果需要分布式爬取)、下载和编译Nutch源代码。还需要配置Nutch的`conf/nutch-site.xml`文件,指定抓取策略、存储路径、爬虫范围等参数。 ...
【Nutch安装配置】是关于开源搜索引擎项目Nutch的详细操作流程,主要涉及源码编译、环境搭建和系统配置等内容。Nutch是一款基于Java的搜索引擎框架,常用于大数据环境下的网页抓取、分析和索引。在进行Nutch安装配置...
总结,搭建Nutch-0.9环境在Windows上的关键在于正确安装和配置Cygwin,确保所有必要的开发工具和Java环境就绪。尽管这需要一定的技术背景,但只要遵循上述步骤并耐心处理可能出现的问题,你就能成功构建起自己的...