今天试用了下Nutch,感觉还不错,先把安装和试用的东东记录一下:)
- 环境介绍:JDK 1.6+Win XP+Tomcat 5.5
- 安装下cygwin,因为Nutch目前的爬虫部分只适应于Linux操作系统,这个东东用来Linux仿真,执行相关的爬取动作,主要的命令为(下文要用到,切换到nutch目录):
Linux命令 写道
$ sh ./bin/nutch crawl urls -dir sohu.com -depth 4 -threads 5 -topN 1000
参数介绍 写道
crawl:通知nutch.jar,执行crawl的main方法。
urls:存放需要爬行的url.txt文件的目录
-dir mydir 爬行后文件保存的位置
-depth 2:爬行次数,或者成为深度,不过还是觉得次数更贴切,建议测试时改为1。
-threads 指定并发的进程 这是设定为 4
-topN 50:一个网站保存的最大页面数。
- 下载nutch,直接从官网上拿,然后用Linux的tar命令解压
- 在nutch目录下将nutch.war拷贝到tomcat的webapps目录下
- 将tomcat的相关编码设置成UTF-8,防止中文乱码
- 在nutch目录下找到search.html,将queryfocus的js函数内容注释掉(防止js报错)
- 建立网络爬虫,在nutch下新建urls目录,在目录下新建url文件(不带后缀名),在文件里输入需要爬虫的网站地址,如:http://www.iteye.com/(注意以/结尾)
- 在nutch的conf目录下crawl-urlfilter.txt将iteye.com设为可接受的网站,具体可找到accept hosts in MY.DOMAIN.NAME这一行,将javaeye网站加入即可
- 用第一个命令执行网络爬虫
- 打开http://localhost:8080/nutch-1.0/,进入搜索页面,输入关键字,即可查询。
至此,nutch配置和安装完毕!
分享到:
相关推荐
下面我们将详细探讨如何在 Linux 系统上安装这些组件以及配置 Nutch。 首先,你需要下载以下软件: 1. apache-ant-1.10.5-bin.tar.gz:Ant 是一个 Java 编写的构建工具,用于自动化构建过程,如编译、打包和测试。 ...
【Nutch 安装与配置】Nutch 是一个开源的搜索引擎项目,主要负责网页抓取、索引和搜索。在Windows环境下,为了运行Nutch,我们需要先安装Cygwin,这是一个提供Unix-like环境的工具,使得Windows用户可以执行类似于...
3. **Tomcat**:Web服务器,用于部署Nutch的Web界面。 4. **Nutch**:核心组件。 #### 三、安装Cygwin 1. **下载Cygwin**: - 访问Cygwin官网 [http://cygwin.com](http://cygwin.com/) 下载安装程序。 2. **...
### Nutch 2.3.1 安装与配置指南 #### 一、配置 ant 环境 在安装 Nutch 之前,首先需要确保环境中已经安装了 Apache Ant 工具,因为 Nutch 的构建过程依赖于 Ant。以下是具体步骤: 1. **下载 ant**: - 访问 ...
例如,如果你的Tomcat安装在`C:\Tomcat`,那么路径应该是`C:\Tomcat\webapps\nutch`。 3. **配置Nutch**:在`webapps\nutch\WEB-INF\classes`目录下的`nutch-site.xml`文件中,你需要进行适当的修改。尤其是针对你...
在介绍Windows下Nutch的安装过程之前,首先需要了解Nutch和Cygwin这两个工具的基本概念和作用。Nutch是一个开源的Web搜索引擎框架,基于Java编写,它使用Lucene作为搜索引擎核心。Nutch能够抓取网站并建立索引,实现...
### Nutch配置与安装知识点详解 #### 一、Nutch简介 Nutch是一款开源的Web爬虫项目,基于Apache Hadoop构建,能够抓取、处理和索引互联网上的信息。Nutch提供了高度可定制化的配置选项,使得用户可以根据自己的需求...
1. 安装了Java Development Kit (JDK):因为Nutch和MyEclipse都是基于Java的,所以确保系统已安装JDK且版本与Nutch1.3兼容。 2. 安装了MyEclipse:MyEclipse作为Java应用的IDE,提供了丰富的开发工具和插件,便于...
### Nutch 1.4 在 Windows 下的安装与配置知识点详解 #### 一、Nutch 简介 - **定义**: Apache Nutch 是一款基于 Java 的开源网页爬虫项目,能够自动抓取互联网上的网页及其内部链接,并对其进行索引处理。 - **...
- 在 Cygwin 中设置环境变量,指向 Nutch 的安装目录。 - 配置 Nutch 相关的配置文件,如上述方法。 5. **配置注意事项**: - 在 `nutch-site.xml` 中,`http.agent.name` 属性用于定义爬虫的用户代理名称,通常...
本文将详细介绍在Windows和Linux环境下如何搭建Nutch 1.7,并探讨如何将其与Solr集成使用。 **Nutch 在 Windows 下的搭建过程** 1. **准备工作** - 检查系统需求:确保你的Windows系统满足运行Java开发环境(JDK...
6. **部署与配置**: 在部署Nutch 0.9 时,首先需要将WAR文件部署到Tomcat或其他兼容的Web服务器上。然后,根据项目需求,可以编辑配置文件(如conf/nutch-site.xml)来定制爬虫行为,如设置爬取策略、抓取频率、...
在Windows平台上部署Nutch 1.4,需预先安装以下工具和软件: 1. **Java JDK 1.7**:Nutch基于Java开发,因此需要安装JDK,并设置相应的环境变量。 2. **Cygwin**:由于Nutch的脚本采用Linux Shell编写,故在Windows...
Nutch-1.0分布式安装手册是一份详细指导如何在多台计算机上部署和配置Apache Nutch的文档。Apache Nutch是一款开源的网络爬虫软件,用于抓取互联网上的网页并进行索引,是大数据领域中搜索引擎构建的重要工具。这份...
安装和配置Nutch涉及到了对JDK、Nutch本身的安装与配置以及Tomcat(用于部署Web界面和提供RESTful服务)的安装与配置。安装完成后,通过简单的配置,Nutch可以开始爬取企业内部网络或整个互联网的数据。 Nutch初...
- **安装 Tomcat**:Tomcat 用于运行 Nutch 的 UI 部分,执行 `sudo apt-get install tomcat8`(Ubuntu)或 `yum install tomcat`(CentOS)进行安装。 - **配置 Nutch 查询索引**:配置 Nutch 的 `conf/gora....
**Nutch搜索引擎配置详解** Nutch是一款开源的网络爬虫软件,主要用于收集、索引和搜索互联网上的...理解每个步骤的作用,灵活调整配置,是成功部署Nutch搜索引擎的关键。希望这篇详述能对你配置Nutch的过程有所帮助。