本文为solomon@javaeye原创,如有转载,注明出处(作者solomon与链接
http://zolomon.iteye.com).
本专题使用中文分词为ikanalyzer,感谢其作者为java中文事业做出的巨大贡献.
我的个人资料
http://www.google.com/profiles/solomon.royarr
在解压出来的目录下的bin目录里建立urls文件夹,
在里面创建url.txt,内容为http://www.17173.com
这里为要抓取的入口路径,可以设置多个值,也可以放置多个txt文件
然后在cygwin里面进入这个bin目录,
输入./nutch crawl urls -dir file:///d:/solomoncrawl -depth 3
这样就可以看到开始抓取了.
nutch是一个批处理文件,后面跟的命令和参数告诉它该如何运行.
crawl urls是告诉nutch爬虫要crawl一个目录里的url,这个目录的名字是urls.
nutch爬虫有很多行为,crawl是其中一个主要行为.
-dir参数告诉它该把抓取来的东西放在什么地方,指定了一个d盘下叫solomoncrawl的目录.
-depth参数告诉它该抓取的深度,从入口url开始扩展多少层.
抓取完毕会有一个报告,我这次抓的东西比较少,所以没看出来.
- 描述: 抓取效果图(1)
- 大小: 10.6 KB
- 描述: 抓取效果图(2)
- 大小: 13.1 KB
- 描述: 抓取效果图(3)
- 大小: 16.8 KB
- 描述: 抓取完毕
- 大小: 14.6 KB
分享到:
相关推荐
在使用这个“Nutch1.0-master”压缩包时,用户需要解压文件,按照提供的文档或说明进行配置,包括设置爬虫的启动参数、分词器的选择和配置等。然后,他们可以运行Nutch的命令行工具进行网页抓取、索引创建以及查询...
这是因为Nutch作为Apache旗下的开源Web爬虫项目,其运行依赖于Java平台,并对版本有一定要求。 #### 二、项目创建与配置 接下来,需从官方网站下载Nutch-1.0的源代码压缩包(`nutch-1.0.tar.gz`),并进行解压。...
Nutch的配置文件主要分为三类: 1. **Hadoop的配置文件**:包括`Hadoop-default.xml`和`Hadoop-site.xml`。`Hadoop-default.xml`是Hadoop的默认配置,列出了所有可能的配置选项和它们的默认值。而`Hadoop-site.xml`...
Nutch-1.0分布式安装手册是一份详细指导如何在多台计算机上部署和配置Apache Nutch的文档。Apache Nutch是一款开源的网络爬虫软件,用于抓取互联网上的网页并进行索引,是大数据领域中搜索引擎构建的重要工具。这份...
- Nutch运行还需要配置一系列的配置文件,如`conf/nutch-site.xml`、`conf/crawldb.xml`、`conf/regex-urlfilter.txt`等,这些文件定义了爬虫的行为,如抓取策略、存储位置、抓取间隔等。 5. **Hadoop集成**: - ...
在本文中,我们将深入探讨如何在 Linux 环境下使用 Eclipse ...通过正确配置 Eclipse、解决授权问题以及修复源代码中的错误,你可以顺利地在本地环境中编译和运行 Nutch,从而进一步理解和定制这个强大的网络爬虫系统。
- **Java版本**:推荐使用Java 1.6,该版本与Nutch 1.0兼容性良好。 - **操作系统**:本指南适用于Ubuntu等大多数平台,也包括了针对Windows XP和Vista的操作指南。 #### 步骤详解 ##### Windows用户的特殊准备 ...
1. **配置运行参数**: - 在MyEclipse中,右键点击项目,选择`Run As -> Run Configurations`。 - 在`Program arguments`中输入爬行命令,例如: ``` urls -dir myDir -depth 2 -topN 50 ``` - 在`VM ...
- **配置运行参数**:使用Run Configurations功能,设置具体的爬虫运行参数,包括爬取深度、存储路径等,确保Nutch能够按照预期执行爬取任务。 #### 总结 本文详细介绍了在Eclipse环境下编译Nutch-0.9的完整流程,...
2. **配置工作目录** - 使用Cygwin进入Nutch的安装目录,例如 `cd /cygdrive/d/nutch-1.0`。 3. **测试Nutch命令** - 运行 `bin/nutch` 命令,检查是否可以正常使用。 **配置网络蜘蛛标识:** 在 `conf/nutch-...
Nutch的配置文件`nutch-site.xml`位于`conf/`目录下,用于指定各种运行时参数。例如,下面的示例代码展示了如何配置HTTP代理名称和版本: ```xml <name>http.agent.name</name> <value>MyNutchAgent ...