Nutch1.1异常信息如下:
Fetcher: No agents listed in 'http.agent.name' property.
Exception in thread "main" java.lang.IllegalArgumentException: Fetcher: No agents listed in 'http.agent.name' property.
at org.apache.nutch.fetcher.Fetcher.checkConfiguration(Fetcher.java:1161)
at org.apache.nutch.fetcher.Fetcher.fetch(Fetcher.java:1067)
at org.apache.nutch.crawl.Crawl.main(Crawl.java:133)
经过搜索才知道是nutch-default.xml属性设置问题:
抛出异常前的设置:
<property>
<name>http.agent.name</name>
<value></value>
<description>HTTP 'User-Agent' request header. MUST NOT be empty -
please set this to a single word uniquely related to your organization.
NOTE: You should also check other related properties:
http.robots.agents
http.agent.description
http.agent.url
http.agent.email
http.agent.version
and set their values appropriately.
</description>
</property>
设置如下方式后,异常信息就不见了:
<property>
<name>http.agent.name</name>
<value>HD nutch agent</value>
<description>HTTP 'User-Agent' request header. MUST NOT be empty -
please set this to a single word uniquely related to your organization.
NOTE: You should also check other related properties:
http.robots.agents
http.agent.description
http.agent.url
http.agent.email
http.agent.version
and set their values appropriately.
</description>
</property>
分享到:
相关推荐
5. **配置文件**:如 `conf/nutch-default.xml` 和 `conf/nutch-site.xml`,分别包含 Nutch 的默认配置和用户自定义配置。 6. **抓取策略**:Nutch 支持基于链接的抓取策略,如 PR(PageRank)和 TF-IDF(Term ...
在这个"apache-nutch-1.4-bin.tar.gz"压缩包中,包含了运行 Nutch 的所有必要组件和配置文件,适合初学者和开发者快速部署和实验。 **Nutch 的核心组成部分:** 1. **爬虫(Spider)**:Nutch 的爬虫负责在网络中...
nutch不用安装,是个应用程序,下载后为nutch-1.6.tar.gz,双击桌面上的cygwin快捷方式;执行以下命令: $ cd D:/Downloads/Soft $ tar zxvf nutch-1.0.tar.gz 在e盘下面出现nutch-0.9文件夹说明解压成功了.然后环境...
apache-nutch-2.2.1(Eclipse直接运行版)今天刚做的,发现有很多坑,分享给大家实验,JDK1.7 Win10。我分享的两个压缩卷一起下载才可以用,资源限制太小了 002地址:...
在“apache-nutch-1.7-src.tar.gz”这个压缩包中,你将获得Nutch 1.7的源代码,这使得开发者可以深入了解其工作原理,并对其进行定制和扩展。解压后的文件夹“apache-nutch-1.7”包含了所有必要的组件和配置文件。 ...
这个源码包 "apache-nutch-1.3-src.tar.gz" 和 "nutch-1.3.tar.gz" 包含了 Nutch 1.3 的源代码和编译后的二进制文件,对于开发者和研究者来说是非常有价值的资源。 **Nutch 概述** Nutch 是基于 Java 开发的,遵循 ...
Fetcher:No agents listed in ‘http.agent.name’ property** - **问题原因**: Nutch配置文件中`http.agent.name`属性的值为空。 - **解决方法**: 修改`nutch-1.2/conf/nutch-default.xml`文件,设置`...
<name>http.agent.name</name> <value>MySearch ``` 还可以配置抓取的起始URLs: ```xml <property> <name>urlfile</name> *** </property> ``` Nutch的抓取行为由不同的配置文件控制,包括: - crawl-urlfilter....
4. **配置与部署**:解压 "apache-nutch-1.9" 文件后,需要根据你的环境配置`conf/nutch-site.xml`文件,设置包括抓取间隔、并发度、存储路径等参数。同时,可能还需要配置`conf/regex-urlfilter.txt`和`conf/...
apache-nutch-1.4-bin.tar.gz.part2
- 在`nutch-site.xml`中,同样更新`http.agent.name`,并提供详细的描述信息。 - **设置爬虫入口**:在项目的`urls`目录下新建文件`url`,输入爬虫的起始URL地址。同时,编辑`crawl-urlfilter.txt`文件,以允许或...
Nutch是一款刚刚诞生的完整的开源搜索引擎系统,可以结合数据库进行索引,能快速构建所需系统。Nutch 是基于Lucene的,Lucene为 Nutch 提供了文本索引和搜索的API,所以它使用Lucene作为索引和检索的模块。Nutch的...
apache-nutch-1.4-bin.tar.gz.part1
- 修改 `/root/test/apache-nutch-2.3.1/conf/nutch-site.xml` 文件,在 `<configuration>` 节点中添加如下内容: ```xml <property> <name>storage.data.store.class</name> <value>org.apache.gora.hbase....
- 在 `nutch\conf\nutch-default.xml` 文件中找到 `<name>http.agent.name</name>`,并修改其值。 - 例如:将 `<value>` 标签内的值改为站点的实际域名。 #### 五、启动与测试 1. **启动Nutch**: - 在Cygwin...
Apache Nutch 是一个开源的网络爬虫项目,用于抓取互联网上的网页并建立索引,以便于搜索引擎进行高效的信息检索。Nutch 1.6 是该项目的一个稳定版本,提供了丰富的功能和良好的性能。这个`apache-nutch-1.6-src.tar...
- **步骤**: 打开 Cygwin,进入 `nutch-1.4/runtime/local` 目录(如解压到 D 盘,则路径为 `/cygdrive/d/apache-nutch-1.4/runtime/local`)。 - **命令**: 输入 `bin/nutch`,如果显示命令信息提示,则表示 Nutch ...
nutch配置nutch-default.xml
- 修改 `nutch-1.2\conf\nutch-default.xml` 文件中的 `<name>http.agent.name</name>` 的值,例如 `<value>sina</value>`。 - 修改 `nutch-1.2\conf\nutch-site.xml` 文件,设置域名相关的属性: - `<name>...