`
hpjianhua
  • 浏览: 243227 次
  • 性别: Icon_minigender_1
  • 来自: 广州
社区版块
存档分类

Nutch-1.1异常信息:No agents listed in 'http.agent.name' property

阅读更多
Nutch1.1异常信息如下:


Fetcher: No agents listed in 'http.agent.name' property.
Exception in thread "main" java.lang.IllegalArgumentException: Fetcher: No agents listed in 'http.agent.name' property.
	at org.apache.nutch.fetcher.Fetcher.checkConfiguration(Fetcher.java:1161)
	at org.apache.nutch.fetcher.Fetcher.fetch(Fetcher.java:1067)
	at org.apache.nutch.crawl.Crawl.main(Crawl.java:133)



经过搜索才知道是nutch-default.xml属性设置问题:

抛出异常前的设置:

<property>
  <name>http.agent.name</name>
  <value></value>
  <description>HTTP 'User-Agent' request header. MUST NOT be empty - 
  please set this to a single word uniquely related to your organization.

  NOTE: You should also check other related properties:

	http.robots.agents
	http.agent.description
	http.agent.url
	http.agent.email
	http.agent.version

  and set their values appropriately.

  </description>
</property>




设置如下方式后,异常信息就不见了:


<property>
  <name>http.agent.name</name>
  <value>HD nutch agent</value>
  <description>HTTP 'User-Agent' request header. MUST NOT be empty - 
  please set this to a single word uniquely related to your organization.

  NOTE: You should also check other related properties:

	http.robots.agents
	http.agent.description
	http.agent.url
	http.agent.email
	http.agent.version

  and set their values appropriately.

  </description>
</property>
0
0
分享到:
评论

相关推荐

    apache-nutch-2.3.1-src.tar.gz

    5. **配置文件**:如 `conf/nutch-default.xml` 和 `conf/nutch-site.xml`,分别包含 Nutch 的默认配置和用户自定义配置。 6. **抓取策略**:Nutch 支持基于链接的抓取策略,如 PR(PageRank)和 TF-IDF(Term ...

    apache-nutch-1.4-bin.tar.gz

    在这个"apache-nutch-1.4-bin.tar.gz"压缩包中,包含了运行 Nutch 的所有必要组件和配置文件,适合初学者和开发者快速部署和实验。 **Nutch 的核心组成部分:** 1. **爬虫(Spider)**:Nutch 的爬虫负责在网络中...

    apache-nutch-1.6-bin.tar.gz最新版

    nutch不用安装,是个应用程序,下载后为nutch-1.6.tar.gz,双击桌面上的cygwin快捷方式;执行以下命令: $ cd D:/Downloads/Soft $ tar zxvf nutch-1.0.tar.gz 在e盘下面出现nutch-0.9文件夹说明解压成功了.然后环境...

    apache-nutch-2.2.1(Eclipse直接运行版)001

    apache-nutch-2.2.1(Eclipse直接运行版)今天刚做的,发现有很多坑,分享给大家实验,JDK1.7 Win10。我分享的两个压缩卷一起下载才可以用,资源限制太小了 002地址:...

    apache-nutch-1.7-src.tar.gz

    在“apache-nutch-1.7-src.tar.gz”这个压缩包中,你将获得Nutch 1.7的源代码,这使得开发者可以深入了解其工作原理,并对其进行定制和扩展。解压后的文件夹“apache-nutch-1.7”包含了所有必要的组件和配置文件。 ...

    apache-nutch-1.3-src.tar.gz_nutch_nutch-1.3.tar.gz

    这个源码包 "apache-nutch-1.3-src.tar.gz" 和 "nutch-1.3.tar.gz" 包含了 Nutch 1.3 的源代码和编译后的二进制文件,对于开发者和研究者来说是非常有价值的资源。 **Nutch 概述** Nutch 是基于 Java 开发的,遵循 ...

    Ubuntu_Nutch_.pdf

    Fetcher:No agents listed in ‘http.agent.name’ property** - **问题原因**: Nutch配置文件中`http.agent.name`属性的值为空。 - **解决方法**: 修改`nutch-1.2/conf/nutch-default.xml`文件,设置`...

    windows下nutch的安装.pdf

    &lt;name&gt;http.agent.name&lt;/name&gt; &lt;value&gt;MySearch ``` 还可以配置抓取的起始URLs: ```xml &lt;property&gt; &lt;name&gt;urlfile&lt;/name&gt; *** &lt;/property&gt; ``` Nutch的抓取行为由不同的配置文件控制,包括: - crawl-urlfilter....

    apach-nutch-1.9-bin.tar.gz

    4. **配置与部署**:解压 "apache-nutch-1.9" 文件后,需要根据你的环境配置`conf/nutch-site.xml`文件,设置包括抓取间隔、并发度、存储路径等参数。同时,可能还需要配置`conf/regex-urlfilter.txt`和`conf/...

    apache-nutch-1.4-bin.tar.gz.part2

    apache-nutch-1.4-bin.tar.gz.part2

    Eclipse中编译Nutch-0.9

    - 在`nutch-site.xml`中,同样更新`http.agent.name`,并提供详细的描述信息。 - **设置爬虫入口**:在项目的`urls`目录下新建文件`url`,输入爬虫的起始URL地址。同时,编辑`crawl-urlfilter.txt`文件,以允许或...

    apache-nutch-1.5.1-bin.tar.gz

    Nutch是一款刚刚诞生的完整的开源搜索引擎系统,可以结合数据库进行索引,能快速构建所需系统。Nutch 是基于Lucene的,Lucene为 Nutch 提供了文本索引和搜索的API,所以它使用Lucene作为索引和检索的模块。Nutch的...

    apache-nutch-1.4-bin.tar.gz.part1

    apache-nutch-1.4-bin.tar.gz.part1

    nutch2.3.1安装文档教程

    - 修改 `/root/test/apache-nutch-2.3.1/conf/nutch-site.xml` 文件,在 `&lt;configuration&gt;` 节点中添加如下内容: ```xml &lt;property&gt; &lt;name&gt;storage.data.store.class&lt;/name&gt; &lt;value&gt;org.apache.gora.hbase....

    nutch的安装方法,好用

    - 在 `nutch\conf\nutch-default.xml` 文件中找到 `&lt;name&gt;http.agent.name&lt;/name&gt;`,并修改其值。 - 例如:将 `&lt;value&gt;` 标签内的值改为站点的实际域名。 #### 五、启动与测试 1. **启动Nutch**: - 在Cygwin...

    apache-nutch-1.6-src.tar.gz

    Apache Nutch 是一个开源的网络爬虫项目,用于抓取互联网上的网页并建立索引,以便于搜索引擎进行高效的信息检索。Nutch 1.6 是该项目的一个稳定版本,提供了丰富的功能和良好的性能。这个`apache-nutch-1.6-src.tar...

    nutch_1.4在windows下安装配置.pdf

    - **步骤**: 打开 Cygwin,进入 `nutch-1.4/runtime/local` 目录(如解压到 D 盘,则路径为 `/cygdrive/d/apache-nutch-1.4/runtime/local`)。 - **命令**: 输入 `bin/nutch`,如果显示命令信息提示,则表示 Nutch ...

    nutch配置nutch-default.xml

    nutch配置nutch-default.xml

    nutch和cygwin在Windows系统上的配置.pdf

    - 修改 `nutch-1.2\conf\nutch-default.xml` 文件中的 `&lt;name&gt;http.agent.name&lt;/name&gt;` 的值,例如 `&lt;value&gt;sina&lt;/value&gt;`。 - 修改 `nutch-1.2\conf\nutch-site.xml` 文件,设置域名相关的属性: - `&lt;name&gt;...

Global site tag (gtag.js) - Google Analytics