`
gstarwd
  • 浏览: 1526802 次
  • 性别: Icon_minigender_1
  • 来自: 杭州
社区版块
存档分类
最新评论

Nutch Fetcher: No agents listed in ‘http.agent.name’ property错误解决方法

XML 
阅读更多

在 root下的  nutch-default.xml下面

如果一开始的属性设置为:

<property>
    <name> http.agent.name</name>
    <value> </value>
</property>


则可能会抛出Fetcher: No agents listed in ‘http.agent.name’ property的错误提示。原因在于<value></value>中的值为空,自己加上一些东西(我想应该是随意的),改成 如下所示:

<property>
    <name> http.agent.name</name>
    <value> HD nutch agent</value>
</property>


即可。

分享到:
评论

相关推荐

    Ubuntu_Nutch_.pdf

    Fetcher:No agents listed in ‘http.agent.name’ property** - **问题原因**: Nutch配置文件中`http.agent.name`属性的值为空。 - **解决方法**: 修改`nutch-1.2/conf/nutch-default.xml`文件,设置`...

    nutch_1.4在windows下安装配置.pdf

    - **下载地址**: [http://nutch.apache.org/](http://nutch.apache.org/) - **解压**: 将下载的 ZIP 文件解压至某磁盘根目录下,建议命名方便调试。 4. **Solr 3.5** - **下载地址**: ...

    nutch的安装方法,好用

    ### Nutch 的安装方法详解 #### 一、前言 Nutch是一款开源的网络爬虫项目,基于Hadoop实现,可以抓取整个互联网,并且能够根据网页内容进行索引和检索。本文将详细介绍如何在Windows环境下安装配置Nutch,使初学者...

    Nutch配置环境\Nutch1[1].4_windows下eclipse配置图文详解.docx

    在conf/nutch-site.xml中,添加`http.agent.name`属性,如 `&lt;name&gt;http.agent.name&lt;/name&gt;&lt;value&gt;My Nutch Spider&lt;/value&gt;`。 (3)编辑regex-urlfilter.txt,根据需求过滤网址,例如只抓取www.163.com的页面。 8....

    nutch2.3.1安装文档教程

    - 访问 Nutch 官网:[http://nutch.apache.org/downloads.html](http://nutch.apache.org/downloads.html) - 下载 Nutch 2.3.1 版本的 tar 文件。 - 使用命令 `tar -zxvf apache-nutch-2.3.1-src.tar.gz` 解压缩...

    nutch 初学文档教材

    1.1什么是nutch..1 1.2研究nutch的原因...1 1.3 nutch的目标..1 1.4 nutch VS lucene.....2 2. nutch的安装与配置.....3 2.1 JDK的安装与配置.3 2.2 nutch的安装与配置........5 2.3 tomcat的安装与配置......5 3. ...

    Nutch入门.rar

    1.1什么是nutch..1 1.2研究nutch的原因...1 1.3 nutch的目标..1 1.4 nutch VS lucene.....2 2. nutch的安装与配置.....3 2.1 JDK的安装与配置.3 2.2 nutch的安装与配置........5 2.3 tomcat的安装与配置........

    nutch安装开发环境的配置

    2. **java.lang.RuntimeException: org.apache.nutch.plugin.PluginRuntimeException: java.lang.ClassNotFoundException: org.apache.nutch.net.RegexURLFilter** 这个问题可能是因为插件目录设置不正确。在 `...

    apache-nutch-2.3.1-src.tar.gz

    Nutch 是由 Apache Software Foundation 维护,它提供了完整的网络爬虫解决方案,包括数据采集、预处理、文本分析以及搜索功能。`apache-nutch-2.3.1-src.tar.gz` 是 Apache Nutch 的源代码包,版本号为 2.3.1,以 ...

    nutch配置与安装

    4. **设置网络蜘蛛身份**:修改`nutch-site.xml`文件,添加`http.agent.name`属性,设置其值为本次抓取任务的身份标识,如`localweb.com`。 5. **执行抓取任务**:在Cygwin命令行中输入`bin/nutch crawl url.txt –...

    nutch和cygwin在Windows系统上的配置.pdf

    - 修改 `nutch-1.2\conf\nutch-default.xml` 文件中的 `&lt;name&gt;http.agent.name&lt;/name&gt;` 的值,例如 `&lt;value&gt;sina&lt;/value&gt;`。 - 修改 `nutch-1.2\conf\nutch-site.xml` 文件,设置域名相关的属性: - `&lt;name&gt;...

    Nutch2.3.1 环境搭建

    1. 访问Apache Nutch官方网站(http://nutch.apache.org/releases.html),下载Nutch 2.3.1的源码包。 2. 解压下载的源代码到你选择的工作目录,例如`/usr/local/src/nutch-2.3.1`。 **三、配置Nutch** 打开Nutch的...

    windows下nutch的安装.pdf

    bin/nutch org.apache.nutch.searcher.NutchBean -searcher.dir /path/to/searcher /path/to/queryfile ``` 整个Nutch安装和运行过程涉及很多命令和参数,文档中还提到一些配置文件和参数的详细配置,包括但不限于:...

    apache-nutch-1.4-bin.tar.gz

    Nutch 的设计目的是为了提供一种高效、可靠且易于维护的解决方案,尤其适用于大数据量的互联网内容处理。在这个"apache-nutch-1.4-bin.tar.gz"压缩包中,包含了运行 Nutch 的所有必要组件和配置文件,适合初学者和...

    Windows系统下Nutch检索工具的搭建步骤

    NOTE: You should also check other related properties: http.robots.agents, http.agent.description, http.agent.url, http.agent.email, http.agent.version and set their values appropriately.&lt;/description...

    jid3lib-0.5.4与rtf-parser nutch

    Nutch 实战:http://www.ibm.com/developerworks/cn/opensource/os-cn-nutchintro/ Nutch还需要另外两个jar文件,jid3lib-0.5.1.jar和rtf-parser.jar

    Nutch中文教程nutcher.zip

    nutcher 是 Apache Nutch 的中文教程,在github上托管。nutch社区目前缺少教程和文档,而且教程对应版本号较为落后。nutcher致力于为nutch提供一个较新的中文教程和文档,供开发者学习。 github地址: ...

    apache-nutch-1.3-src.tar.gz_nutch_nutch-1.3.tar.gz

    Apache Nutch 是一个开源的网络爬虫项目,用于抓取互联网上的网页并建立索引,以便进行全文搜索。Nutch 1.3 是该项目的一个稳定版本,提供了许多关键功能和改进。这个源码包 "apache-nutch-1.3-src.tar.gz" 和 ...

Global site tag (gtag.js) - Google Analytics