`
john_doe
  • 浏览: 11650 次
社区版块
存档分类
最新评论

nutch nutch-site.xml

阅读更多
1. nutch-site.xml的变更不需要重新ant,  与ycs的说法有误
2. nutch-site.xml中的
<property>
  <name>http.agent.name</name>
  <value>Mozilla/5.0 (Windows NT 6.1; rv:20.0) Gecko/20100101 Firefox/20.0</value>
  <description>HTTP 'User-Agent' request header. MUST NOT be empty -
  please set this to a single word uniquely related to your organization.

  NOTE: You should also check other related properties:

        http.robots.agents
        http.agent.description
        http.agent.url
        http.agent.email
        http.agent.version

  and set their values appropriately.

  </description>
</property>
其中<value></value>要有同一行,不然会出现fetch www.amazon.cn,www.vancl.com 不到东西的情况。非常怪异的情况
分享到:
评论

相关推荐

    apache-nutch-2.3.1-src.tar.gz

    5. **配置文件**:如 `conf/nutch-default.xml` 和 `conf/nutch-site.xml`,分别包含 Nutch 的默认配置和用户自定义配置。 6. **抓取策略**:Nutch 支持基于链接的抓取策略,如 PR(PageRank)和 TF-IDF(Term ...

    apache-nutch-1.4-bin.tar.gz

    2. **配置**:编辑conf/nutch-site.xml文件,设置如存储路径、抓取间隔、抓取范围等相关参数。 3. **创建种子**:在conf/urls目录下创建种子文件,列出要开始抓取的初始URL。 4. **运行Nutch**:使用bin/nutch命令行...

    apache-nutch-1.7-src.tar.gz

    Nutch的配置主要通过`conf`目录下的文件完成,如`nutch-site.xml`定义了项目的配置参数,`regex-urlfilter.txt`和`fetcher.conf`分别用于URL过滤和抓取设置。 为了运行Nutch,你需要搭建一个Hadoop环境,因为Nutch...

    apach-nutch-1.9-bin.tar.gz

    4. **配置与部署**:解压 "apache-nutch-1.9" 文件后,需要根据你的环境配置`conf/nutch-site.xml`文件,设置包括抓取间隔、并发度、存储路径等参数。同时,可能还需要配置`conf/regex-urlfilter.txt`和`conf/...

    apache-nutch-1.6-src.tar.gz

    - **XML配置与XML Schema**:了解如何解读和修改Nutch的配置文件,理解`nutch-site.xml`的结构和作用。 - **Java编程**:源码阅读和开发需要基本的Java编程技能,特别是对多线程和网络编程的理解。 - **Ant构建工具*...

    Nutch_的配置文件

    - 接着,`NutchConfiguration`会调用`addNutchResources(conf)`方法,向`Configuration`对象添加Nutch自己的配置资源,如`Nutch-default.xml`和用户定义的`Nutch-site.xml`,这里的`Nutch-site.xml`会覆盖`Nutch-...

    apache-nutch-2.3-src.zip

    4. **配置与定制**:Nutch的配置主要在conf目录下的`nutch-site.xml`文件中进行,包括爬虫策略、存储路径、Hadoop配置等。用户可以根据需求修改这些配置或编写自定义插件。 5. **与Hadoop的集成**:Nutch 2.3 使用...

    apache-nutch-1.13-src.zip_nutch_网络爬虫

    - `src/conf`:存放配置文件,如 `nutch-site.xml`,用于设置爬虫的行为和各种参数。 - `src/test`:测试代码,包括单元测试和集成测试,有助于理解和验证 Nutch 的工作原理。 - `src/bin`:包含命令行工具,如 `...

    Hadoop-2.4.0+Hbase-0.94.18+Nutch-2.3集群爬虫配置攻略

    在`conf/nutch-site.xml`中,配置Nutch的基本参数,如抓取间隔、抓取策略等。还需在`conf/hadoop-site.xml`中包含Hadoop的配置信息,以便Nutch能与Hadoop集群通信。如果要使用Hbase存储抓取的数据,还需要在Nutch的...

    apache-nutch-1.16.rar 已编译好的版本,可以直接导入eclipse、idea

    这可能涉及到修改`conf/nutch-site.xml`文件。 3. **设置种子**:在`conf/urls`目录下创建一个文本文件,列出你希望爬取的起始URL,这被称为种子URL。 4. **运行Nutch命令**:通过项目内的脚本或自定义的Java类,...

    windows下nutch的安装.pdf

    5. Nutch配置文件:如nutch-site.xml、nutch-default.xml等。 安装过程中,首先需要在Windows系统上安装Cygwin,安装完成后,需指定JDK的安装路径,这通常是在环境变量中设置NUTCH_JAVA_HOME。在Cygwin的终端中,...

    nutch2.2.1安装步骤.docx

    2. 配置 Nutch 的抓取配置文件,如 `conf/nutch-site.xml` 和 `conf/gora.properties`。 3. 添加种子 URL:`bin/nutch inject urls` 4. 执行抓取周期:`bin/nutch crawl -i crawl` 注意,你需要根据实际的数据库...

    Nutch配置环境\Nutch1[1].4_windows下eclipse配置图文详解.docx

    在conf/nutch-site.xml中,添加`http.agent.name`属性,如 `&lt;name&gt;http.agent.name&lt;/name&gt;&lt;value&gt;My Nutch Spider&lt;/value&gt;`。 (3)编辑regex-urlfilter.txt,根据需求过滤网址,例如只抓取www.163.com的页面。 8....

    Nutch-1.0分布式安装手册.rar

    这包括修改Hadoop的配置文件如`core-site.xml`、`hdfs-site.xml`以及`mapred-site.xml`,以适应Nutch的需求。比如,设置HDFS的名称节点和数据节点地址,以及MapReduce的相关参数。 接下来,配置Nutch的`conf/nutch-...

    Nutch配置[汇编].pdf

    - **文件路径**:`E:\Tomcat\webapps\nutch\WEB-INF\classes\nutch-site.xml`。 - **添加配置项**: ```xml &lt;name&gt;searcher.dir &lt;value&gt;D:\\cygwin\\usr\\local\\nutch\\crawled &lt;description&gt;Path to root of...

    Eclipse中编译Nutch-0.9

    - **修改配置文件**:编辑关键的配置文件,如hadoop-site.xml、nutch-default.xml和nutch-site.xml,以适应本地环境和个性化需求。 - 在`nutch-default.xml`中,更新`http.agent.name`属性值为`nutch-1.0`,并指定...

    Ubuntu_Nutch_.pdf

    - 修改Tomcat的`nutch-site.xml`文件,指定搜索器的目录路径。 - 修改`/tomcat6/conf/server.xml`文件,确保连接器配置正确。 以上是Ubuntu环境下Nutch的配置安装以及常见问题的处理方法。通过这些步骤,可以有效...

    nutch_recrawl_mergecrawl.rar_nutch_nutch recrawl_recrawl

    使用 `recrawl` 和 `mergecrawl` 需要对 Nutch 的配置文件有深入理解,包括但不限于 `conf/nutch-site.xml` 和 `conf/crawldb-default.xml`。配置文件中涉及的参数包括爬取间隔、URL 排队策略、存储路径等。同时,`...

    Nutch 1.2源码阅读

    具体而言,会加载`nutch-default.xml`、`crawl-tool.xml`(可选)和`nutch-site.xml`这三个配置文件,分别代表默认配置、爬虫特有配置和用户自定义配置。这些配置文件对Nutch的行为和性能具有决定性的影响。 #### ...

    Nutch全文搜索学习笔记

    如果希望更改默认的搜索目录,可以在`nutch-site.xml`中设置`searcher.dir`属性。 **5. 解决中文乱码问题** 为了处理中文乱码问题,需要在Tomcat的`server.xml`文件中配置`URIEncoding`属性: ```xml ...

Global site tag (gtag.js) - Google Analytics