今天在公司做nutch的调试时,犯了一个低级的错误,在这里记录下,提醒下大家,以后不要犯此类的错误。
我们知道nutch-default.xml中有一个:
<property>
<name>plugin.folders</name>
<value>plugins</value>
<description>Directories where nutch plugins are located. Each
element may be a relative or absolute path. If absolute, it is used
as is. If relative, it is searched for on the classpath.</description>
</property>
nutch在启动的时候就会把下面的所有的插件加载。如果我们自己写一个插件的话,那么必须告诉nutch.我是在./src/plugin下面写的plugin.嘿嘿,这个<value>plugins</value> 没改,害的我找了好半天。应该该为 <value>./src/plugin
</value>才对。
关于插件的做法在上几篇的文章已经写过了。
分享到:
相关推荐
nutch配置nutch-default.xml
3.1.1 配置nutch....7 3.1.2 配置tomcat..8 3.1.3 执行抓取命令......9 3.1.4 测试结果...11 3.1.5 Intranet Recrawl..13 3.2 爬行全网.....18 3.2.1 nutch数据集的基本组成:.....18 3.2.2 爬行"官方"网址....
3.1.1 配置nutch....7 3.1.2 配置tomcat..8 3.1.3 执行抓取命令......9 3.1.4 测试结果...11 3.1.5 Intranet Recrawl..13 3.2 爬行全网.....18 3.2.1 nutch数据集的基本组成:.....18 3.2.2 爬行"官方"网址.....18 ...
bin/nutch org.apache.nutch.searcher.NutchBean -searcher.dir /path/to/searcher /path/to/queryfile ``` 整个Nutch安装和运行过程涉及很多命令和参数,文档中还提到一些配置文件和参数的详细配置,包括但不限于:...
在Nutch的运行过程中,配置文件起着至关重要的作用,它们定义了Nutch的行为方式和各种参数设置。Nutch的配置文件主要分为三类: 1. **Hadoop的配置文件**:包括`Hadoop-default.xml`和`Hadoop-site.xml`。`Hadoop-...
Nutch Htmlunit Plugin 重要说明: 当前项目基于Nutch 1.X系列已停止更新维护,转向Nutch 2.x系列版本的新项目:http://www.oschina.net/p/nutch-ajax 项目简介 基于Apache Nutch 1.8和Htmlunit...
Nutch 提供了详细的文档和示例配置,帮助用户快速上手。同时,社区活跃,有很多开发者和用户共享他们的经验和解决方案。 总结来说,Apache Nutch 1.3 是一个强大的网络爬虫框架,其源码包为开发者提供了深入理解...
Lucene+Nutch搜索源码.part1.rar Lucene+Nutch搜索源码.part2.rar
nutch官方简单案例,请版本是nutch-1.2.war
一、Nutch简介 Nutch是一个开源的网络爬虫框架,由Apache基金会开发和维护。它能够高效地抓取并处理海量数据,并提供了...Nutch通过一个名为nutch-site.xml的配置文件来进行配置,用户可以根据自己的需求进行定制化。
在 `nutch-default.xml` 中,`plugin.folders` 的值应该指向你的插件目录。如果你尝试了将 `value` 改为 `./src/plugin` 但未成功,可以尝试改为 `build/plugins`,这通常是编译后的插件存放位置。 3. **No URLs to...
(1)在conf/nutch-default.xml中,将`plugin.folders`的值更改为`./src/plugin`。 (2)创建一个名为urls的目录,里面放一个txt文件,包含你要抓取的初始网址。在conf/nutch-site.xml中,添加`http.agent.name`...
Lucene+Nutch搜索源码.part1.rar rar 货真价实 希望对你有帮助
安装和配置Nutch涉及到了对JDK、Nutch本身的安装与配置以及Tomcat(用于部署Web界面和提供RESTful服务)的安装与配置。安装完成后,通过简单的配置,Nutch可以开始爬取企业内部网络或整个互联网的数据。 Nutch初...
具体而言,将`plugin.folders`参数改为`"./src/plugin"`,以确保Nutch能够识别到项目的插件目录。 #### 步骤5:设置URL文件 在配置好基本环境后,还需要创建一个包含起始URL的文件,通常命名为`urls`,并将其放置...
Nutch 1.16是该项目的一个稳定版本,已经预先编译完成,方便开发者直接在Eclipse或IntelliJ IDEA这样的集成开发环境中导入使用,无需自行配置和编译源代码。 **Nutch的组成部分** 1. **Web爬虫**:Nutch的爬虫负责...
这是本人在完全分布式环境下在Cent-OS中配置Nutch-1.1时的总结文档,但该文档适合所有Linux系统和目前各版本的nutch。 目 录 介绍 ............................................................... 2 0 集群...
在教学或实际项目中,Nutch 可以作为一个实际的案例来展示如何利用开源工具处理大数据问题,特别是在搜索引擎构建方面。 7. **模板建站**: 尽管 Nutch 主要用于抓取数据,但其抓取的网页数据可以被用于网站分析...