今天在公司做nutch的调试时,犯了一个低级的错误,在这里记录下,提醒下大家,以后不要犯此类的错误。
我们知道nutch-default.xml中有一个:
<property>
<name>plugin.folders</name>
<value>plugins</value>
<description>Directories where nutch plugins are located. Each
element may be a relative or absolute path. If absolute, it is used
as is. If relative, it is searched for on the classpath.</description>
</property>
nutch在启动的时候就会把下面的所有的插件加载。如果我们自己写一个插件的话,那么必须告诉nutch.我是在./src/plugin下面写的plugin.嘿嘿,这个<value>plugins</value> 没改,害的我找了好半天。应该该为 <value>./src/plugin
</value>才对。
关于插件的做法在上几篇的文章已经写过了。
分享到:
相关推荐
在 `nutch-default.xml` 中,`plugin.folders` 的值应该指向你的插件目录。如果你尝试了将 `value` 改为 `./src/plugin` 但未成功,可以尝试改为 `build/plugins`,这通常是编译后的插件存放位置。 3. **No URLs to...
(1)在conf/nutch-default.xml中,将`plugin.folders`的值更改为`./src/plugin`。 (2)创建一个名为urls的目录,里面放一个txt文件,包含你要抓取的初始网址。在conf/nutch-site.xml中,添加`http.agent.name`...
本文将详细解析如何在Eclipse中配置Nutch,以便于开发者更好地理解和操作这一过程。 ### 一、理解Nutch与Eclipse的结合 Nutch是一个基于Hadoop的框架,用于构建可扩展且高性能的网络爬虫。它不仅能够抓取网页,还...
- 在`conf/nutch-default.xml`文件中,找到属性`plugin.folders`,将其值从`plugins`更改为`./src/plugin`。 #### 五、运行配置 1. **配置运行参数**: - 在MyEclipse中,右键点击项目,选择`Run As -> Run ...
<name>plugin.folders <value>plugins <name>http.content.limit</name> <value>1000000 <name>index.writer.class <value>org.apache.nutch.indexer.solr.SolrIndexWriter <name>index.reader....
- **修改 `nutch-default` 文件**:将 `plugin.folders` 的值从 `plugins` 更改为 `./src/plugin`。 - **创建 urls 目录**:在工程目录下创建 `urls` 文件夹,并在其中放置包含目标 URL 的文本文件。 - **修改 `...