1. 在eclipse 中 部署 ,svn
2. jar ,自己编译,部署到服务器,运行 ok.
3. 拷贝creativecomoon plugin 目录。
修改 mytestplugin
编译 ,jar ,拷贝到服务器
<property>
<name>http.agent.name</name>
<value>aliali</value>
</property>
<property>
<name>http.robots.agents</name>
<value>aliali,*</value>
<description>The agent strings we'll look for in robots.txt files,
comma-separated, in decreasing order of precedence. You should
put the value of http.agent.name as the first agent name, and keep the
default * at the end of the list. E.g.: BlurflDev,Blurfl,*
</description>
</property>
4.加载 plugins
<property>
<name>plugin.includes</name>
<value>nutch-extensionpoints|protocol-http|urlfilter-regex|mytestplugin|parse-(text|html|js)|index-basic|query-(basic|site|url)|s
ummary-basic|scoring-opic|urlnormalizer-(pass|regex|basic)
</value>
</property>
<property>
<name>urlfilter.regex.file</name>
<value>regex-urlfilter.txt</value>
<description>Name of file on CLASSPATH containing regular expressions
used by urlfilter-regex (RegexURLFilter) plugin.</description>
5. ok, plugin ok.
至此,可以调试和修改 nutch.
6. 部署 war,
copy nutch*.war 到 webapps.
修改 classes/nutch-site.xml , searcher.dir
7. luke index , ok ,search is ok.
分享到:
相关推荐
2. **理解搜索引擎**:学习Nutch有助于深入理解搜索引擎的工作原理,特别是对于分布式计算和大规模数据处理的理解,Nutch是极佳的学习材料。 3. **扩展性**:Nutch允许高度定制化,用户可以根据需求调整搜索结果展示...
这通常涉及到修改`conf/nutch-site.xml`文件,在`plugin.includes`属性中添加插件名称。 #### 五、示例:推荐插件开发 假设我们需要开发一个插件,用于推荐与特定关键词相关的网页。例如,当用户搜索“plugin”时...
每个插件都有一个`plugin.xml`文件,用于描述插件信息,以及一个`build.xml`文件,指导Ant构建工具如何编译插件。 举例来说,如果我们想要创建一个插件,用于根据搜索词推荐相关网页,我们需要定义一个新的扩展点,...
5. **修改全局配置**:在`conf/nutch-default.xml`中,需要更新`plugin.includes`配置项,以包含新开发的插件。 #### 三、Mysql与Nutch的集成 除了插件开发,Nutch还支持将爬取的数据存储到MySQL数据库中。这一...
2. **java.lang.RuntimeException: org.apache.nutch.plugin.PluginRuntimeException: java.lang.ClassNotFoundException: org.apache.nutch.net.RegexURLFilter** 这个问题可能是因为插件目录设置不正确。在 `...
插件目录下的`src/plugin`是存放插件源代码的地方,编译后插件会被自动加载。 - **修改配置**:对于高级用户,可能需要调整Nutch的默认行为,例如改变分词规则、增加新的数据源或优化索引策略,这都需要修改配置...
【Nutch安装配置】是关于开源搜索引擎项目Nutch的详细操作流程,主要涉及源码编译、环境搭建和系统配置等内容。Nutch是一款基于Java的搜索引擎框架,常用于大数据环境下的网页抓取、分析和索引。在进行Nutch安装配置...
在本文中,我们将深入探讨如何在 Linux 环境下使用 Eclipse 编译 Apache Nutch 1.0。Apache Nutch 是一个开源的网络爬虫框架,主要用于抓取和索引网页内容。Eclipse 是一个广泛使用的 Java 开发集成环境,它支持多种...
2. **插件体系结构(Plugin Architecture)**: 允许用户自定义爬取策略,如选择哪些URL进行抓取,或者如何处理不同格式的网页。 3. **分布式处理(Distributed Processing)**: 支持Hadoop,可以进行大规模分布式...
- 在`nutch/plugin`目录下创建一个名为`index-self`的新目录,用于存放即将创建的插件文件。 - 该目录将包含`build.xml`和`plugin.xml`两个文件,它们分别用于构建和描述插件的基本信息。 **4. 配置构建脚本** - ...
- **修改 `nutch-default` 文件**:将 `plugin.folders` 的值从 `plugins` 更改为 `./src/plugin`。 - **创建 urls 目录**:在工程目录下创建 `urls` 文件夹,并在其中放置包含目标 URL 的文本文件。 - **修改 `...
在编译`Nutch`项目时,可能需要依赖各种`jar`库,包括`rtf-parse.jar`和`jid3lib-0.5.4.jar`,因为`Nutch`可能需要处理包含RTF格式的网页或者抓取的MP3等音频文件。 `rtf-parse.jar`和`jid3lib-0.5.4.jar`在`Nutch`...
jid3lib-0.5.4.jar,编译nutch0.9,有两个plugin编译不能通过,mp3,rtf插件编译,找不到jar,这是其中一个