`
stephen80
  • 浏览: 105569 次
  • 性别: Icon_minigender_1
  • 来自: 北京
社区版块
存档分类
最新评论

nutch 学习:编译,plugin

阅读更多
1. 在eclipse 中 部署 ,svn
2. jar ,自己编译,部署到服务器,运行 ok.
3. 拷贝creativecomoon plugin 目录。
   修改 mytestplugin 
   编译  ,jar ,拷贝到服务器

   <property>
<name>http.agent.name</name>
  <value>aliali</value>
 
</property>

<property>
   <name>http.robots.agents</name>
   <value>aliali,*</value>
   <description>The agent strings we'll look for in robots.txt files,
   comma-separated, in decreasing order of precedence. You should
   put the value of http.agent.name as the first agent name, and keep the
   default * at the end of the list. E.g.: BlurflDev,Blurfl,*
   </description>
</property>


4.加载 plugins

 

   <property>
  <name>plugin.includes</name>

  <value>nutch-extensionpoints|protocol-http|urlfilter-regex|mytestplugin|parse-(text|html|js)|index-basic|query-(basic|site|url)|s
ummary-basic|scoring-opic|urlnormalizer-(pass|regex|basic)
</value>
</property>

<property>
  <name>urlfilter.regex.file</name>
  <value>regex-urlfilter.txt</value>
  <description>Name of file on CLASSPATH containing regular expressions
  used by urlfilter-regex (RegexURLFilter) plugin.</description>

5. ok, plugin ok.

至此,可以调试和修改 nutch.



6. 部署 war,
   copy nutch*.war 到 webapps.
   修改 classes/nutch-site.xml , searcher.dir
7. luke index , ok ,search is ok.



分享到:
评论

相关推荐

    nutch入门学习

    2. **理解搜索引擎**:学习Nutch有助于深入理解搜索引擎的工作原理,特别是对于分布式计算和大规模数据处理的理解,Nutch是极佳的学习材料。 3. **扩展性**:Nutch允许高度定制化,用户可以根据需求调整搜索结果展示...

    Nutch插件机制

    这通常涉及到修改`conf/nutch-site.xml`文件,在`plugin.includes`属性中添加插件名称。 #### 五、示例:推荐插件开发 假设我们需要开发一个插件,用于推荐与特定关键词相关的网页。例如,当用户搜索“plugin”时...

    nutch的插件机制

    每个插件都有一个`plugin.xml`文件,用于描述插件信息,以及一个`build.xml`文件,指导Ant构建工具如何编译插件。 举例来说,如果我们想要创建一个插件,用于根据搜索词推荐相关网页,我们需要定义一个新的扩展点,...

    Nutch_插件深入研究

    5. **修改全局配置**:在`conf/nutch-default.xml`中,需要更新`plugin.includes`配置项,以包含新开发的插件。 #### 三、Mysql与Nutch的集成 除了插件开发,Nutch还支持将爬取的数据存储到MySQL数据库中。这一...

    nutch安装开发环境的配置

    2. **java.lang.RuntimeException: org.apache.nutch.plugin.PluginRuntimeException: java.lang.ClassNotFoundException: org.apache.nutch.net.RegexURLFilter** 这个问题可能是因为插件目录设置不正确。在 `...

    分布式搜索引擎nutch开发

    插件目录下的`src/plugin`是存放插件源代码的地方,编译后插件会被自动加载。 - **修改配置**:对于高级用户,可能需要调整Nutch的默认行为,例如改变分词规则、增加新的数据源或优化索引策略,这都需要修改配置...

    Nutch安装配置

    【Nutch安装配置】是关于开源搜索引擎项目Nutch的详细操作流程,主要涉及源码编译、环境搭建和系统配置等内容。Nutch是一款基于Java的搜索引擎框架,常用于大数据环境下的网页抓取、分析和索引。在进行Nutch安装配置...

    nutch Eclipse

    在本文中,我们将深入探讨如何在 Linux 环境下使用 Eclipse 编译 Apache Nutch 1.0。Apache Nutch 是一个开源的网络爬虫框架,主要用于抓取和索引网页内容。Eclipse 是一个广泛使用的 Java 开发集成环境,它支持多种...

    \Lucene Nutch和安装说明文旦

    2. **插件体系结构(Plugin Architecture)**: 允许用户自定义爬取策略,如选择哪些URL进行抓取,或者如何处理不同格式的网页。 3. **分布式处理(Distributed Processing)**: 支持Hadoop,可以进行大规模分布式...

    Nutch插件开发和服务器发布流程

    - 在`nutch/plugin`目录下创建一个名为`index-self`的新目录,用于存放即将创建的插件文件。 - 该目录将包含`build.xml`和`plugin.xml`两个文件,它们分别用于构建和描述插件的基本信息。 **4. 配置构建脚本** - ...

    Nutch1.4_windows下eclipse配置图文详解.docx

    - **修改 `nutch-default` 文件**:将 `plugin.folders` 的值从 `plugins` 更改为 `./src/plugin`。 - **创建 urls 目录**:在工程目录下创建 `urls` 文件夹,并在其中放置包含目标 URL 的文本文件。 - **修改 `...

    rtf-parse.jar、jid3lib-0.5.4.jar

    在编译`Nutch`项目时,可能需要依赖各种`jar`库,包括`rtf-parse.jar`和`jid3lib-0.5.4.jar`,因为`Nutch`可能需要处理包含RTF格式的网页或者抓取的MP3等音频文件。 `rtf-parse.jar`和`jid3lib-0.5.4.jar`在`Nutch`...

    jid3lib-0.5.4.jar

    jid3lib-0.5.4.jar,编译nutch0.9,有两个plugin编译不能通过,mp3,rtf插件编译,找不到jar,这是其中一个

Global site tag (gtag.js) - Google Analytics