`
ancin
  • 浏览: 52729 次
  • 性别: Icon_minigender_1
文章分类
社区版块
存档分类
最新评论

Nutch Nutch插件实现自定义索引字段

阅读更多
1. nutch 基本配置和安装不在赘述。
2.新建自己的plugin 只要实现对应的plugin接口即可。
3.plugin.xml 的具体配置可以参考plugins目录下的标准。
4.一个是schema.xml,在其中的fields标签下加入如下代码:

 <field name="test1" type="date" stored="true" indexed="true"/>  
<field name="test2" type="string" stored="true" indexed="true"/>  


其中的stored表示这个字段的值要存储在lucene的索引中
其中的indexed表示这个字段的值是不是要进行分词查询

还有一个是solrindex-mapping.xml文件,这个文件的作用是把索引过滤器中生成的字段名与schema.xml中的做一个对应关系,要在其fields标签中加入如下代码:

<field dest="test1" source="fetchTime"/>  
<field dest="test2" source="metadata"/>  


这样自定义索引过滤插件就算完成了,记得这里的schema.xml文件是在solr/conf目录下的,修改以后要重启一下,不知道solr支不支持修改了配置文件后不重启就可以生效。


bin/nutch solrindex http://localhost:8080/solr/ crawldb -linkdb crawldb/linkdb crawldb/segments/* 
solr的索引文件在solr/data/index中,你可以用luke这个工具加开其索引文件,看一下其中的一些元信息,这个时候你就应该可以看到test1与test2这两个字段了.

5. 查询
http://localhost:8080/solr/admin/
到对应的core中输入关键字查询,index的字段就出现了。test1和test2.

OVER
记录下,免得遗忘。

分享到:
评论

相关推荐

    Nutch_插件深入研究

    本部分将简要介绍Nutch插件的实际应用案例,包括中文分词插件、索引字段增强插件等。通过具体实例,读者可以更好地理解Nutch插件是如何在实际场景中发挥作用的,以及如何根据自身需求开发和集成插件。 #### 五、在...

    nutch的插件机制

    2. **Indexing Filter插件**:这些插件在索引过程中运行,允许对索引字段添加元数据或进行修改。每个实现该接口的插件会在分析过程中按顺序执行,提供对索引内容的自定义处理。 3. **Search Filter插件**:搜索过滤...

    Nutch插件机制

    比如`onlineClusterer`用于提供在线查询结果的分组算法,`indexingFiltering`允许为索引字段添加元数据等。 - **扩展点接口**:每个扩展点都定义了一个接口,开发者需要实现这些接口来开发自己的插件。例如,`...

    nutch对指定字段进行查询及双引号查询

    包含的两个文件名称"在搜索的时候加不加双引号的区别"和"对指定字段进行查询的程序"暗示了文件内容可能分别涉及双引号查询的实例对比和Nutch中字段查询的具体编程实现。阅读这些文件将有助于深入理解上述概念,并...

    Nutch插件开发文档

    ### Nutch插件开发知识点详解 #### 一、Nutch插件系统概述 Nutch是一款开源的网络爬虫工具,其强大的灵活性...通过以上步骤,我们可以成功地开发出一个新的Nutch插件,并将其集成到Nutch系统中,以实现定制化的需求。

    Nutch 0.8笔记NUTCHNUTCH

    如果你只想使用 Nutch 的爬虫功能而不涉及索引,可以参照 Indexer 类自定义实现,例如将 segments 内容直接导入数据库。 **索引记录字段** 每个 Nutch 索引记录包含以下字段: - **url**:唯一标识符,由 ...

    nutch使用文档

    Nutch 的搭建过程主要包括准备工作、安装 Linux 系统、安装 JDK、配置 Nutch 创建索引、安装 Tomcat 和配置 Nutch 查询索引等步骤。 准备工作 在开始搭建 Nutch 之前,需要准备一个 Linux 操作系统和 JDK 环境。...

    mp3文件信息解析-nutch使用

    此外,对于图片等非文本信息,可能需要将其转换为适合存储在Nutch索引中的格式。 在Nutch的`parse-html`定制中,可能会涉及以下方面: 1. **链接识别**:修改或扩展URL检测规则,以捕获指向MP3文件的链接。 2. **...

    Nutch插件开发和服务器发布流程

    - 更新`{nutchhome}/conf/schema.xml`和`{tomcathome}/webapps/solr/collection1/conf/schema.xml`文件,添加新的字段以支持自定义插件的功能。例如: ```xml &lt;!-- Fields for self plugin --&gt; ``` **4. ...

    apache-nutch

    4. **策略插件**:Nutch 允许用户自定义抓取策略,例如根据网页类型、优先级等进行抓取。 **二、分布式爬虫架构** 1. **Hadoop集成**:Nutch 使用Hadoop作为其基础平台,实现分布式抓取和处理,有效应对大数据量的...

    nutch-访问wap网站

    Nutch 是一个开源的全文...总结,Nutch访问WAP网站的关键在于正确设置HTTP头部,通过自定义协议插件和配置文件来实现。了解并掌握这一过程,能帮助我们更高效地抓取移动互联网上的数据,为数据分析和信息检索提供支持。

    lucene2.4+nutch学习笔记三:lucene 在多个文本文档里找出包含一些关键字的文档

    2. **编写插件**:如果需要自定义处理逻辑,可以编写Nutch插件,如自定义Analyzer或索引策略。 3. **运行Nutch**:执行Nutch的命令行工具,如`bin/nutch crawl`,启动爬虫流程。 4. **搜索关键词**:Nutch完成索引后...

    Lucenechapter11.rar_nutch

    Nutch采用了TF-IDF(词频-逆文档频率)作为基础的排名算法,同时支持自定义插件以实现更复杂的排名策略,如PageRank或BM25。用户输入查询后,搜索器会通过索引查找匹配的文档,并根据排名算法返回最相关的结果。 在...

    Lucene nutch 搜索引擎 开发 实例 源码

    同时,Nutch的插件架构使得开发者可以轻松扩展其功能。 通过学习和研究这些源码,开发者不仅可以了解搜索引擎的基本原理,还能掌握如何在实际项目中应用这些技术。对于初学者来说,详细注释的示例代码提供了很好的...

    Nutch安装配置

    10. **扩展和优化**:Nutch支持插件机制,可以根据需求编写自己的插件,例如自定义爬虫策略、解析器或索引器。通过`plugin/`目录下的配置文件来启用或禁用插件。 总结来说,Nutch安装配置涉及Java环境、源码编译、...

    提高nutch运行效率的原理与方法

    Nutch是Apache软件基金会开发的一款开源的Web爬虫系统,它用于抓取互联网上的网页并构建倒排索引,为搜索引擎提供数据基础。在实际应用中,由于Nutch的默认配置和工作流程可能存在效率问题,因此,理解其运行原理并...

    \Lucene Nutch和安装说明文旦

    2. **插件体系结构(Plugin Architecture)**: 允许用户自定义爬取策略,如选择哪些URL进行抓取,或者如何处理不同格式的网页。 3. **分布式处理(Distributed Processing)**: 支持Hadoop,可以进行大规模分布式...

    nutch2.1最新svn打包

    7. **配置与扩展**:Nutch的配置文件允许用户自定义爬行策略、解析规则、索引字段等。同时,它的模块化设计使得可以方便地添加新的解析器、索引器或搜索引擎适配器。 8. **分布式架构**:Nutch利用Hadoop进行分布式...

    Lucene+Nutch搜索引擎开发

    2. **灵活性**:用户可以自定义字段分析器、相似度计算方式等,以适应不同的应用场景。 3. **扩展性**:通过插件机制,可以方便地添加新功能。 ### Nutch简介 Nutch是另一个由Apache基金会提供的开源项目,主要...

    开发自己的搜索引擎 lunenc nutch

    标题 "开发自己的搜索引擎 lunenc nutch" 暗示了我们正在探讨如何构建自定义的搜索引擎,这通常涉及开源项目 Lucene 和 Nutch 的结合使用。Lucene 是一个全文搜索引擎库,而 Nutch 是一个完整的网络爬虫项目,两者...

Global site tag (gtag.js) - Google Analytics