`
chengqianl
  • 浏览: 52963 次
  • 性别: Icon_minigender_1
  • 来自: 杭州
社区版块
存档分类
最新评论

nutch SolrIndexer 详解

阅读更多

这个 job的  具体和 nutch1.2 indexhttp://chengqianl.iteye.com/admin/blogs/1597617一样
IndexerMapReduce.initMRJob(crawlDb, linkDb, segments, job);

唯一不同的是writer是设置的 SolrWriter
它的open方法 如下粗体部分通过solrj,new了一个CommonsHttpSolrServer
public void open(JobConf job, String name) throws IOException {
    solr = new CommonsHttpSolrServer(job.get(SolrConstants.SERVER_URL)); 
   commitSize = job.getInt(SolrConstants.COMMIT_SIZE, 1000);
    solrMapping = SolrMappingReader.getInstance(job);
  }

它的write方法如下,粗体部分是把数据写入solr

  public void write(NutchDocument doc) throws IOException {
    final SolrInputDocument inputDoc = new SolrInputDocument();
    for(final Entry<String, NutchField> e : doc) {
      for (final Object val : e.getValue().getValues()) {
        inputDoc.addField(solrMapping.mapKey(e.getKey()), val, e.getValue().getWeight());
        String sCopy = solrMapping.mapCopyKey(e.getKey());
        if (sCopy != e.getKey()) {
        inputDoc.addField(sCopy, val, e.getValue().getWeight());
        }
      }
    }
    inputDoc.setDocumentBoost(doc.getWeight());
    inputDocs.add(inputDoc);
    if (inputDocs.size() > commitSize) {
      try {
       solr.add(inputDocs);    
       } catch (final SolrServerException e) {

        throw makeIOException(e);
      }
      inputDocs.clear();
    }
  }
  • 大小: 24.4 KB
分享到:
评论

相关推荐

    hadoop nutch solr 环境搭建手册

    自己写的 hadoop nutch solr 环境搭建手册,成功搭建后写的,会有红色标注容易出错的地方

    Nutch+solr + hadoop相关框架搭建教程

    在 Nutch 框架中,Solr 作为索引和搜索的后端,接收 Nutch 生成的索引数据,提供高级的查询和过滤功能,支持实时搜索。 【Nutch 脚本】 Nutch 的运行主要依赖于一系列脚本,这些脚本控制着爬虫的工作流程,包括生成...

    eclipse配置nutch,eclipse配置nutch

    ### 二、Eclipse配置Nutch的步骤详解 #### 步骤1:创建Nutch项目 首先,在Eclipse中创建一个新的Java项目,选择“File &gt; New &gt; Project &gt; Java project”,然后点击“Next”。在创建项目时,选择“Create project ...

    基于Apache Nutch和Solr的AJAX页面内容爬取与处理设计源码

    本项目是基于Apache Nutch和Solr开发的AJAX页面内容爬取与处理设计源码,主要使用Java进行开发。项目共包含1064个文件,其中Java源代码文件458个,XML配置文件181个,文本文件81个,HTML页面文件56个,JPG图片文件56...

    nutch2.3.1安装文档教程

    &lt;value&gt;org.apache.nutch.indexer.solr.SolrIndexer &lt;name&gt;searcher.class &lt;value&gt;org.apache.nutch.searcher.solr.SolrSearcher &lt;name&gt;solr.url &lt;value&gt;http://localhost:8983/solr/nutch&lt;/value&gt; ...

    Nutch插件开发文档

    ### Nutch插件开发知识点详解 #### 一、Nutch插件系统概述 Nutch是一款开源的网络爬虫工具,其强大的灵活性与扩展性得益于其独特的插件系统设计。插件(Plugin)作为Nutch的核心组件之一,为用户提供了一种灵活的...

    Apache Nutch 1.7 学习总结

    - 使用Nutch的`bin/nutch solrindex`命令将生成的索引数据推送到Solr,实现搜索功能。 **Nutch 在 Linux 下的搭建过程** 1. **准备工作** - 安装Linux发行版(如Ubuntu或CentOS)。 - 安装JDK,配置`JAVA_HOME`...

    nutch使用&Nutch;入门教程

    Nutch可以与Solr或Elasticsearch等搜索引擎集成,实现快速高效的搜索功能。此外,还可以与HBase等NoSQL数据库配合,用于大规模数据存储和检索。 七、实战教程 “Nutch使用.pdf”和“Nutch入门教程.pdf”这两份文档...

    apache-nutch-1.7-src.tar.gz

    5. **过滤(Filtering)**:Nutch提供了对索引内容进行预处理的功能,如去除停用词、词干化等,这些在`src/java/org/apache/nutch/indexer/tfidf`和`src/java/org/apache/nutch/analysis/lang`等目录中实现。...

    Nutch中文教程nutcher.zip

    nutcher 是 Apache Nutch 的中文教程,在... Nutch流程控制源码详解(bin/crawl中文注释版) Nutch教程——URLNormalizer源码详解 Nutch参数配置——http.content.limit 文档截图:

    分析Nutch的工作流程

    ### Nutch工作流程详解 #### 一、Nutch概述及工作流程概览 Nutch是一款开源的网络爬虫项目,其主要功能在于抓取互联网上的网页,并对其进行分析、索引,以便用户能够快速检索到所需的信息。Nutch的灵活性和可扩展...

    如何通过java程序获得Nutch中网页的详细信息

    最后,索引阶段,Nutch将这些信息存储到如Hadoop的HDFS或Solr等索引系统中。 要从Nutch获取网页信息,你需要熟悉以下关键组件: 1. **Nutch API**:Nutch提供了丰富的Java API,可以用来与Nutch数据库交互。例如,...

    apache-nutch-1.6-src.tar.gz

    主要的源代码文件位于`src/java`目录下,按照包结构组织,例如`org.apache.nutch.crawl`、`org.apache.nutch.indexer`和`org.apache.nutch.parse`等。 2. **配置文件**:在`conf`目录下,有默认的Nutch配置文件,如...

    基于Apache Nutch和Solr等组件扩展实现对于AJAX加载类型页面的完整页面内容抓取,以及特定数据项的解析和索引

    本文将深入探讨如何使用Apache Nutch与Solr等组件,结合Htmlunit和Selenium WebDriver,来实现对AJAX加载类型页面的全面内容抓取、解析、索引,以及特定数据项的提取。 首先,Apache Nutch是一个开源的Web爬虫框架...

    Nutch配置环境\Nutch1[1].4_windows下eclipse配置图文详解.docx

    Apache Nutch 是一个开源的网络爬虫框架,用于抓取互联网上的网页并生成索引,以便于搜索引擎使用。本文将详细介绍如何在Windows环境下配置Nutch 1.4,并使用Eclipse进行开发。以下是你需要知道的关键步骤: 1. **...

    Nutch的各项配置详解

    Nutch各个配置项的详细说明,非常详细的说明了每一项

    nutch_1.4配置

    ### Apache Nutch 1.4在Windows下的安装与配置详解 #### 一、Apache Nutch简介及重要性 Apache Nutch是一款用Java语言编写的开源网络爬虫项目,旨在自动化地抓取网页中的链接,检查并修复坏链接,以及创建已访问...

Global site tag (gtag.js) - Google Analytics