nutch SolrIndexer 详解 - chengqianl - ITeye博客

`

chengqianl

浏览: 53733 次
性别:
来自: 杭州

最近访客更多访客>>

ForLove_ForYOU

阿祥哥

dj78337323

donchiang709

博主相关

博客

微博

相册

收藏

留言

关于我

文章分类

社区版块

存档分类

最新评论

aixuebo：写的非常不错，看后很清晰。谢谢了，解决了我很多疑问
nutch generator 详解

nutch SolrIndexer 详解

博客分类：

nutch

nutch SolrIndexer

阅读更多

这个 job的具体和 nutch1.2 indexhttp://chengqianl.iteye.com/admin/blogs/1597617一样
IndexerMapReduce.initMRJob(crawlDb, linkDb, segments, job);

唯一不同的是writer是设置的 SolrWriter
它的open方法如下粗体部分通过solrj，new了一个CommonsHttpSolrServer
public void open(JobConf job, String name) throws IOException {
    solr = new CommonsHttpSolrServer(job.get(SolrConstants.SERVER_URL));
   commitSize = job.getInt(SolrConstants.COMMIT_SIZE, 1000);
    solrMapping = SolrMappingReader.getInstance(job);
}

它的write方法如下，粗体部分是把数据写入solr

public void write(NutchDocument doc) throws IOException {
    final SolrInputDocument inputDoc = new SolrInputDocument();
    for(final Entry<String, NutchField> e : doc) {
      for (final Object val : e.getValue().getValues()) {
        inputDoc.addField(solrMapping.mapKey(e.getKey()), val, e.getValue().getWeight());
        String sCopy = solrMapping.mapCopyKey(e.getKey());
        if (sCopy != e.getKey()) {
        inputDoc.addField(sCopy, val, e.getValue().getWeight());
        }
      }
    }
    inputDoc.setDocumentBoost(doc.getWeight());
    inputDocs.add(inputDoc);
    if (inputDocs.size() > commitSize) {
      try {
       solr.add(inputDocs);
       } catch (final SolrServerException e) {

        throw makeIOException(e);
      }
      inputDocs.clear();
    }
}

查看图片附件

分享到：

nutch SolrDeleteDuplicates | nutch1.2 DeleteDuplicates IndexMerger ...

2012-07-18 18:33
浏览 853
评论(0)
分类:开源软件
查看更多

评论

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

hadoop nutch solr 环境搭建手册: 自己写的 hadoop nutch solr 环境搭建手册，成功搭建后写的，会有红色标注容易出错的地方

Nutch+solr + hadoop相关框架搭建教程: 在 Nutch 框架中，Solr 作为索引和搜索的后端，接收 Nutch 生成的索引数据，提供高级的查询和过滤功能，支持实时搜索。【Nutch 脚本】 Nutch 的运行主要依赖于一系列脚本，这些脚本控制着爬虫的工作流程，包括生成...

eclipse配置nutch，eclipse配置nutch: ### 二、Eclipse配置Nutch的步骤详解 #### 步骤1：创建Nutch项目首先，在Eclipse中创建一个新的Java项目，选择“File > New > Project > Java project”，然后点击“Next”。在创建项目时，选择“Create project ...

Windows下使用Eclipse配置Nutch2图文详解: ### Windows下使用Eclipse配置Nutch2图文详解 #### 一、引言随着大数据时代的到来，网络爬虫技术越来越受到人们的重视。Apache Nutch是一款开源的网页抓取与索引构建工具，它基于Hadoop分布式计算框架。本文将...

基于Apache Nutch和Solr的AJAX页面内容爬取与处理设计源码: 本项目是基于Apache Nutch和Solr开发的AJAX页面内容爬取与处理设计源码，主要使用Java进行开发。项目共包含1064个文件，其中Java源代码文件458个，XML配置文件181个，文本文件81个，HTML页面文件56个，JPG图片文件56...

nutch分布是详解: ### Nutch 分布式详解 #### 一、Nutch 概述 Nutch 是一个开源的网络爬虫项目，主要用于抓取互联网上的网页并进行索引。它基于Hadoop平台，利用MapReduce来处理大规模数据集。Nutch的核心组件包括Injector、...

nutch2.3.1安装文档教程: <value>org.apache.nutch.indexer.solr.SolrIndexer <name>searcher.class <value>org.apache.nutch.searcher.solr.SolrSearcher <name>solr.url <value>http://localhost:8983/solr/nutch</value> ...

Nutch插件开发文档: ### Nutch插件开发知识点详解 #### 一、Nutch插件系统概述 Nutch是一款开源的网络爬虫工具，其强大的灵活性与扩展性得益于其独特的插件系统设计。插件（Plugin）作为Nutch的核心组件之一，为用户提供了一种灵活的...

Apache Nutch 1.7 学习总结: - 使用Nutch的`bin/nutch solrindex`命令将生成的索引数据推送到Solr，实现搜索功能。 **Nutch 在 Linux 下的搭建过程** 1. **准备工作** - 安装Linux发行版（如Ubuntu或CentOS）。 - 安装JDK，配置`JAVA_HOME`...

nutch使用&Nutch;入门教程: Nutch可以与Solr或Elasticsearch等搜索引擎集成，实现快速高效的搜索功能。此外，还可以与HBase等NoSQL数据库配合，用于大规模数据存储和检索。七、实战教程 “Nutch使用.pdf”和“Nutch入门教程.pdf”这两份文档...

apache-nutch-1.7-src.tar.gz: 5. **过滤（Filtering）**：Nutch提供了对索引内容进行预处理的功能，如去除停用词、词干化等，这些在`src/java/org/apache/nutch/indexer/tfidf`和`src/java/org/apache/nutch/analysis/lang`等目录中实现。...

nutch平台的搭建过程: ### nutch平台的搭建过程详解 #### 一、Nutch平台概述 Nutch是一个高度可扩展且开放源代码的Web抓取与搜索平台，它基于Hadoop构建，能够处理大量网页数据。Nutch的设计旨在抓取网页并将这些网页转换成可供搜索引擎...

Nutch中文教程nutcher.zip: nutcher 是 Apache Nutch 的中文教程，在... Nutch流程控制源码详解（bin/crawl中文注释版） Nutch教程——URLNormalizer源码详解 Nutch参数配置——http.content.limit 文档截图：

分析Nutch的工作流程: ### Nutch工作流程详解 #### 一、Nutch概述及工作流程概览 Nutch是一款开源的网络爬虫项目，其主要功能在于抓取互联网上的网页，并对其进行分析、索引，以便用户能够快速检索到所需的信息。Nutch的灵活性和可扩展...

如何通过java程序获得Nutch中网页的详细信息: 最后，索引阶段，Nutch将这些信息存储到如Hadoop的HDFS或Solr等索引系统中。要从Nutch获取网页信息，你需要熟悉以下关键组件： 1. **Nutch API**：Nutch提供了丰富的Java API，可以用来与Nutch数据库交互。例如，...

apache-nutch-1.6-src.tar.gz: 主要的源代码文件位于`src/java`目录下，按照包结构组织，例如`org.apache.nutch.crawl`、`org.apache.nutch.indexer`和`org.apache.nutch.parse`等。 2. **配置文件**：在`conf`目录下，有默认的Nutch配置文件，如...

基于Apache Nutch和Solr等组件扩展实现对于AJAX加载类型页面的完整页面内容抓取，以及特定数据项的解析和索引: 本文将深入探讨如何使用Apache Nutch与Solr等组件，结合Htmlunit和Selenium WebDriver，来实现对AJAX加载类型页面的全面内容抓取、解析、索引，以及特定数据项的提取。首先，Apache Nutch是一个开源的Web爬虫框架...

Nutch配置环境\Nutch1[1].4_windows下eclipse配置图文详解.docx: Apache Nutch 是一个开源的网络爬虫框架，用于抓取互联网上的网页并生成索引，以便于搜索引擎使用。本文将详细介绍如何在Windows环境下配置Nutch 1.4，并使用Eclipse进行开发。以下是你需要知道的关键步骤： 1. **...

Nutch的各项配置详解: Nutch各个配置项的详细说明，非常详细的说明了每一项

nutch_1.4配置: ### Apache Nutch 1.4在Windows下的安装与配置详解 #### 一、Apache Nutch简介及重要性 Apache Nutch是一款用Java语言编写的开源网络爬虫项目，旨在自动化地抓取网页中的链接，检查并修复坏链接，以及创建已访问...

Global site tag (gtag.js) - Google Analytics