nutch1.2 index 详解

chengqianl

浏览: 53659 次
性别:
来自: 杭州

最近访客更多访客>>

ForLove_ForYOU

阿祥哥

dj78337323

donchiang709

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

博客分类：

nutch

nutch indexer

首先如果存在crawl/index ,crawl/indexes目录则删除

map：IndexerMapReduce
     map输入目录为所有的segment的crawl_fetch crawl_parse parse_data parse_text , crawl/crawldb/current, crawl/linkdb/current
     1 map的任务就是为了合并目录代码如下
       output.collect(key, new NutchWritable(value));
reduce： IndexerMapReduce
     1 循环解析出路四个对象就是抓取和解析成功
   if (fetchDatum == null || dbDatum == null
        || parseText == null || parseData == null) {
      return;                                     // only have inlinks
    }

   2 如果抓取成功和解析成功往下执行
   if (!parseData.getStatus().isSuccess() ||
        fetchDatum.getStatus() != CrawlDatum.STATUS_FETCH_SUCCESS) {
      return;
    }
   3 创建NutchDocument 加入segment ，签名，field
    4 通过IndexingFilters，这个filters,会调用配置的BasicIndexingFilter和AnchorIndexingFilter，filter方法，
    5 BasicIndexingFilter设置host ,site ,url ,content,title 长度超过indexer.max.title.length会最title做截取,设置tstamp，
   6 AnchorIndexingFilter设置anchor
   7 如果doc不为空掉用ScoringFilters 设置boost，weight
   8 写入，这里的    job.setOutputFormat(IndexerOutputFormat.class);
IndexerOutputFormat 的方法如下

@Override
public RecordWriter<Text, NutchDocument> getRecordWriter(FileSystem ignored,
      JobConf job, String name, Progressable progress) throws IOException {

    // populate JobConf with field indexing options
    IndexingFilters filters = new IndexingFilters(job);

    final NutchIndexWriter[] writers =
      NutchIndexWriterFactory.getNutchIndexWriters(job);    for (final NutchIndexWriter writer : writers) {
      writer.open(job, name);
    }
    return new RecordWriter<Text, NutchDocument>() {

      public void close(Reporter reporter) throws IOException {
        for (final NutchIndexWriter writer : writers) {
          writer.close();
        }
      }

      public void write(Text key, NutchDocument doc) throws IOException {
        for (final NutchIndexWriter writer : writers) {
          writer.write(doc);
        }
      }
    };
}
如果粗体所示他会使用 LuceneWriter 如下代码加入到
@SuppressWarnings("unchecked")
public static NutchIndexWriter[] getNutchIndexWriters(Configuration conf) {
    final String[] classes = conf.getStrings("indexer.writer.classes");
    final NutchIndexWriter[] writers = new NutchIndexWriter[classes.length];
    for (int i = 0; i < classes.length; i++) {
      final String clazz = classes[i];
      try {
        final Class<NutchIndexWriter> implClass =
          (Class<NutchIndexWriter>) Class.forName(clazz);
        writers[i] = implClass.newInstance();
      } catch (final Exception e) {
        throw new RuntimeException("Couldn't create " + clazz, e);
      }
    }
    return writers;
}

public static void addClassToConf(Configuration conf,
                                    Class<? extends NutchIndexWriter> clazz) {
    final String classes = conf.get("indexer.writer.classes");
    final String newClass = clazz.getName();

    if (classes == null) {
      conf.set("indexer.writer.classes", newClass);
    } else {
      conf.set("indexer.writer.classes", classes + "," + newClass);
    }

}

NutchIndexWriterFactory.addClassToConf(job, LuceneWriter.class);
打开indexwriter的方法
for (final NutchIndexWriter writer : writers) {
      writer.open(job, name);
    }

代码如下
public void open(JobConf job, String name)
throws IOException {
    this.fs = FileSystem.get(job);
    perm = new Path(FileOutputFormat.getOutputPath(job), name);
    temp = job.getLocalPath("index/_" +
                      Integer.toString(new Random().nextInt()));

    fs.delete(perm, true); // delete old, if any
    analyzerFactory = new AnalyzerFactory(job);
    writer = new IndexWriter(
        FSDirectory.open(new File(fs.startLocalOutput(perm, temp).toString())),
        new NutchDocumentAnalyzer(job), true, MaxFieldLength.UNLIMITED);

    writer.setMergeFactor(job.getInt("indexer.mergeFactor", 10));
    writer.setMaxBufferedDocs(job.getInt("indexer.minMergeDocs", 100));
    writer.setMaxMergeDocs(job
        .getInt("indexer.maxMergeDocs", Integer.MAX_VALUE));
    writer.setTermIndexInterval(job.getInt("indexer.termIndexInterval", 128));
    writer.setMaxFieldLength(job.getInt("indexer.max.tokens", 10000));
    writer.setInfoStream(LogUtil.getDebugStream(Indexer.LOG));
    writer.setUseCompoundFile(false);
    writer.setSimilarity(new NutchSimilarity());

    processOptions(job);
}
写入代码如下

public void write(NutchDocument doc) throws IOException {
    final Document luceneDoc = createLuceneDoc(doc);
    final NutchAnalyzer analyzer = analyzerFactory.get(luceneDoc.get("lang"));
    if (Indexer.LOG.isDebugEnabled()) {
      Indexer.LOG.debug("Indexing [" + luceneDoc.get("url")
          + "] with analyzer " + analyzer + " (" + luceneDoc.get("lang")
          + ")");
    }
    writer.addDocument(luceneDoc, analyzer);

}
通过上面的流程就把索引写好了

查看图片附件

分享到：

nutch1.2 DeleteDuplicates IndexMerger ... | nutch LinkDb invert 详解

2012-07-18 15:16
浏览 1892
评论(0)
分类:开源软件
查看更多

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

nutch平台的搭建过程: ### nutch平台的搭建过程详解 #### 一、Nutch平台概述 Nutch是一个高度可扩展且开放源代码的Web抓取与搜索平台，它基于Hadoop构建，能够处理大量网页数据。Nutch的设计旨在抓取网页并将这些网页转换成可供搜索引擎...

图解搜索引擎nutch配置: ### 图解搜索引擎Nutch配置详解 #### 一、前言 Nutch 是一款开源的网络爬虫项目，它能够从互联网上抓取网页并构建索引。本文将通过图文结合的方式，详细介绍如何在Windows环境下配置Nutch搜索引擎。由于网上关于...

Nutch配置[汇编].pdf: ### Nutch配置详解 #### 一、Nutch简介与配置准备 **Nutch**是一款开源的Web爬虫项目，能够帮助用户抓取互联网上的网页数据并进行内容分析。本篇文章将详细解读《Nutch配置[汇编].pdf》文档中的关键步骤及知识点。...

nutch入门学习: ### Nutch入门学习知识点详解 #### 1. nutch简介 **1.1 什么是nutch** Nutch是一个开源的搜索引擎框架，完全采用Java编写，旨在帮助用户构建和运行自己的搜索引擎。它提供了一系列的工具和服务，使用户能够从...

kernel-devel-4.18.0-553.45.1.el8-10.x86-64.rpm: Rocky Linux 8.10内核包

Simulink中三阶单环多位量化Σ-Δ调制器的设计与实现-音频带ADC的应用（复现论文或解答问题，含详细可运行代码及解释）: 内容概要：本文档详细介绍了如何在Simulink中设计一个满足特定规格的音频带ADC（模数转换器）。首先选择了三阶单环多位量化Σ-Δ调制器作为设计方案，因为这种结构能在音频带宽内提供高噪声整形效果，并且多位量化可以降低量化噪声。接着，文档展示了具体的Simulink建模步骤，包括创建模型、添加各个组件如积分器、量化器、DAC反馈以及连接它们。此外，还进行了参数设计与计算，特别是过采样率和信噪比的估算，并引入了动态元件匹配技术来减少DAC的非线性误差。性能验证部分则通过理想和非理想的仿真实验评估了系统的稳定性和各项指标，最终证明所设计的ADC能够达到预期的技术标准。适用人群：电子工程专业学生、从事数据转换器研究或开发的技术人员。使用场景及目标：适用于希望深入了解Σ-Δ调制器的工作原理及其在音频带ADC应用中的具体实现方法的人群。目标是掌握如何利用MATLAB/Simulink工具进行复杂电路的设计与仿真。其他说明：文中提供了详细的Matlab代码片段用于指导读者完成整个设计流程，同时附带了一些辅助函数帮助分析仿真结果。

计算机课后习题.docx### 【计算机科学】研究生入学考试计算机组成原理专项题库设计：考研复习资源集成与优化: 内容概要：该题库专为研究生入学考试计算机组成原理科目设计，涵盖名校考研真题、经典教材课后习题、章节题库和模拟试题四大核心模块。名校考研真题精选多所知名高校的计算机组成原理科目及计算机联考真题，并提供详尽解析，帮助考生把握考研命题趋势与难度。经典教材课后习题包括白中英《计算机组成原理》（第5版）和唐朔飞《计算机组成原理》（第2版）的全部课后习题解答，这两部教材被众多名校列为考研指定参考书目。章节题库精选代表性考题，注重基础知识与重难点内容，帮助考生全面掌握考试大纲要求的知识点。模拟试题依据历年考研真题命题规律和热门考点，精心编制两套全真模拟试题，并附标准答案，帮助考生检验学习成果，评估应试能力。适用人群：计划参加研究生入学考试并报考计算机组成原理科目的考生，尤其是需要系统复习和强化训练的学生。使用场景及目标：①通过研读名校考研真题，考生可以准确把握考研命题趋势与难度，有效评估复习成效；②通过经典教材课后习题的练习，考生可以巩固基础知识，掌握解题技巧；③通过章节题库的系统练习，考生可以全面掌握考试大纲要求的各个知识点，为备考打下坚实基础；④通过模拟试题的测试，考生可以检验学习成果，评估应试能力，为正式考试做好充分准备。其他说明：该题库不仅提供详细的题目解析，还涵盖了计算机组成原理的各个方面，包括计算机系统概述、数据表示与运算、存储器分层、指令系统、中央处理器、总线系统和输入输出系统等。考生在使用过程中应结合理论学习与实践操作，注重理解与应用，以提高应试能力和专业知识水平。

__UNI__DB9970A__20250328141034.apk.1: __UNI__DB9970A__20250328141034.apk.1

minio-rsc-Rust资源: rust for minio

4-4-台区智能融合终端功能模块型式规范（试行）.pdf: 国网台区终端最新规范

《基于YOLOv8的化工管道焊缝缺陷检测系统》（包含源码、可视化界面、完整数据集、部署教程）简单部署即可运行。功能完善、操作简单，适合毕设或课程设计.zip: 资源内项目源码是来自个人的毕业设计，代码都测试ok，包含源码、数据集、可视化页面和部署说明，可产生核心指标曲线图、混淆矩阵、F1分数曲线、精确率-召回率曲线、验证集预测结果、标签分布图。都是运行成功后才上传资源，毕设答辩评审绝对信服的保底85分以上，放心下载使用，拿来就能用。包含源码、数据集、可视化页面和部署说明一站式服务，拿来就能用的绝对好资源！！！项目备注 1、该资源内项目代码都经过测试运行成功，功能ok的情况下才上传的，请放心下载使用！ 2、本项目适合计算机相关专业(如计科、人工智能、通信工程、自动化、电子信息等)的在校学生、老师或者企业员工下载学习，也适合小白学习进阶，当然也可作为毕设项目、课程设计、大作业、项目初期立项演示等。 3、如果基础还行，也可在此代码基础上进行修改，以实现其他功能，也可用于毕设、课设、作业等。下载后请首先打开README.txt文件，仅供学习参考, 切勿用于商业用途。

python源码-1个机器学习相关资源: 一个简单的机器学习代码示例，使用的是经典的鸢尾花（Iris）数据集，通过 Scikit-learn 库实现了一个简单的分类模型。这个代码可以帮助你入门机器学习中的分类任务。

pyqt离线包，pyqt-tools离线包: pyqt离线包，pyqt-tools离线包

《基于YOLOv8的船舶机舱灭火系统状态监测系统》（包含源码、可视化界面、完整数据集、部署教程）简单部署即可运行。功能完善、操作简单，适合毕设或课程设计.zip: 资源内项目源码是来自个人的毕业设计，代码都测试ok，包含源码、数据集、可视化页面和部署说明，可产生核心指标曲线图、混淆矩阵、F1分数曲线、精确率-召回率曲线、验证集预测结果、标签分布图。都是运行成功后才上传资源，毕设答辩评审绝对信服的保底85分以上，放心下载使用，拿来就能用。包含源码、数据集、可视化页面和部署说明一站式服务，拿来就能用的绝对好资源！！！项目备注 1、该资源内项目代码都经过测试运行成功，功能ok的情况下才上传的，请放心下载使用！ 2、本项目适合计算机相关专业(如计科、人工智能、通信工程、自动化、电子信息等)的在校学生、老师或者企业员工下载学习，也适合小白学习进阶，当然也可作为毕设项目、课程设计、大作业、项目初期立项演示等。 3、如果基础还行，也可在此代码基础上进行修改，以实现其他功能，也可用于毕设、课设、作业等。下载后请首先打开README.txt文件，仅供学习参考, 切勿用于商业用途。

SQL常用日期和时间函数整理及使用示例: SQL常用日期和时间函数整理及在sqlserver测试示例主要包括 1.查询当前日期GETDATE 2.日期时间加减函数DATEADD 3 返回两个日期中指定的日期部分之间的差值DATEDIFF 4.日期格式转换CONVERT(VARCHAR(10),GETDATE(),120) 5.返回指定日期的年份数值 6.返回指定日期的月份数值 7.返回指定日期的天数数值

GSDML-V2.3-Turck-BL20-E-GW-EN-20160524-010300.xml: GSDML-V2.3-Turck-BL20_E_GW_EN-20160524-010300.xml

T_CPCIF 0225-2022 多聚甲醛.docx: T_CPCIF 0225-2022 多聚甲醛.docx

《基于YOLOv8的智能仓储货物堆码倾斜预警系统》（包含源码、可视化界面、完整数据集、部署教程）简单部署即可运行。功能完善、操作简单，适合毕设或课程设计.zip: 《基于YOLOv8的智能仓储货物堆码倾斜预警系统》（包含源码、可视化界面、完整数据集、部署教程）简单部署即可运行。功能完善、操作简单，适合毕设或课程设计

蚕豆脱壳机设计.zip: 蚕豆脱壳机设计.zip

附件2-2：台区智能融合终端入网专业检测单位授权委托书.docx: 台区终端电科院送检文档

最近访客 更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论