`

索引过程-index

 
阅读更多

可以说这个过程就是一个"shuffle"的过程,然后进行index操作。

 

流程:


 

 

詳細过程:

input : 这里有几个文件,来分析各文件的作用

crawl-fetch:当获取不到last-midified time时,用来fetch time代替

crawl-parse:no use

parse-data:conten-type;date等索引数据

parse-text:整个page全文检索

linkdb:取出指向当前url的所有的anchors进行索引

crawldb:获取之前score用以计算新的score

 

NOTE

*由于所有files的输入key都是Text(url),所以reduce可以将这些整合一起;

*其中fetch ,parse,crawldb格式是完全一样的;

很多地方出现WRITABLE_REPR_URL_KEY,貌似这是旧版本的属性,see ReprUrlFixer.java


这些文件内容都可以从小结fetch 中找到

 

output

输出到indexes/part-xxxxx下

 

map

use default

 

reduce

这里主要是使用了IndexerOutputFormat来重写索引

由于数据来源是混合的,所以要处理时根据value类型进行了区分。其中进行了过滤:

if (fetchDatum == null || dbDatum == null
        || parseText == null || parseData == null) {
      return;                                     // only have inlinks
    }
    //去掉不正常抓取的
    if (!parseData.getStatus().isSuccess() ||
        fetchDatum.getStatus() != CrawlDatum.STATUS_FETCH_SUCCESS) {
      return;
    }
 

奇怪的是,initMRJob()时明明outputValueClass是NutchWritale,但在reduce输出的却是NutchDocument?

经过测试,二者均可以。

 

plugins

index:BasicIndexFilter,AnchorIndexFilter,MoreIndexFitler.默认是前面二个

scoring:LinkAnalysisScoringFilter,OPICScoringFilter;默认是后面一个

 

在索引 时只处理了doc boost,所有的field weight是默认的;只有在查询时才处理。这样做就灵活可控了。

 

 

 

 

 

 

 

 

 

 

 

 

 

  • 大小: 33 KB
分享到:
评论

相关推荐

    SAP 索引 index

    重组过程可以修复索引碎片化的问题,从而提升查询速度。 - **事务代码RVV05IV:** - 用于重新组织SD索引。 - 此操作有助于提高索引的性能。 #### 五、其他相关事务代码(Other Related Transaction Codes) - **SE...

    使用 GPT-Index 只需 10 行代码即可在自定义数据集上微调 GPT-3

    通过这种方式,GPT-Index 提供了一个高级 API,简化了将外部知识库与大语言模型(LLM)如 GPT-3 的连接过程。这意味着开发者和研究人员可以更轻松地利用 GPT-3 的能力,定制化处理特定领域的任务。此外,这个过程也...

    postgresql索引类型区别

    GIN(Generalized Inverted Index)索引是一种全文索引,适用于针对任何字段进行过滤、排序和搜索。GIN 索引可以快速地对大量数据进行检索,且可以与其他表、字段和关联查询结合使用。然而,建立 GIN 索引的速度较慢...

    nexus index 索引手动更新

    "nexus index"指的是Nexus仓库中的索引,这个索引包含了仓库中所有组件的元数据,如版本信息、依赖关系等,方便开发者快速查找和下载所需的组件。 在默认情况下,Nexus会定期自动更新其索引,但这个过程可能比较...

    前端开源库-sorted-indexof

    `sorted-indexof` 是一个开源库,专注于解决在已排序数组中查找特定元素索引的问题。这个库特别适用于那些需要频繁进行排序和查找操作的场景,比如数据分析、数据可视化或者任何需要高效地处理大量有序数据的应用。 ...

    CD Index 2 光碟索引大師2.2.14-Installer

    《CD Index 2 光碟索引大師2.2.14-Installer》是一款针对光盘管理和检索的专业软件,其主要功能在于帮助用户高效地建立、管理和搜索光盘内容的索引。在这个数字化时代,虽然光盘的使用频率有所下降,但对于存储大量...

    nexus-maven-repository-index

    Maven仓库是Maven项目构建过程中用来存储依赖库的地方,而“repository index”则是对这个仓库中的所有可用构件(如JARs、POMs等)进行索引的文件。 描述中提到的“nexus-maven-repository-index的下载链接”,意味...

    Fast Exact Search in Hamming Space with Multi-Index Hashing

    通过使用多个独立的哈希函数,MIH可以减少误匹配的概率,并且通过并行查询这些索引来加速搜索过程。这种方法的关键在于设计合适的哈希函数和索引结构,以确保在保持高召回率的同时,尽可能减少比较次数。 在提供的...

    SQLServer索引基础知识----聚集索引,非聚集索引[归纳].pdf

    二、聚集索引(Clustered Index) 聚集索引是一种特殊的索引,它的叶节点就是实际的数据页。在数据页中,数据按照索引顺序存储,行的物理位置和行在索引中的位置是相同的。每个表只能有一个聚集索引,聚集索引的...

    SQL优化-索引

    - **聚集索引(Clustered Index)**: - 特点: - 表中的数据按索引的顺序存储。 - 检索效率高于非聚集索引。 - 占用硬盘空间较小(约1%)。 - 影响数据新增/修改/删除的速度。 - 一个表只能有一个聚集索引。 ...

    数据库索引原理-个人开发体验总结

    聚族索引(Clustered Index)是另一种重要的索引类型。在表中,每个数据行都有一个聚族索引,它决定了数据行在磁盘上的物理顺序。聚族索引的叶子节点直接包含表的数据行,因此,当根据聚族索引的键值查询时,可以...

    nexus-maven-repository-index.zip

    索引文件通常用于提升开发者在构建过程中的依赖查找效率,而无需直接访问远程仓库。 在标签中,“nexus”直接指向了Sonatype Nexus,这进一步确认了这个压缩包与Maven仓库管理器的相关性。 压缩包子文件的文件名称...

    SQL-Serve实验5-索引和视图-.doc

    4. **索引重命名**:了解如何使用系统存储过程`sp_rename`来重命名索引。 5. **视图创建**:掌握使用SQL Server图形界面工具和Transact-SQL语句(`CREATE VIEW`)创建视图的方法。 6. **视图修改**:学习如何使用...

    lucene-索引(index).pdf

    这表明了反向索引如何有效地关联关键词与文档,从而加速搜索过程。 ### Lucene索引 Lucene是一款高性能、全功能的文本搜索引擎库,由Java编写。Lucene的核心是它的索引机制,它利用反向索引来存储和检索文本数据。...

    create-ts-index:自动为TypeScript创建索引文件

    创建TS索引 安装 npm install create-ts-index --save-dev 请使用 下一代导出生成工具。 ctix使用TypeScript编译器API。 因此在create-ts-index中解决了许多问题。 例如,单独的项目(由tsconfig.json使用)并支持...

    FM-Index:FM-Index全文索引实现使用RRR小波树(libcds)和快速后缀排序(libdivsufsort)包括实验结果

    FM-Index - 压缩全文索引 一个简单的基于 C++ 的 FM-Index [1] ... FM-Index 的缺点是构建时间长,构建过程中内存要求高。 用法 编制索引 make 建立索引 ./fmbuild alice29.txt alice29.txt.fm 构建并写入 FM-Index a

    apache-atlas-2.2.0-atlas-index-repair.zip

    这个压缩包"apache-atlas-2.2.0-atlas-index-repair.zip"很可能包含用于修复Apache Atlas索引的工具或脚本,版本号2.2.0表明这是Apache Atlas的一个特定更新版本。 Apache Atlas的核心功能包括: 1. **元数据管理*...

    DNA-k-mer-index.rar_DNA_DNA C#_K-Index_k-mer的意义_site:www.pudn.co

    总的来说,这个压缩包中的内容涵盖了DNA序列分析中的核心技术——k-mer索引,以及如何利用C#编程和哈希算法实现这一过程。通过深入理解和应用这些知识,我们可以更有效地处理和解析DNA数据,推动生物学研究的进步。

    大数据实验报告Hadoop编程实现InvertedIndex文档倒排索引程序附源码.doc

    Hadoop大数据InvertedIndex文档倒排索引程序实验报告 ...该实验报告详细地介绍了使用Hadoop编程实现InvertedIndex文档倒排索引程序的整个过程,从实验目的到实验设计、实验内容和源码实现等多个方面。

Global site tag (gtag.js) - Google Analytics