可以说这个过程就是一个"shuffle"的过程,然后进行index操作。
流程:
詳細过程:
input
: 这里有几个文件,来分析各文件的作用
crawl-fetch:当获取不到last-midified time时,用来fetch time代替
crawl-parse:no use
parse-data:conten-type;date等索引数据
parse-text:整个page全文检索
linkdb:取出指向当前url的所有的anchors进行索引
crawldb:获取之前score用以计算新的score
NOTE
*由于所有files的输入key都是Text(url),所以reduce可以将这些整合一起;
*其中fetch ,parse,crawldb格式是完全一样的;
*很多地方出现WRITABLE_REPR_URL_KEY,貌似这是旧版本的属性,see ReprUrlFixer.java
这些文件内容都可以从小结
和fetch
中找到
output
输出到indexes/part-xxxxx下
map
use default
reduce
这里主要是使用了IndexerOutputFormat来重写索引
由于数据来源是混合的,所以要处理时根据value类型进行了区分。其中进行了过滤:
if (fetchDatum == null || dbDatum == null
|| parseText == null || parseData == null) {
return; // only have inlinks
}
//去掉不正常抓取的
if (!parseData.getStatus().isSuccess() ||
fetchDatum.getStatus() != CrawlDatum.STATUS_FETCH_SUCCESS) {
return;
}
奇怪的是,initMRJob()时明明outputValueClass是NutchWritale,但在reduce输出的却是NutchDocument?
经过测试,二者均可以。
plugins
index:BasicIndexFilter,AnchorIndexFilter,MoreIndexFitler.默认是前面二个
scoring:LinkAnalysisScoringFilter,OPICScoringFilter;默认是后面一个
在索引 时只处理了doc boost,所有的field weight是默认的;只有在查询时才处理。这样做就灵活可控了。
- 大小: 33 KB
分享到:
相关推荐
重组过程可以修复索引碎片化的问题,从而提升查询速度。 - **事务代码RVV05IV:** - 用于重新组织SD索引。 - 此操作有助于提高索引的性能。 #### 五、其他相关事务代码(Other Related Transaction Codes) - **SE...
通过这种方式,GPT-Index 提供了一个高级 API,简化了将外部知识库与大语言模型(LLM)如 GPT-3 的连接过程。这意味着开发者和研究人员可以更轻松地利用 GPT-3 的能力,定制化处理特定领域的任务。此外,这个过程也...
GIN(Generalized Inverted Index)索引是一种全文索引,适用于针对任何字段进行过滤、排序和搜索。GIN 索引可以快速地对大量数据进行检索,且可以与其他表、字段和关联查询结合使用。然而,建立 GIN 索引的速度较慢...
"nexus index"指的是Nexus仓库中的索引,这个索引包含了仓库中所有组件的元数据,如版本信息、依赖关系等,方便开发者快速查找和下载所需的组件。 在默认情况下,Nexus会定期自动更新其索引,但这个过程可能比较...
`sorted-indexof` 是一个开源库,专注于解决在已排序数组中查找特定元素索引的问题。这个库特别适用于那些需要频繁进行排序和查找操作的场景,比如数据分析、数据可视化或者任何需要高效地处理大量有序数据的应用。 ...
《CD Index 2 光碟索引大師2.2.14-Installer》是一款针对光盘管理和检索的专业软件,其主要功能在于帮助用户高效地建立、管理和搜索光盘内容的索引。在这个数字化时代,虽然光盘的使用频率有所下降,但对于存储大量...
Maven仓库是Maven项目构建过程中用来存储依赖库的地方,而“repository index”则是对这个仓库中的所有可用构件(如JARs、POMs等)进行索引的文件。 描述中提到的“nexus-maven-repository-index的下载链接”,意味...
通过使用多个独立的哈希函数,MIH可以减少误匹配的概率,并且通过并行查询这些索引来加速搜索过程。这种方法的关键在于设计合适的哈希函数和索引结构,以确保在保持高召回率的同时,尽可能减少比较次数。 在提供的...
二、聚集索引(Clustered Index) 聚集索引是一种特殊的索引,它的叶节点就是实际的数据页。在数据页中,数据按照索引顺序存储,行的物理位置和行在索引中的位置是相同的。每个表只能有一个聚集索引,聚集索引的...
- **聚集索引(Clustered Index)**: - 特点: - 表中的数据按索引的顺序存储。 - 检索效率高于非聚集索引。 - 占用硬盘空间较小(约1%)。 - 影响数据新增/修改/删除的速度。 - 一个表只能有一个聚集索引。 ...
聚族索引(Clustered Index)是另一种重要的索引类型。在表中,每个数据行都有一个聚族索引,它决定了数据行在磁盘上的物理顺序。聚族索引的叶子节点直接包含表的数据行,因此,当根据聚族索引的键值查询时,可以...
索引文件通常用于提升开发者在构建过程中的依赖查找效率,而无需直接访问远程仓库。 在标签中,“nexus”直接指向了Sonatype Nexus,这进一步确认了这个压缩包与Maven仓库管理器的相关性。 压缩包子文件的文件名称...
4. **索引重命名**:了解如何使用系统存储过程`sp_rename`来重命名索引。 5. **视图创建**:掌握使用SQL Server图形界面工具和Transact-SQL语句(`CREATE VIEW`)创建视图的方法。 6. **视图修改**:学习如何使用...
这表明了反向索引如何有效地关联关键词与文档,从而加速搜索过程。 ### Lucene索引 Lucene是一款高性能、全功能的文本搜索引擎库,由Java编写。Lucene的核心是它的索引机制,它利用反向索引来存储和检索文本数据。...
创建TS索引 安装 npm install create-ts-index --save-dev 请使用 下一代导出生成工具。 ctix使用TypeScript编译器API。 因此在create-ts-index中解决了许多问题。 例如,单独的项目(由tsconfig.json使用)并支持...
FM-Index - 压缩全文索引 一个简单的基于 C++ 的 FM-Index [1] ... FM-Index 的缺点是构建时间长,构建过程中内存要求高。 用法 编制索引 make 建立索引 ./fmbuild alice29.txt alice29.txt.fm 构建并写入 FM-Index a
这个压缩包"apache-atlas-2.2.0-atlas-index-repair.zip"很可能包含用于修复Apache Atlas索引的工具或脚本,版本号2.2.0表明这是Apache Atlas的一个特定更新版本。 Apache Atlas的核心功能包括: 1. **元数据管理*...
总的来说,这个压缩包中的内容涵盖了DNA序列分析中的核心技术——k-mer索引,以及如何利用C#编程和哈希算法实现这一过程。通过深入理解和应用这些知识,我们可以更有效地处理和解析DNA数据,推动生物学研究的进步。
Hadoop大数据InvertedIndex文档倒排索引程序实验报告 ...该实验报告详细地介绍了使用Hadoop编程实现InvertedIndex文档倒排索引程序的整个过程,从实验目的到实验设计、实验内容和源码实现等多个方面。