本文为solomon@javaeye原创,如有转载,注明出处(作者solomon与链接
http://zolomon.iteye.com).
本专题使用中文分词为ikanalyzer,感谢其作者为java中文事业做出的巨大贡献.
我的个人资料
http://www.google.com/profiles/solomon.royarr
本专题包括9个部分.
前3个部分在实施人员的使用层面,
第4部分提供更详细的nutch配置属性的讲解,
第5部分在开发人员的使用层面,
6到8部分在源码研究层面,
第9部分是在二次开发(zh本地化)之后linux实施与管理员如何使用nutch提供的命令与工具进行大型搜索引擎的部署.
由于笔者比较懒,又要上班,所以文章更新进度不会很快,
预计1~8部分在两个月内完成.
第9部分笔者也没接触过,没有预计时间,也可能会搁浅.
废话说了不少,下面进入正题:
首先介绍一些资源一些资源:
nutch 主页:
http://lucene.apache.org/nutch/
nutch wiki:
http://wiki.apache.org/nutch/
nutch入门教程:
http://lucene.apache.org/nutch/tutorial.html
ikanalyzer的友人:
http://linliangyi2007.iteye.com/
ikanalyzer:
http://linliangyi2007.iteye.com/blog/41014
截止到笔者书写这篇的时候,nutch官方入门教程还没有更新仍然是0.7的内容.
下面各链接为9部分内容.
初稿只写了1~3部分,
阅读者可以根据这1~3步初步运行起nutch的搜索网站与爬虫.
这3部分仍未写全,所以这3步与后面6步都会不断增加,更新与补全.
1)准备工作,nutch 1.0 的下载与抽取
http://zolomon.iteye.com/blog/373079
2)nutch 1.0 web应用部署
http://zolomon.iteye.com/blog/373080
3)nutch 1.0 爬虫配置与运行
http://zolomon.iteye.com/blog/373084
4)nutch 1.0 网站与爬虫的属性配置文件研究
http://zolomon.iteye.com/blog/378871
5)使用nutch 1.0 api 进行定制开发
6)构建eclipse nutch 1.0 工程
7)nutch 1.0 源码研究
8)对nutch 1.0 进行二次开发,nutch 1.0 插件的编写
9)nutch 1.0 高级使用
抱歉读者最近没有及时更新.
前一段时间工作上比较忙,
最近由于个人原因于2009年8月无限期暂时停止更新.
分享到:
相关推荐
**MySQL数据库索引概述** 索引是数据库管理系统中不可或缺的一部分,尤其在处理大规模数据时,它的存在极大地提高了数据检索的效率。在MySQL中,索引是一个独立的、物理的数据库结构,它由表中一列或多列的集合以及...
### 分区索引—本地索引与全局索引的区别 #### 一、Oracle分区索引概念及分类 在Oracle数据库中,分区索引是针对分区表的一种特殊索引类型,它可以显著提高对于大规模数据集的查询性能。根据索引是否与表的分区...
### 索引介绍:聚集索引与非聚集索引 #### 一、索引的基本概念 在数据库中,索引是一种特殊的文件结构,它的主要目的是为了提高数据检索的速度。索引通过创建一种数据结构(例如B树)来实现这一点,这种结构允许...
"SQL Server 索引结构及其使用(聚集索引与非聚集索引)" 数据库索引是数据库性能优化的关键技术之一。SQL Server 提供了两种索引:聚集索引(clustered index)和非聚集索引(nonclustered index)。本文将详细介绍...
MySQL 数据库是一个广泛使用的开源关系型数据库管理系统,其性能很大程度上取决于存储引擎和索引的选取与使用。本文将深入探讨 MySQL 中的存储引擎和索引技术,帮助优化数据库性能。 首先,MySQL 提供了多种存储...
### 聚焦索引与非聚焦索引的深度解析 #### 一、索引的基础概念及作用 索引在数据库管理系统中扮演着至关重要的角色,它能够显著提高查询效率,减少系统的响应时间。简单来说,索引就像是图书的目录,帮助用户更快...
### Oracle 分区与索引详解 #### 一、Oracle 分区概述 在Oracle数据库中,分区是一种物理数据组织技术,它将一个大的表或索引分成多个较小的部分,每个部分都可以独立管理。通过分区,可以显著提高查询性能,简化...
数据库索引设计与优化是数据库管理系统中至关重要的一个环节,它直接影响到数据查询的效率、存储空间的使用以及系统的整体性能。在这个主题中,我们将深入探讨数据库索引的基础概念、设计原则、优化策略以及实际应用...
XML(Extensible Markup Language,可扩展标记语言)作为一种半结构化的数据表示方式,...因此,XML索引技术的未来研究,也可能与这些新型数据库的索引技术相结合,为处理和查询大规模半结构化数据提供更为强大的支持。
《数据库索引设计与优化》提供了一种简单、高效、通用的关系型数据库索引设计方法。作者通过系统的讲解及大量的案例清晰地阐释了关系型数据库的访问路径选择原理,以及表和索引的扫描方式,详尽地讲解了如何快速地...
* 非聚集索引:与表中数据行的实际存储结构无关,不会改变数据表中记录的实际存储顺序,每个表可以有多个非聚集索引。 * 唯一索引:要求创建索引的关键字段值在表中不能有重复值。 * 复合索引:对表创建的索引是基于...
创建索引时,你需要确保该索引是应用在SQL查询语的条件(一般作为WHERE 子句的条件)实际上,索引也是一张表,该表保存了主键与索引字段,并指向实体表的记录。上面都在说使用索引的好处,但过多的使用索引将会造成...
数据库索引设计与优化是数据库管理系统中的核心环节,它直接影响着数据查询的速度和系统的整体性能。索引在数据库中扮演着查找快照的角色,类似于书籍的目录,使得数据检索能够快速定位到目标信息,避免全表扫描,...
本文将深入探讨数据库中的非聚集索引、聚集索引以及索引模式的概念,并分析它们之间的区别。 首先,让我们了解一下**非聚集索引**。非聚集索引在数据库中不按照数据的实际物理顺序存储。每个非聚集索引条目包含键值...
重命名索引则有助于管理和理解数据库结构,但需要注意索引名称的唯一性,不能与表的主键或唯一性约束同名。 复合索引,是建立在两个或更多列上的索引,它可以提高某些特定查询的性能,减少索引数量。然而,复合索引...
数据库管理与应用 4.1 索引概述.pdf 学习资料 复习资料 教学资源
C#语言一个最令人感兴趣的地方就是类的索引器(indexer)。简单说来,所谓索引器就是一类特殊的属性, 通过它们你就可以像引用数组一样引用自己的类。...但是,首先让我们概述下属性这个概念以便了解些必要的背景知识。
这就表现为包含与不包含的关系了。 摘要 3:使用包含性列以避免大小限制,可以将非键列包含在非聚集索引中,以避免超过当前索引大小的限制(最大键列数为 16,最大索引键大小为 900 字节)。数据库引擎计算索引键列...
与主键索引不同,非主键索引的叶子节点存储的是主键值而不是完整的行记录。这种方式减少了索引的空间占用,但需要额外的二次查找来获取完整的记录。 ##### 2.3 聚簇索引与非聚簇索引 - **聚簇索引**:主键索引即是...
Oracle数据库中的索引是优化查询性能的关键工具,它...因此,当遇到常见的索引问题时,如索引未被使用、索引碎片化、索引过多或过少等,都需要深入分析并采取相应的解决方案,如重建索引、优化查询语句或调整索引策略。