- 浏览: 290024 次
- 性别:
- 来自: 北京
文章分类
最新评论
-
86614009:
如何在service层,如何获取绑定到当前线程的entitna ...
使用spring的OpenEntityManagerInView -
yajunyajun2011:
好帖子 怎么没人顶呢
Java 正则表达式最大,最小匹配问题 -
xtuali:
能说明一下,你的nutch是哪个版本的吗?谢谢!
搜索引擎Nutch源代码研究之一 网页抓取(1) -
dongmusic:
需要学习这么多的东西,吐血中...
如何提高Java开发能力 -
jiminsc:
cool
LDAP 验证、添加、修改、删除(转)
今天我们看看Nutch网页抓取,所用的几种数据结构:
主要涉及到了这几个类:FetchListEntry,Page,
首先我们看看FetchListEntry类:
public final class FetchListEntry implements Writable, Cloneable
实现了Writable, Cloneable接口,Nutch许多类实现了Writable, Cloneable。
自己负责自己的读写操作其实是个很合理的设计方法,分离出来反倒有很琐碎
的感觉。
看看里面的成员变量:
我们看看如何读取各个字段的,也就是函数
public final void readFields(DataInput in) throws IOException
读取version 字段,并判断如果版本号是否大约当前的版本号,则抛出版本不匹配的异常,
然后读取fetch 和page 字段。
判断如果版本号大于1,说明anchors已经保存过了,读取anchors,否则直接赋值一个空的字符串
代码如下:
同时还提供了一个静态的读取各个字段的函数,并构建出FetchListEntry对象返回:
写得代码则比较易看,分别写每个字段:
其他的clone和equals函数实现的也非常易懂。
下面我们看看Page类的代码:
public class Page implements WritableComparable, Cloneable
和FetchListEntry一样同样实现了Writable, Cloneable接口,我们看看Nutch的注释,我们就非常容易知道各个字段的意义了:
各个字段:
同样看看他是如何读取自己的各个字段的,其实代码加上本来提供的注释,使很容易看懂的,不再详述:
写各个字段也很直接:
我们顺便看看提供方便读写Fetch到的内容的类FetcherOutput:这个类通过委托前面介绍的两个类的读写,提供了Fetche到的
各种粒度结构的读写功能,代码都比较直接,不再详述。
下次我们看看parse-html插件,看看Nutch是如何提取html页面的。
主要涉及到了这几个类:FetchListEntry,Page,
首先我们看看FetchListEntry类:
public final class FetchListEntry implements Writable, Cloneable
实现了Writable, Cloneable接口,Nutch许多类实现了Writable, Cloneable。
自己负责自己的读写操作其实是个很合理的设计方法,分离出来反倒有很琐碎
的感觉。
看看里面的成员变量:
- public static final String DIR_NAME = "fetchlist";//要写入磁盘的目录
- private final static byte CUR_VERSION = 2;//当前的版本号
- private boolean fetch;//是否抓取以便以后更新
- private Page page;//当前抓取的页面
- private String[] anchors;//抓取到的该页面包含的链接
public static final String DIR_NAME = "fetchlist";//要写入磁盘的目录 private final static byte CUR_VERSION = 2;//当前的版本号 private boolean fetch;//是否抓取以便以后更新 private Page page;//当前抓取的页面 private String[] anchors;//抓取到的该页面包含的链接
我们看看如何读取各个字段的,也就是函数
public final void readFields(DataInput in) throws IOException
读取version 字段,并判断如果版本号是否大约当前的版本号,则抛出版本不匹配的异常,
然后读取fetch 和page 字段。
判断如果版本号大于1,说明anchors已经保存过了,读取anchors,否则直接赋值一个空的字符串
代码如下:
- byte version = in.readByte(); // read version
- if (version > CUR_VERSION) // check version
- throw new VersionMismatchException(CUR_VERSION, version);
- fetch = in.readByte() != 0; // read fetch flag
- page = Page.read(in); // read page
- if (version > 1) { // anchors added in version 2
- anchors = new String[in.readInt()]; // read anchors
- for (int i = 0; i < anchors.length; i++) {
- anchors[i] = UTF8.readString(in);
- }
- } else {
- anchors = new String[0];
- }
byte version = in.readByte(); // read version if (version > CUR_VERSION) // check version throw new VersionMismatchException(CUR_VERSION, version); fetch = in.readByte() != 0; // read fetch flag page = Page.read(in); // read page if (version > 1) { // anchors added in version 2 anchors = new String[in.readInt()]; // read anchors for (int i = 0; i < anchors.length; i++) { anchors[i] = UTF8.readString(in); } } else { anchors = new String[0]; }
同时还提供了一个静态的读取各个字段的函数,并构建出FetchListEntry对象返回:
- public static FetchListEntry read(DataInput in) throws IOException {
- FetchListEntry result = new FetchListEntry();
- result.readFields(in);
- return result;
- }
public static FetchListEntry read(DataInput in) throws IOException { FetchListEntry result = new FetchListEntry(); result.readFields(in); return result; }
写得代码则比较易看,分别写每个字段:
- public final void write(DataOutput out) throws IOException {
- out.writeByte(CUR_VERSION); // store current version
- out.writeByte((byte)(fetch ? 1 : 0)); // write fetch flag
- page.write(out); // write page
- out.writeInt(anchors.length); // write anchors
- for (int i = 0; i < anchors.length; i++) {
- UTF8.writeString(out, anchors[i]);
- }
- }
public final void write(DataOutput out) throws IOException { out.writeByte(CUR_VERSION); // store current version out.writeByte((byte)(fetch ? 1 : 0)); // write fetch flag page.write(out); // write page out.writeInt(anchors.length); // write anchors for (int i = 0; i < anchors.length; i++) { UTF8.writeString(out, anchors[i]); } }
其他的clone和equals函数实现的也非常易懂。
下面我们看看Page类的代码:
public class Page implements WritableComparable, Cloneable
和FetchListEntry一样同样实现了Writable, Cloneable接口,我们看看Nutch的注释,我们就非常容易知道各个字段的意义了:
- /*********************************************
- * A row in the Page Database.
- * <pre>
- * type name description
- * ---------------------------------------------------------------
- * byte VERSION - A byte indicating the version of this entry.
- * String URL - The url of a page. This is the primary key.
- * 128bit ID - The MD5 hash of the contents of the page.
- * 64bit DATE - The date this page should be refetched.
- * byte RETRIES - The number of times we've failed to fetch this page.
- * byte INTERVAL - Frequency, in days, this page should be refreshed.
- * float SCORE - Multiplied into the score for hits on this page.
- * float NEXTSCORE - Multiplied into the score for hits on this page.
- * </pre>
- *
- * @author Mike Cafarella
- * @author Doug Cutting
- *********************************************/
/********************************************* * A row in the Page Database. * <pre> * type name description * --------------------------------------------------------------- * byte VERSION - A byte indicating the version of this entry. * String URL - The url of a page. This is the primary key. * 128bit ID - The MD5 hash of the contents of the page. * 64bit DATE - The date this page should be refetched. * byte RETRIES - The number of times we've failed to fetch this page. * byte INTERVAL - Frequency, in days, this page should be refreshed. * float SCORE - Multiplied into the score for hits on this page. * float NEXTSCORE - Multiplied into the score for hits on this page. * </pre> * * @author Mike Cafarella * @author Doug Cutting *********************************************/
各个字段:
- private final static byte CUR_VERSION = 4;
- private static final byte DEFAULT_INTERVAL =
- (byte)NutchConf.get().getInt("db.default.fetch.interval", 30);
- private UTF8 url;
- private MD5Hash md5;
- private long nextFetch = System.currentTimeMillis();
- private byte retries;
- private byte fetchInterval = DEFAULT_INTERVAL;
- private int numOutlinks;
- private float score = 1.0f;
- private float nextScore = 1.0f;
private final static byte CUR_VERSION = 4; private static final byte DEFAULT_INTERVAL = (byte)NutchConf.get().getInt("db.default.fetch.interval", 30); private UTF8 url; private MD5Hash md5; private long nextFetch = System.currentTimeMillis(); private byte retries; private byte fetchInterval = DEFAULT_INTERVAL; private int numOutlinks; private float score = 1.0f; private float nextScore = 1.0f;
同样看看他是如何读取自己的各个字段的,其实代码加上本来提供的注释,使很容易看懂的,不再详述:
- ublic void readFields(DataInput in) throws IOException {
- byte version = in.readByte(); // read version
- if (version > CUR_VERSION) // check version
- throw new VersionMismatchException(CUR_VERSION, version);
- url.readFields(in);
- md5.readFields(in);
- nextFetch = in.readLong();
- retries = in.readByte();
- fetchInterval = in.readByte();
- numOutlinks = (version > 2) ? in.readInt() : 0; // added in Version 3
- score = (version>1) ? in.readFloat() : 1.0f; // score added in version 2
- nextScore = (version>3) ? in.readFloat() : 1.0f; // 2nd score added in V4
- }
ublic void readFields(DataInput in) throws IOException { byte version = in.readByte(); // read version if (version > CUR_VERSION) // check version throw new VersionMismatchException(CUR_VERSION, version); url.readFields(in); md5.readFields(in); nextFetch = in.readLong(); retries = in.readByte(); fetchInterval = in.readByte(); numOutlinks = (version > 2) ? in.readInt() : 0; // added in Version 3 score = (version>1) ? in.readFloat() : 1.0f; // score added in version 2 nextScore = (version>3) ? in.readFloat() : 1.0f; // 2nd score added in V4 }
写各个字段也很直接:
- public void write(DataOutput out) throws IOException {
- out.writeByte(CUR_VERSION); // store current version
- url.write(out);
- md5.write(out);
- out.writeLong(nextFetch);
- out.write(retries);
- out.write(fetchInterval);
- out.writeInt(numOutlinks);
- out.writeFloat(score);
- out.writeFloat(nextScore);
- }
public void write(DataOutput out) throws IOException { out.writeByte(CUR_VERSION); // store current version url.write(out); md5.write(out); out.writeLong(nextFetch); out.write(retries); out.write(fetchInterval); out.writeInt(numOutlinks); out.writeFloat(score); out.writeFloat(nextScore); }
我们顺便看看提供方便读写Fetch到的内容的类FetcherOutput:这个类通过委托前面介绍的两个类的读写,提供了Fetche到的
各种粒度结构的读写功能,代码都比较直接,不再详述。
下次我们看看parse-html插件,看看Nutch是如何提取html页面的。
- 16:39
- 浏览 (1892)
- 评论 (3)
- 分类: Search Engine
- 收藏
- 相关推荐
评论
另外补充一下Content类:
public final class Content extends VersionedWritable
我们看到继承了VersionedWritable类。VersionedWritable类实现了版本字段的读写功能。
我们先看看成员变量:
DIR_NAME 为Content保存的目录,
VERSION 为版本常量
url为该Content所属页面的url
base为该Content所属页面的base url
contentType为该Content所属页面的contentType
metadata为该Content所属页面的meta信息
下面我们看看Content是如何读写自身的字段的:
public final void readFields(DataInput in) throws IOException
这个方法功能为读取自身的各个字段
代码加注释之后基本上比较清晰了.
super.readFields(in);
这句调用父类VersionedWritable读取并验证版本号
写的代码也比较简单:
其实这些类主要是它的字段.以及怎样划分各个域模型的
public final class Content extends VersionedWritable
我们看到继承了VersionedWritable类。VersionedWritable类实现了版本字段的读写功能。
我们先看看成员变量:
- public static final String DIR_NAME = "content";
- private final static byte VERSION = 1;
- private String url;
- private String base;
- private byte[] content;
- private String contentType;
- private Properties metadata;
public static final String DIR_NAME = "content"; private final static byte VERSION = 1; private String url; private String base; private byte[] content; private String contentType; private Properties metadata;
DIR_NAME 为Content保存的目录,
VERSION 为版本常量
url为该Content所属页面的url
base为该Content所属页面的base url
contentType为该Content所属页面的contentType
metadata为该Content所属页面的meta信息
下面我们看看Content是如何读写自身的字段的:
public final void readFields(DataInput in) throws IOException
这个方法功能为读取自身的各个字段
- super.readFields(in); // check version
- url = UTF8.readString(in); // read url
- base = UTF8.readString(in); // read base
- content = WritableUtils.readCompressedByteArray(in);
- contentType = UTF8.readString(in); // read contentType
- int propertyCount = in.readInt(); // read metadata
- metadata = new Properties();
- for (int i = 0; i < propertyCount; i++) {
- metadata.put(UTF8.readString(in), UTF8.readString(in));
- }
super.readFields(in); // check version url = UTF8.readString(in); // read url base = UTF8.readString(in); // read base content = WritableUtils.readCompressedByteArray(in); contentType = UTF8.readString(in); // read contentType int propertyCount = in.readInt(); // read metadata metadata = new Properties(); for (int i = 0; i < propertyCount; i++) { metadata.put(UTF8.readString(in), UTF8.readString(in)); }
代码加注释之后基本上比较清晰了.
super.readFields(in);
这句调用父类VersionedWritable读取并验证版本号
写的代码也比较简单:
- public final void write(DataOutput out) throws IOException {
- super.write(out); // write version
- UTF8.writeString(out, url); // write url
- UTF8.writeString(out, base); // write base
- WritableUtils.writeCompressedByteArray(out, content); // write content
- UTF8.writeString(out, contentType); // write contentType
- out.writeInt(metadata.size()); // write metadata
- Iterator i = metadata.entrySet().iterator();
- while (i.hasNext()) {
- Map.Entry e = (Map.Entry)i.next();
- UTF8.writeString(out, (String)e.getKey());
- UTF8.writeString(out, (String)e.getValue());
- }
- }
public final void write(DataOutput out) throws IOException { super.write(out); // write version UTF8.writeString(out, url); // write url UTF8.writeString(out, base); // write base WritableUtils.writeCompressedByteArray(out, content); // write content UTF8.writeString(out, contentType); // write contentType out.writeInt(metadata.size()); // write metadata Iterator i = metadata.entrySet().iterator(); while (i.hasNext()) { Map.Entry e = (Map.Entry)i.next(); UTF8.writeString(out, (String)e.getKey()); UTF8.writeString(out, (String)e.getValue()); } }
其实这些类主要是它的字段.以及怎样划分各个域模型的
发表评论
-
【转】搜索引擎最新技术发展分析
2011-11-21 09:19 733一、提高搜索引擎对用户检索提问的理解为了提高搜索引擎对用户检索 ... -
nutch官网下载,compass官网下载,lucene官网下载
2010-12-06 21:52 1007nutch官网下载,compass官网下载,lucene官 ... -
Java开源搜索引擎[收藏]
2010-12-06 21:49 934Egothor Egothor是一个用Ja ... -
索引擎Nutch源代码研究之一 网页抓取(4)
2010-12-06 21:48 1050今天来看看Nutch如何Parse网页的: Nutch使用了两 ... -
搜索引擎Nutch源代码研究之一 网页抓取(2)
2010-12-06 21:46 980今天我们来看看Nutch的源代码中的protocol-ht ... -
搜索引擎Nutch源代码研究之一 网页抓取(1)
2010-12-06 21:45 1605搜索引擎Nutch源代码研究之一 网页抓取: Nutch的爬虫 ... -
一个简单的JAVA网页爬虫
2010-12-05 14:26 978public class Access impleme ... -
Google的PageRank原理
2010-12-02 12:50 826PageRank我想稍微接触 ... -
中文分词技术
2010-12-02 12:49 854中文分词技术属于自然语言处理技术范畴,对于一句话 ... -
搜索引擎概述
2010-12-02 12:49 1098搜索引擎的概念 搜索引擎是一应用于web上的 ... -
国内搜索引擎技术现状
2010-12-02 12:48 900当你登录某一个网站 ... -
搜索引擎的技术发展趋势
2010-12-02 12:48 824搜索引擎经过几年的 ... -
什么是第三代搜索引擎
2010-12-02 12:48 901(www.marketingman.net ... -
聚焦爬虫
2010-12-02 12:45 1117聚焦爬虫,又称主题爬虫(或专业爬虫),是“面向特定主 ... -
Google搜索引擎的工作流程
2010-12-02 12:44 1635①Google使用高速的 ... -
福布斯评出最具发展潜力10大搜索引擎
2010-12-02 12:43 805美国知名财经杂志《福布斯》网络版周二评出了最具发展潜 ... -
网页爬虫程序pageSpider
2010-12-02 12:34 7782009-05-05 19:44 该程 ... -
lucene教程
2010-10-24 18:34 742Lucene是apache组织的一个用java实现全文搜索引擎 ...
相关推荐
从Apache官方网站下载Nutch的最新源代码,通常通过Git克隆仓库。解压后,进入Nutch的工作目录。 3. **配置Nutch** 打开`conf/nutch-site.xml`文件,这是Nutch的主要配置文件。以下是一些关键配置项: - `...
2. **Nutch源代码**:包括Nutch的爬虫模块、索引模块和搜索模块,可以帮助开发者学习如何配置和运行一个完整的网络爬虫,以及如何与Lucene集成进行全文检索。 3. **示例项目**:可能包含了一些示例应用,展示如何...
Nutch不仅仅是一个搜索引擎,它还包含了一个Web爬虫,能够抓取互联网上的网页,并对抓取的数据进行索引和处理。 Nutch的源代码包含了整个项目的完整实现,包括爬虫、索引器、搜索器以及相关的配置和文档。这对于...
Nutch 的源代码解析对于深入理解搜索引擎的工作原理以及自定义搜索引擎的实现非常有帮助。下面我们将详细探讨 Nutch 的注入(Injector)过程,这是整个爬取流程的第一步。 Injector 类在 Nutch 中的作用是将输入的 ...
总的来说,王学松的“Lucene+Nutch搜索引擎开发实例代码”是一份宝贵的教育资源,它可以帮助开发者快速入门搜索引擎开发,并深入了解这两个项目的内部工作机制。通过实践这些代码,不仅可以提升技术能力,还能为构建...
分布式搜索引擎Nutch开发详解 Nutch是一款开源的、基于Java实现的全文搜索引擎,它主要用于构建大规模的网络爬虫系统,并提供了对抓取的网页进行索引和搜索的功能。Nutch与Hadoop紧密集成,能够充分利用分布式计算...
《lucene+nutch搜索引擎开发源码1》是一个包含开源搜索引擎项目Lucene和Nutch源代码的压缩包,主要针对搜索引擎开发的学习和实践。这个压缩包是书籍《lucene+nutch搜索引擎开发》的一部分,由于源码量较大,因此分为...
《lucene+nutch开发自己的搜索引擎一书源代码》是一份专为初学者设计的资源,旨在教授如何利用Apache Lucene和Nutch构建自定义搜索引擎。Lucene是Java编写的一个高性能全文检索库,而Nutch则是一个开源的网络爬虫...
Nutch 1.5 是一个基于Java开发的开源搜索引擎项目,它主要负责网络抓取、索引和搜索等功能。这个源代码包包含了实现这些功能的所有模块和组件,为开发者提供了深入理解搜索引擎工作原理以及定制化搜索引擎的机会。接...
Nutch是Apache软件基金会的一个开源项目,主要用于构建网络搜索引擎。这个开发资料压缩包包含了与Nutch相关的源代码和可能的配置文件,可以帮助开发者深入了解和学习Nutch的工作原理以及如何进行定制化开发。以下是...
Lucene 是一个全文搜索引擎库,而 Nutch 是一个完整的网络爬虫项目,两者结合可以提供从网页抓取到索引、搜索的一站式解决方案。 在开发自定义搜索引擎的过程中,首先我们需要了解 **Lucene** 的基本原理。Lucene ...
1. **Java编程基础**:由于Nutch是用Java编写的,因此理解和修改Nutch源代码需要扎实的Java基础知识。 2. **搜索引擎原理**:理解搜索引擎的基本工作流程,包括爬虫、预处理、索引和查询处理。 3. **Hadoop和...
2. **Nutch**: Nutch是一个开放源代码的网络爬虫,主要用于抓取和索引网页内容。它基于Lucene,提供了完整的爬虫解决方案,包括网页抓取、预处理(如HTML解析、链接分析、去重等)、索引和搜索功能。Nutch的主要优势...
Nutch 是一个开源的搜索引擎项目,它提供了网络爬虫、索引和搜索的功能。在构建一个自定义的搜索引擎时,可能会遇到几个常见的问题,如搜索结果的关键词高亮、快照链接无效以及网页在预览时的变形。下面将详细讨论...
《Lucene+Nutch搜索引擎开发》是一本专注于搜索引擎技术的书籍,配套光盘资源为学习者提供了丰富的实践材料,尤其对于想要深入理解Nutch搜索引擎开发的读者来说,这是一份不可多得的学习资料。Nutch是基于Apache ...
总之,Nutch是一个强大的开源搜索引擎工具,它不仅适用于构建自己的搜索引擎,也是研究和学习搜索引擎技术的理想平台。通过熟悉其工作流程、分析源代码以及查阅相关文档,你将能够掌握搜索引擎的核心技术和实现细节...
Apache Nutch 是一款高度可扩展的开源全文搜索引擎框架,它为构建自定义的网络爬虫和搜索引擎提供了强大的工具集。Nutch 的设计目标是处理大量网页数据,进行高效的抓取、索引和搜索操作。在“apache-nutch-1.4-src....
3. **Segments**:Nutch 抓取的网页被分割成多个 Segment,每个 Segment 包含一组相关的网页。Segment 是抓取过程中的中间产物,可以单独处理和分析。 4. **Indexes**:最后生成的 Index 包含了对网页内容的分析结果...
在使用Nutch之前,你需要配置Nutch的运行环境,包括安装Java、设置Hadoop(如果需要分布式爬取)、下载和编译Nutch源代码。还需要配置Nutch的`conf/nutch-site.xml`文件,指定抓取策略、存储路径、爬虫范围等参数。 ...