- 浏览: 285933 次
- 性别:
- 来自: 北京
文章分类
最新评论
-
86614009:
如何在service层,如何获取绑定到当前线程的entitna ...
使用spring的OpenEntityManagerInView -
yajunyajun2011:
好帖子 怎么没人顶呢
Java 正则表达式最大,最小匹配问题 -
xtuali:
能说明一下,你的nutch是哪个版本的吗?谢谢!
搜索引擎Nutch源代码研究之一 网页抓取(1) -
dongmusic:
需要学习这么多的东西,吐血中...
如何提高Java开发能力 -
jiminsc:
cool
LDAP 验证、添加、修改、删除(转)
今天我们看看Nutch网页抓取,所用的几种数据结构:
主要涉及到了这几个类:FetchListEntry,Page,
首先我们看看FetchListEntry类:
public final class FetchListEntry implements Writable, Cloneable
实现了Writable, Cloneable接口,Nutch许多类实现了Writable, Cloneable。
自己负责自己的读写操作其实是个很合理的设计方法,分离出来反倒有很琐碎
的感觉。
看看里面的成员变量:
我们看看如何读取各个字段的,也就是函数
public final void readFields(DataInput in) throws IOException
读取version 字段,并判断如果版本号是否大约当前的版本号,则抛出版本不匹配的异常,
然后读取fetch 和page 字段。
判断如果版本号大于1,说明anchors已经保存过了,读取anchors,否则直接赋值一个空的字符串
代码如下:
同时还提供了一个静态的读取各个字段的函数,并构建出FetchListEntry对象返回:
写得代码则比较易看,分别写每个字段:
其他的clone和equals函数实现的也非常易懂。
下面我们看看Page类的代码:
public class Page implements WritableComparable, Cloneable
和FetchListEntry一样同样实现了Writable, Cloneable接口,我们看看Nutch的注释,我们就非常容易知道各个字段的意义了:
各个字段:
同样看看他是如何读取自己的各个字段的,其实代码加上本来提供的注释,使很容易看懂的,不再详述:
写各个字段也很直接:
我们顺便看看提供方便读写Fetch到的内容的类FetcherOutput:这个类通过委托前面介绍的两个类的读写,提供了Fetche到的
各种粒度结构的读写功能,代码都比较直接,不再详述。
下次我们看看parse-html插件,看看Nutch是如何提取html页面的。
主要涉及到了这几个类:FetchListEntry,Page,
首先我们看看FetchListEntry类:
public final class FetchListEntry implements Writable, Cloneable
实现了Writable, Cloneable接口,Nutch许多类实现了Writable, Cloneable。
自己负责自己的读写操作其实是个很合理的设计方法,分离出来反倒有很琐碎
的感觉。
看看里面的成员变量:
- public static final String DIR_NAME = "fetchlist";//要写入磁盘的目录
- private final static byte CUR_VERSION = 2;//当前的版本号
- private boolean fetch;//是否抓取以便以后更新
- private Page page;//当前抓取的页面
- private String[] anchors;//抓取到的该页面包含的链接
public static final String DIR_NAME = "fetchlist";//要写入磁盘的目录 private final static byte CUR_VERSION = 2;//当前的版本号 private boolean fetch;//是否抓取以便以后更新 private Page page;//当前抓取的页面 private String[] anchors;//抓取到的该页面包含的链接
我们看看如何读取各个字段的,也就是函数
public final void readFields(DataInput in) throws IOException
读取version 字段,并判断如果版本号是否大约当前的版本号,则抛出版本不匹配的异常,
然后读取fetch 和page 字段。
判断如果版本号大于1,说明anchors已经保存过了,读取anchors,否则直接赋值一个空的字符串
代码如下:
- byte version = in.readByte(); // read version
- if (version > CUR_VERSION) // check version
- throw new VersionMismatchException(CUR_VERSION, version);
- fetch = in.readByte() != 0; // read fetch flag
- page = Page.read(in); // read page
- if (version > 1) { // anchors added in version 2
- anchors = new String[in.readInt()]; // read anchors
- for (int i = 0; i < anchors.length; i++) {
- anchors[i] = UTF8.readString(in);
- }
- } else {
- anchors = new String[0];
- }
byte version = in.readByte(); // read version if (version > CUR_VERSION) // check version throw new VersionMismatchException(CUR_VERSION, version); fetch = in.readByte() != 0; // read fetch flag page = Page.read(in); // read page if (version > 1) { // anchors added in version 2 anchors = new String[in.readInt()]; // read anchors for (int i = 0; i < anchors.length; i++) { anchors[i] = UTF8.readString(in); } } else { anchors = new String[0]; }
同时还提供了一个静态的读取各个字段的函数,并构建出FetchListEntry对象返回:
- public static FetchListEntry read(DataInput in) throws IOException {
- FetchListEntry result = new FetchListEntry();
- result.readFields(in);
- return result;
- }
public static FetchListEntry read(DataInput in) throws IOException { FetchListEntry result = new FetchListEntry(); result.readFields(in); return result; }
写得代码则比较易看,分别写每个字段:
- public final void write(DataOutput out) throws IOException {
- out.writeByte(CUR_VERSION); // store current version
- out.writeByte((byte)(fetch ? 1 : 0)); // write fetch flag
- page.write(out); // write page
- out.writeInt(anchors.length); // write anchors
- for (int i = 0; i < anchors.length; i++) {
- UTF8.writeString(out, anchors[i]);
- }
- }
public final void write(DataOutput out) throws IOException { out.writeByte(CUR_VERSION); // store current version out.writeByte((byte)(fetch ? 1 : 0)); // write fetch flag page.write(out); // write page out.writeInt(anchors.length); // write anchors for (int i = 0; i < anchors.length; i++) { UTF8.writeString(out, anchors[i]); } }
其他的clone和equals函数实现的也非常易懂。
下面我们看看Page类的代码:
public class Page implements WritableComparable, Cloneable
和FetchListEntry一样同样实现了Writable, Cloneable接口,我们看看Nutch的注释,我们就非常容易知道各个字段的意义了:
- /*********************************************
- * A row in the Page Database.
- * <pre>
- * type name description
- * ---------------------------------------------------------------
- * byte VERSION - A byte indicating the version of this entry.
- * String URL - The url of a page. This is the primary key.
- * 128bit ID - The MD5 hash of the contents of the page.
- * 64bit DATE - The date this page should be refetched.
- * byte RETRIES - The number of times we've failed to fetch this page.
- * byte INTERVAL - Frequency, in days, this page should be refreshed.
- * float SCORE - Multiplied into the score for hits on this page.
- * float NEXTSCORE - Multiplied into the score for hits on this page.
- * </pre>
- *
- * @author Mike Cafarella
- * @author Doug Cutting
- *********************************************/
/********************************************* * A row in the Page Database. * <pre> * type name description * --------------------------------------------------------------- * byte VERSION - A byte indicating the version of this entry. * String URL - The url of a page. This is the primary key. * 128bit ID - The MD5 hash of the contents of the page. * 64bit DATE - The date this page should be refetched. * byte RETRIES - The number of times we've failed to fetch this page. * byte INTERVAL - Frequency, in days, this page should be refreshed. * float SCORE - Multiplied into the score for hits on this page. * float NEXTSCORE - Multiplied into the score for hits on this page. * </pre> * * @author Mike Cafarella * @author Doug Cutting *********************************************/
各个字段:
- private final static byte CUR_VERSION = 4;
- private static final byte DEFAULT_INTERVAL =
- (byte)NutchConf.get().getInt("db.default.fetch.interval", 30);
- private UTF8 url;
- private MD5Hash md5;
- private long nextFetch = System.currentTimeMillis();
- private byte retries;
- private byte fetchInterval = DEFAULT_INTERVAL;
- private int numOutlinks;
- private float score = 1.0f;
- private float nextScore = 1.0f;
private final static byte CUR_VERSION = 4; private static final byte DEFAULT_INTERVAL = (byte)NutchConf.get().getInt("db.default.fetch.interval", 30); private UTF8 url; private MD5Hash md5; private long nextFetch = System.currentTimeMillis(); private byte retries; private byte fetchInterval = DEFAULT_INTERVAL; private int numOutlinks; private float score = 1.0f; private float nextScore = 1.0f;
同样看看他是如何读取自己的各个字段的,其实代码加上本来提供的注释,使很容易看懂的,不再详述:
- ublic void readFields(DataInput in) throws IOException {
- byte version = in.readByte(); // read version
- if (version > CUR_VERSION) // check version
- throw new VersionMismatchException(CUR_VERSION, version);
- url.readFields(in);
- md5.readFields(in);
- nextFetch = in.readLong();
- retries = in.readByte();
- fetchInterval = in.readByte();
- numOutlinks = (version > 2) ? in.readInt() : 0; // added in Version 3
- score = (version>1) ? in.readFloat() : 1.0f; // score added in version 2
- nextScore = (version>3) ? in.readFloat() : 1.0f; // 2nd score added in V4
- }
ublic void readFields(DataInput in) throws IOException { byte version = in.readByte(); // read version if (version > CUR_VERSION) // check version throw new VersionMismatchException(CUR_VERSION, version); url.readFields(in); md5.readFields(in); nextFetch = in.readLong(); retries = in.readByte(); fetchInterval = in.readByte(); numOutlinks = (version > 2) ? in.readInt() : 0; // added in Version 3 score = (version>1) ? in.readFloat() : 1.0f; // score added in version 2 nextScore = (version>3) ? in.readFloat() : 1.0f; // 2nd score added in V4 }
写各个字段也很直接:
- public void write(DataOutput out) throws IOException {
- out.writeByte(CUR_VERSION); // store current version
- url.write(out);
- md5.write(out);
- out.writeLong(nextFetch);
- out.write(retries);
- out.write(fetchInterval);
- out.writeInt(numOutlinks);
- out.writeFloat(score);
- out.writeFloat(nextScore);
- }
public void write(DataOutput out) throws IOException { out.writeByte(CUR_VERSION); // store current version url.write(out); md5.write(out); out.writeLong(nextFetch); out.write(retries); out.write(fetchInterval); out.writeInt(numOutlinks); out.writeFloat(score); out.writeFloat(nextScore); }
我们顺便看看提供方便读写Fetch到的内容的类FetcherOutput:这个类通过委托前面介绍的两个类的读写,提供了Fetche到的
各种粒度结构的读写功能,代码都比较直接,不再详述。
下次我们看看parse-html插件,看看Nutch是如何提取html页面的。
- 16:39
- 浏览 (1892)
- 评论 (3)
- 分类: Search Engine
- 收藏
- 相关推荐
评论
另外补充一下Content类:
public final class Content extends VersionedWritable
我们看到继承了VersionedWritable类。VersionedWritable类实现了版本字段的读写功能。
我们先看看成员变量:
DIR_NAME 为Content保存的目录,
VERSION 为版本常量
url为该Content所属页面的url
base为该Content所属页面的base url
contentType为该Content所属页面的contentType
metadata为该Content所属页面的meta信息
下面我们看看Content是如何读写自身的字段的:
public final void readFields(DataInput in) throws IOException
这个方法功能为读取自身的各个字段
代码加注释之后基本上比较清晰了.
super.readFields(in);
这句调用父类VersionedWritable读取并验证版本号
写的代码也比较简单:
其实这些类主要是它的字段.以及怎样划分各个域模型的
public final class Content extends VersionedWritable
我们看到继承了VersionedWritable类。VersionedWritable类实现了版本字段的读写功能。
我们先看看成员变量:
- public static final String DIR_NAME = "content";
- private final static byte VERSION = 1;
- private String url;
- private String base;
- private byte[] content;
- private String contentType;
- private Properties metadata;
public static final String DIR_NAME = "content"; private final static byte VERSION = 1; private String url; private String base; private byte[] content; private String contentType; private Properties metadata;
DIR_NAME 为Content保存的目录,
VERSION 为版本常量
url为该Content所属页面的url
base为该Content所属页面的base url
contentType为该Content所属页面的contentType
metadata为该Content所属页面的meta信息
下面我们看看Content是如何读写自身的字段的:
public final void readFields(DataInput in) throws IOException
这个方法功能为读取自身的各个字段
- super.readFields(in); // check version
- url = UTF8.readString(in); // read url
- base = UTF8.readString(in); // read base
- content = WritableUtils.readCompressedByteArray(in);
- contentType = UTF8.readString(in); // read contentType
- int propertyCount = in.readInt(); // read metadata
- metadata = new Properties();
- for (int i = 0; i < propertyCount; i++) {
- metadata.put(UTF8.readString(in), UTF8.readString(in));
- }
super.readFields(in); // check version url = UTF8.readString(in); // read url base = UTF8.readString(in); // read base content = WritableUtils.readCompressedByteArray(in); contentType = UTF8.readString(in); // read contentType int propertyCount = in.readInt(); // read metadata metadata = new Properties(); for (int i = 0; i < propertyCount; i++) { metadata.put(UTF8.readString(in), UTF8.readString(in)); }
代码加注释之后基本上比较清晰了.
super.readFields(in);
这句调用父类VersionedWritable读取并验证版本号
写的代码也比较简单:
- public final void write(DataOutput out) throws IOException {
- super.write(out); // write version
- UTF8.writeString(out, url); // write url
- UTF8.writeString(out, base); // write base
- WritableUtils.writeCompressedByteArray(out, content); // write content
- UTF8.writeString(out, contentType); // write contentType
- out.writeInt(metadata.size()); // write metadata
- Iterator i = metadata.entrySet().iterator();
- while (i.hasNext()) {
- Map.Entry e = (Map.Entry)i.next();
- UTF8.writeString(out, (String)e.getKey());
- UTF8.writeString(out, (String)e.getValue());
- }
- }
public final void write(DataOutput out) throws IOException { super.write(out); // write version UTF8.writeString(out, url); // write url UTF8.writeString(out, base); // write base WritableUtils.writeCompressedByteArray(out, content); // write content UTF8.writeString(out, contentType); // write contentType out.writeInt(metadata.size()); // write metadata Iterator i = metadata.entrySet().iterator(); while (i.hasNext()) { Map.Entry e = (Map.Entry)i.next(); UTF8.writeString(out, (String)e.getKey()); UTF8.writeString(out, (String)e.getValue()); } }
其实这些类主要是它的字段.以及怎样划分各个域模型的
发表评论
-
【转】搜索引擎最新技术发展分析
2011-11-21 09:19 725一、提高搜索引擎对用户检索提问的理解为了提高搜索引擎对用户检索 ... -
nutch官网下载,compass官网下载,lucene官网下载
2010-12-06 21:52 978nutch官网下载,compass官网下载,lucene官 ... -
Java开源搜索引擎[收藏]
2010-12-06 21:49 898Egothor Egothor是一个用Ja ... -
索引擎Nutch源代码研究之一 网页抓取(4)
2010-12-06 21:48 1020今天来看看Nutch如何Parse网页的: Nutch使用了两 ... -
搜索引擎Nutch源代码研究之一 网页抓取(2)
2010-12-06 21:46 952今天我们来看看Nutch的源代码中的protocol-ht ... -
搜索引擎Nutch源代码研究之一 网页抓取(1)
2010-12-06 21:45 1564搜索引擎Nutch源代码研究之一 网页抓取: Nutch的爬虫 ... -
一个简单的JAVA网页爬虫
2010-12-05 14:26 962public class Access impleme ... -
Google的PageRank原理
2010-12-02 12:50 813PageRank我想稍微接触 ... -
中文分词技术
2010-12-02 12:49 844中文分词技术属于自然语言处理技术范畴,对于一句话 ... -
搜索引擎概述
2010-12-02 12:49 1089搜索引擎的概念 搜索引擎是一应用于web上的 ... -
国内搜索引擎技术现状
2010-12-02 12:48 887当你登录某一个网站 ... -
搜索引擎的技术发展趋势
2010-12-02 12:48 811搜索引擎经过几年的 ... -
什么是第三代搜索引擎
2010-12-02 12:48 890(www.marketingman.net ... -
聚焦爬虫
2010-12-02 12:45 1104聚焦爬虫,又称主题爬虫(或专业爬虫),是“面向特定主 ... -
Google搜索引擎的工作流程
2010-12-02 12:44 1624①Google使用高速的 ... -
福布斯评出最具发展潜力10大搜索引擎
2010-12-02 12:43 789美国知名财经杂志《福布斯》网络版周二评出了最具发展潜 ... -
网页爬虫程序pageSpider
2010-12-02 12:34 7682009-05-05 19:44 该程 ... -
lucene教程
2010-10-24 18:34 712Lucene是apache组织的一个用java实现全文搜索引擎 ...
相关推荐
李白高力士脱靴李白贺知章告别课本剧.pptx
1、资源项目源码均已通过严格测试验证,保证能够正常运行; 2、项目问题、技术讨论,可以给博主私信或留言,博主看到后会第一时间与您进行沟通; 3、本项目比较适合计算机领域相关的毕业设计课题、课程作业等使用,尤其对于人工智能、计算机科学与技术等相关专业,更为适合; 4、下载使用后,可先查看README.md文件(如有),本项目仅用作交流学习参考,请切勿用于商业用途。
C语言项目之超级万年历系统源码,可以做课程设计参考 文章参考:https://www.qqmu.com/4373.html
Jupyter-Notebook
51单片机加减乘除计算器系统设计(proteus8.17,keil5),复制粘贴就可以运行
《中国房地产统计年鉴》面板数据资源-精心整理.zip
Jupyter-Notebook
Jupyter-Notebook
毕业论文答辩ppt,答辩ppt模板,共18套
Jupyter-Notebook
《中国城市统计年鉴》面板数据集(2004-2020年,最新).zip
Python基础 本节课知识点: • set的定义 • Set的解析 • set的操作 • set的函数
1、资源项目源码均已通过严格测试验证,保证能够正常运行; 2、项目问题、技术讨论,可以给博主私信或留言,博主看到后会第一时间与您进行沟通; 3、本项目比较适合计算机领域相关的毕业设计课题、课程作业等使用,尤其对于人工智能、计算机科学与技术等相关专业,更为适合; 4、下载使用后,可先查看README.md文件(如有),本项目仅用作交流学习参考,请切勿用于商业用途。
兵制与官制研究资料最新版.zip
Jupyter-Notebook
七普人口数据+微观数据+可视化+GIS矢量资源-精心整理.zip
Support package for Hovl Studio assets.unitypackage
土壤数据库最新集.zip
Jupyter-Notebook
1991-2020年中国能源统计年鉴-能源消费量(分省)面板数据-已更至最新.zip