Nutch 1.2 ——互联网抓取[转]

nhy520

浏览: 963657 次
性别:
来自: 北京

最近访客更多访客>>

yunzhu

k0521klb

remote_silence

prog

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

互联网 QQ Google 搜索引擎 Apache

Nutch 互联网抓取

1. 下载列表获取

真正实现全互联网数据抓取需要一个比较大的入口 URL 列表，幸运的是 Nutch 在设计时考虑到了这个问题。通过 DmozPraser 工具提供了对开放式互联网 DMOZ 目录库的支持。 DMOZ 目录库可以直接从网上下载使用，目前最新版的数据压缩文件 content.rdf.u8.gz 有 295MB ，解压缩后达到 1.91GB 。使用 DmozPraser 工具可以从文件中随机抽取部分数据，生成文件列表，详细操作命令如下所示：

Java代码

bin/nutch org.apache.tools.DomzPraser content.rdf.u8 -subset 3000 >domzurls.txt

bin/nutch org.apache.tools.DomzPraser content.rdf.u8 -subset 3000 >domzurls.txt

命令执行的结果是 Nutch 根目录下生成了一个 dmozurls.txt 的文本文件。该文件可以作为入口地址添加到下载库中。如果要建立全互联网的搜索引擎，可以把 content.rdf.u8 中的所有数据添加到下载库。下载全网数据是一项费时费力的工作，且超过了个人实验的范围，而且 dmozurls 文本文件中包含了很多国外的站点，我们访问比较慢。所有我们将采取另外一种办法。

另外一种办法是查找国内比较大的互联网站点。这些站点的 URL 是通过分析 http://top.chinalabs.com/， http://top.chinaz.com/， http://www.chinarank.org.cn/ 三大中国互联网排行网站获得。应该说可以具有代表性。分析的原理和过程在此不作赘述。得到一个 chinaurls.txt 的文本。部分结果如下：

Java代码

http: //www.baidu.com
http://www.qq.com
http://www.google.cn
http://www.sina.com.cn
http://www.163.com
http://www.taobao.com
http://www.soso.com
http://www.sohu.com
http://www.youku.com
http://www.tianya.cn
http://www.hao123.com
http://www.kaixin001.com
http://www.alibaba.com
http://www.sogou.com
http://www.ifeng.com
http://www.cnzz.com
http://www.chinaz.com
http://www.xunlei.com
http://www.soufun.com
http://www.126.com

http://www.baidu.com
http://www.qq.com
http://www.google.cn
http://www.sina.com.cn
http://www.163.com
http://www.taobao.com
http://www.soso.com
http://www.sohu.com
http://www.youku.com
http://www.tianya.cn
http://www.hao123.com
http://www.kaixin001.com
http://www.alibaba.com
http://www.sogou.com
http://www.ifeng.com
http://www.cnzz.com
http://www.chinaz.com
http://www.xunlei.com
http://www.soufun.com
http://www.126.com

2. 下载大量网站

入口 URL 列表准备好之后，下一步的工作就是导入 Nutch 系统，完成下载工作，具体过程如下：

1) 打开 Nutch 的根目录，新建一个 InternetWeb 和 urls 目录

2) 复制 chinaurls.txt 文件到 Nutch 的根目录下的 urls 目录。利用文件内容向 InternetWeb 目录数据库里面添加初始的入口 URL ，命令及执行结果如下：