nutch研究记录1（爬虫配置）

biaowen

浏览: 74922 次
性别:
来自: 北京

最近访客更多访客>>

lirn0896

civiC

秦风sa

hbysos

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

博客分类：

搜索引擎

Java Eclipse Tomcat Google Windows

工作在windows下完成。java、tomcat和eclipse、Cygwin安装就不多说，其他软件的安装方法网上到处是google搜索一下。记录一下在配置过程中碰到的几个问题和几个比较容易忘记的步骤，日后需要时候也可以翻翻。

nutch分为爬虫和搜索器
   1.   爬虫配置。
   a)   Nutch下载解压后（E:\java\CoreJava\IndexSearchAbout\nutch-1.0）
   b)   创建crawled（存储爬取数据，包括索引）、urls/url.txt目录（里边的文本用来存储所需要爬取的网站url，每个url独立一行）

http://biaowen.iteye.com/

c) 修改配置文件conf/nutch-site.xml

<property>
		<name>http.agent.name</name>
		<value>b-crawler</value>
	</property>
	<property>
		<name>http.agent.version</name>
		<value>1.0</value>
</property>

d) Conf/crawl-urlfilter.txt里边些爬取规则，与urls/url.txt是对应的，比如url.txt里边有http://biaowen.iteye.com/,则crawl-urlfilter.txt需要添加相应规则

# accept hosts in MY.DOMAIN.NAME
+^http://biaowen.iteye.com/

   e)   配置就完成了，如果没有意外应该可以正常爬取
           1).   打开cygwin
           2).   cd /cygdrive/e/java/CoreJava/IndexSearchAbout/nutch-1.0
           3).   bin/nutch crawl urls/url.txt -dir crawled -depth 3 -threads 4
                   -dir(爬取数据存储目录) -depth(深度) - threads(线程，默认10) –topN(每个深度爬取前几个页面)

要特别需要注意一下，在爬取时候尽量保证进程里没有java.exe进程，要不你会产生很多莫名其妙的错误。因为有可能该java.exe正在操作nutch索引文件，当前爬取任务操作不了就会报错，当然了，如果你确定该java.exe进程不锁定索引文件，那就没有问题，自己体会吧。

分享到：

nutch研究记录2（搜索器配置） | Nutch Crawler工作流程及文件格式详细分析

2009-07-05 23:59
浏览 1582
评论(0)
查看更多

发表评论

您还没有登录,请您登录后再发表评论

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论