【转】站内搜索引擎Nutch【配置】全过程（ubuntu） -

lianshisheng

浏览: 28369 次
性别:
来自: 北京

最近访客更多访客>>

zhao103804

wynford

沐刃青蛟

woodding2008

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

【转】站内搜索引擎Nutch【配置】全过程（ubuntu）

博客分类：

爬虫

搜索引擎 Ubuntu 农业 Tomcat lucene

下载:
可以去Apache的官方网页http://www.apache.org/dyn/closer.cgi/lucene/nutch/ 下载最新版的Nutch，目前最新版是nutch-0.9，65M大小。
解压缩，进入bin/就能用。

安装辅助软件（运行环境）：
①JDK，Nutch是用java写的一个开源项目，所以要使它正常运行必须安装JDK（也为了能修改nutch），Java 1.4.x以上版本，设置环境变量NUTCH_JAVA_HOME为java虚拟机的安装目录。
②Tomcat，还必须安装Apache's Tomcat 4.x 以上版本。
最后，想得到较好的运行效果，必须有至少1G的剩余空间和一个网速较快的网络。

抓取前的准备工作

输入需要抓取的网站地址
在Nutch的安装目录中建立一个名为 myurl 的文本文件，文件中写入要抓取网站的顶级网址，即要抓取的起始页。
以我要抓取的网页为例，输入：http://www.sdau.edu.cn/
注意：最后一个 “/” 和 conf/crawl-urlfilter.txt 中的内容统一。

更改配置文件 crawl-urlfilter.txt
编辑conf/crawl-urlfilter.txt文件，修改MY.DOMAIN.NAME部分，把它替换为你想要抓取的域名（地址），即把
# accept hosts in MY.DOMAIN.NAME
+^http://([a-z0-9]*\.)*MY.DOMAIN.NAME/
修改为：
# accept hosts in MY.DOMAIN.NAME
+^http://([a-z0-9]*\.)*sdau.edu.cn /

运行 crawl命令抓取网站内容

运行的命令
·-dir  dirnames 设置保存所抓取网页的目录.
·-depth  depth
表明抓取网页的层次深度
·-delay  delay
表明访问不同主机的延时，单位为“秒”
·-threads  threads 表明需要启动的线程数

实际使用
改变当前工作区为nutch安装目录，运行以下命令行：
      bin/nutch crawl myurl -dir mydir -depth 2 -threads 4 >&logs/logs1.log

在上述命令的参数中，myurl 就是刚才我们创建的那个文件,存放我们要抓取的网址,dir指定抓取内容所存放的目录，depth表示以要抓取网站顶级网址为起点的爬行深度， threads指定并发的线程数。最后的logs/logs1.log表示把显示的内容保存在文件logs1.log中，以便分析程序的运行情况。

可能发生的错误：
1. 如果mydir在运行前已存在，则运行时将报错：mydir already exist。建议先删除这个目录，或者指定其他的目录存放抓取的网页。
修改 conf/nutch-site.xml
<configuration>
   <property>
         <name>http.agent.name</name>
         <value>HD nutch agent</value>
   </property>
   <property>
         <name>http.agent.version</name>
         <value>1.0</value>
   </property>
</configuration>

如果没有配置此agent，爬取时会出现 Agent name not configured! 的错误。

四.在Tomcat中运行查看结果（在Windows下部署成功，但是在LInux下总是出错）
如果已经抓取成功，则可以在Tomcat上部署了
复制nutch.0.9.war到tomcat目录/webapps

修改/webapps/nutch/WEB-INF/classes/nutch-site.xml :
将
<nutch-conf>
</nutch-conf>
换成
<nutch-conf>
<property>
   <name>searcher.dir</name>
   <value>Your_crawl_dir_path</value>
</property>
</nutch-conf>
Your_crawl_dir_path指刚才抓取网页时网页保存的文件夹，比如我的就是：/usr/locla/mutch-0.9/bin/mydir
最后在浏览器中输入 http://localhost:8080 /mutch-0.9
输入：机构设置

第1-6项 (共有 31 项查询结果):

山东农业大学
... 学　　　学校概况机构设置招生就业人 ... 河农场    学院设 ...
http://www.sdau.edu.cn/sdau2005/department.html (网页快照) (评分详解) (anchors) (more from [url]www.sdau.edu.cn[/url])

山东农业大学
... 学　　　学校概况机构设置招生就业人 ... 介　校史沿革　机构 ...
http://www.sdau.edu.cn/sdau2005/gk3.html (网页快照) (评分详解) (anchors) (more from [url]www.sdau.edu.cn[/url])

山东农业大学学科建设研讨会发言摘要（五）
... 与学位点建设的经验与建 ... 学院学科建设的主要经验 ...
http://weekly.sdau.edu.cn/html2006/2006/xbzl/2007_13_29_6940.htm (网页快照) (评分详解) (anchors) (more from weekly.sdau.edu.cn)

山东农业大学精品课程建设
... 的申报受理机构，接受各省、教 ... 精品课程建设 ...
http://jpkc.sdau.edu.cn/2004-5-12.html (网页快照) (评分详解) (anchors)

电子版文章列表――山东农大报欢迎您
... 年7月5日机关党委被评 ... 加强学风建设和当前工作 ...
http://weekly.sdau.edu.cn/html2006/2006/xxyw/index.htm (网页快照) (评分详解) (anchors) (more from weekly.sdau.edu.cn)

分享到：