锁定老帖子 主题:[原创]Nutch_0.8实践(1)
精华帖 (0) :: 良好帖 (0) :: 新手帖 (0) :: 隐藏帖 (0)
|
|
---|---|
作者 | 正文 |
发表时间:2007-05-21
Nutch_<st1:chmetcnv hasspace="True" numbertype="1" negative="False" sourcevalue=".8" unitname="in" w:st="on" tcsc="0">0.8实践</st1:chmetcnv> (1)<o:p></o:p> <st1:chsdate w:st="on" month="5" islunardate="False" day="21" year="2007" isrocdate="False">2007-5-21</st1:chsdate><o:p></o:p> <o:p> </o:p> Key Word: Nutch Lucene<o:p></o:p> (一)前言<o:p></o:p>1. 概述 为了完成本地的全文检索,并在以后中可以升级到对其他网站的全文检索的功能。采用了Lucene搜索引擎来尝试,如果效果好的话,可以普及到以后的产品或项目中。 整个过程中,发现网上的资源良莠不齐,才决定写该文档,供大家参考研究讨论。 <o:p></o:p> 2. 作业环境<o:p></o:p> WIN SERVER 2003 Enterprise Editon + WAS6.0(自带JRE <st1:chsdate w:st="on" month="12" islunardate="False" day="30" year="1899" isrocdate="False">1.4.2</st1:chsdate>) <o:p></o:p> 3. 测试开发环境<o:p></o:p> WIN XP Pro + JRE <st1:chsdate w:st="on" month="12" islunardate="False" day="30" year="1899" isrocdate="False">1.4.2</st1:chsdate>_03 + Tomcat 5.0
(二)开发
1. 前提条件<o:p></o:p> Cygwin下载:cygwin官方http://www.cygwin.com Nutch 0.8下载:nutch官方http://lucene.apache.org/nutch/ Lukeall 0.6下载:http://www.getopt.org/luke/(查看Nutch Crawl工具,非必要)
建议:下载http://www.cygwin.com/setup.exe,点击setup.exe建议选择第二项(“Download Without Installing”),选择一个.tw的镜像下载;下载完毕后,在点击steup.exe,选择第三项(“Install from Local Direction”),完成Cygwin的安装。 插曲一:由于作业环境和测试开发环境是JRE1.4的,在安装nutch0.9之后即报错版本不兼容,打开源程序一看是JRE1.5的代码,只好忍痛舍弃最近更新的lucene<st1:chsdate w:st="on" month="12" islunardate="False" day="30" year="1899" isrocdate="False">2.1.0</st1:chsdate>,重新安装nutch0.8。lukeall-0.7.jar也是基于JRE1.5,使用lukeall-0.6.jar。 插曲二:默认cygwin是没有vi、more和crontab的功能(可惜...),建议都下载cron安装后,再继续配置nutch。 <o:p> </o:p> 2. 配置<o:p></o:p> 先将nutch下载后全部解压存放到$cygwin_home/home/$user/nutch下,设置环境变量NUTCH_JAVA_HOME=$JAVA_HOME 2.1. 修改$cygwin_home/home/$user/nutch/conf/crawl-urlfilter.txt<o:p></o:p> <o:p></o:p> <o:p> shell</o:p><o:p>代码</o:p>
(注:根据实际情况配置) 2.2. 添加$cygwin_home/home/$user/nutch/urls/url.txt文件 <o:p> 增加代码:</o:p> <o:p>txt代码
</o:p><o:p>
(注:根据实际情况配置) 2.3. 修改$cygwin_home/home/$user/nutch/conf/nutch-site.xml<o:p></o:p> 修改代码:
2.4. 修改$tomcat_home/conf/server.xml
2.4.1. Connector
xml 代码
2.4.2. Context
xml 代码
(注:根据实际情况配置,pub和nbtravel为我的目标项目)
2.5. 启动TOMCAT
2.6. 修改$tomcat_home/webapps/nutch/WEB-INF/classes/nutch-site.xml
修改代码:
xml 代码
2.7. 增加$cygwin_home\home\$user\nutch\cron.sh文件
增加代码:
shell代码
(注:根据实际情况配置)
2.8. $cygwin_home\home\$user\nutch\下执行,“./cron.sh”,开始爬,直到提示“crawl finished: crawl”
2.9. 执行http://192.168.0.92:8080/nutch/ ,查询效果如下:
图表 1查询结果
3. 遗留问题
问题一:必须关闭TOMCAT才能执行删除索引,那么如果放到生产环境上是否也存在类似问题。
问题二:分词问题,命中率并不是很高,如图1,Lucene将“统计”,拆分成“统计”、“统”和“计”,如何优化。
问题三:不能对索引进行Update,只能删除重建,影响效率。
问题四:还没有安装cron,没有把爬虫放在后台执行队列中。
To be continu…
xml 代码
</o:p>
声明:ITeye文章版权属于作者,受法律保护。没有作者书面许可不得转载。
推荐链接
|
|
返回顶楼 | |
浏览 5695 次