在eclipse中如何配置nutch1.0

p_x1984

浏览: 1189253 次
性别:
来自: 北京

最近访客更多访客>>

u012363178

清风_秋雨

sun80264629

shaoaj

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

博客分类：

nutch

Eclipse XP Apache CVS lucene

<1>: 首先从http://apache.etoak.com/lucene/nutch/ 下载最新的nutch.在这里我使用的是nutch1.0.
<2>: 在eclipse中新建立一个Java Project. 名字自己定义(Nutch). 选择"Create project from existing source"，指向自己nutch-1.0的目录.
<3>: 点击下一步，切换到"Libraries"选择"Add Class Folder..." 按钮，从列表中选择"conf". ---- Add project 'conf' to build path---->Default Output floder ---->选择刚才conf.
<4>: finised.修改conf下面的
(a):nutch-defaul.xml :

<property>
<name>plugin.folders</name>
<value>/home/user/tools/nutch-1.0/src/plugin</value> 
<description>Directories where nutch plugins are located. Each
element may be a relative or absolute path. If absolute, it is used
as is. If relative, it is searched for on the classpath.</description>
</property>
(b):nutch-site.xml:
<property>
<name>http.agent.name</name>
<value>xp</value>
<description>xp</description>
</property>
<property>
<name>http.agent.description</name>
<value>Nutch spiderman</value>
<description> Nutch spiderman</description>
</property>
<property>
<name>http.agent.url</name>
<value>http://www.163.com/</value>
<description>http://www.163.com</description>
</property>
<property>
<name>http.agent.email</name>
<value>MyEmail</value>
<description>xipei_1984@163.com
</description>
</property>
(c):crawl-urlfilter.txt:
# accept hosts in MY.DOMAIN.NAME
+^http://([a-z0-9]*\.)*163.com/
<5>:http://nutch.cvs.sourceforge.net/nutch/nutch/src/plugin/parse-mp3/lib/，
http://nutch.cvs.sourceforge.net/nutch/nutch/src/plugin/parse-rtf/lib/
下载MP3跟rtf的jar文件，分别拷贝到src/plugin/parse-mp3/lib 和 src/plugin/parse-rtf/lib/文件夹下
<6>:刷新几下，右键选择工程文件夹，选择Build Path->Configure Build Path...在弹出的窗口上，切换到Libraries，选择Add Jars...，添加刚才下载的jar文件到工程。
<7>:到这一步，一般的工程都会有两个错误，nutch的official 1.0 release版本中，这两个问题因为licensing issues没有修复。接下来的就是最关键的部分了。
修改---- src\plugin\parse-rtf\src\java\org\apache\nutch\parse\rtf下RTFParseFactory.java
添加----- import org.apache.nutch.parse.ParseResult;
将 ----- public Parse getParse(Content content) {
改为---- public ParseResult getParse(Content content) {
将 ---- return new ParseStatus(ParseStatus.FAILED,
                               ParseStatus.FAILED_EXCEPTION,
                               e.toString()).getEmptyParse(conf);
改为-----return new ParseStatus(ParseStatus.FAILED,
                ParseStatus.FAILED_EXCEPTION,
              e.toString()).getEmptyParseResult(content.getUrl(), getConf());
将------return new ParseImpl(text,
                         new ParseData(ParseStatus.STATUS_SUCCESS,
                                       title,
                                       OutlinkExtractor.getOutlinks(text, this.conf),
                                       content.getMetadata(),
                                       metadata));
改为------return ParseResult.createParseResult(content.getUrl(),
                             new ParseImpl(text,
                                     new ParseData(ParseStatus.STATUS_SUCCESS,
                                             title,
                                             OutlinkExtractor.getOutlinks(text, this.conf),
                                             content.getMetadata(),
                                             metadata)));

修改------src\plugin\parse-rtf\src\test\org\apache\nutch\parse\rtf下的TestRTFParser.java
将-----parse = new ParseUtil(conf).parseByExtensionId("parse-rtf", content);
改为----parse = new ParseUtil(conf).parseByExtensionId("parse-rtf", content).get(urlString);
到这一步，eclipse上面的工程就会没有错误了 .
<8>:在nutch1.0的目录下新建立一个文件夹urls,然后再在urls中建立一个文本文件url. 写上链接。注意后面要有 "/".
选择Run->Run As->Java Application在弹出的Select Java Application上选择Crawl-org.apache.nutch.crawl.
接下来，选择 Run->Run Configurations…在左边的Java Application下面会有Crawl这一项，选择它，
切换到Arguments，Program Arguments的内容就是要设置的参数，填上urls -dir crawl -depth 3 -topN 50（这里视自己的具体情况而定，urls为链接）
在VM arguments下面填上-Dhadoop.log.dir=logs -Dhadoop.log.file=hadoop.log.
<9>:直接运行吧：看在你的控制台上出现信息了没.

分享到：

配置完成nutch容易出现的错误 | nutch的基本工作流程理解

2009-11-25 11:44
浏览 1440
评论(1)
论坛回复 / 浏览 (1 / 4239)
查看更多

1 楼 cqllang 2009-12-04

解决了问题，感谢。。。

发表评论

您还没有登录,请您登录后再发表评论

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论