在eclipse中如何配置nutch1.0

浏览 4242 次

锁定老帖子主题：在eclipse中如何配置nutch1.0 精华帖 (0) :: 良好帖 (0) :: 新手帖 (0) :: 隐藏帖 (0)
作者	正文
p_x1984 等级: 性别: 文章: 207 积分: 850 来自: 北京	发表时间：2009-11-25 相关推荐: Eclipse中编译Nutch-1.0 在Eclipse下配置nutch1.0 及1.1 在Eclipse中运行Nutch1.0 Eclipse中编译nutch-1.0配置详解 Nutch1.0在eclipse中运行问题之解决更多相关推荐 <1>: 首先从http://apache.etoak.com/lucene/nutch/ 下载最新的nutch.在这里我使用的是nutch1.0. <2>: 在eclipse中新建立一个Java Project. 名字自己定义(Nutch). 选择"Create project from existing source"，指向自己nutch-1.0的目录. <3>: 点击下一步，切换到"Libraries"选择"Add Class Folder..." 按钮，从列表中选择"conf". ---- Add project 'conf' to build path---->Default Output floder ---->选择刚才conf. <4>: finised.修改conf下面的 (a):nutch-defaul.xml : <!-- plugin properties --> <property> <name>plugin.folders</name> <value>/home/user/tools/nutch-1.0/src/plugin</value> <!--指向nutch1.0目录的plugin--> <description>Directories where nutch plugins are located. Each element may be a relative or absolute path. If absolute, it is used as is. If relative, it is searched for on the classpath.</description> </property> (b):nutch-site.xml: <property> <name>http.agent.name</name> <value>xp</value> <description>xp</description> </property> <property> <name>http.agent.description</name> <value>Nutch spiderman</value> <description> Nutch spiderman</description> </property> <property> <name>http.agent.url</name> <value>http://www.163.com/</value> <description>http://www.163.com</description> </property> <property> <name>http.agent.email</name> <value>MyEmail</value> <description>xipei_1984@163.com </description> </property> (c):crawl-urlfilter.txt: # accept hosts in MY.DOMAIN.NAME +^http://([a-z0-9]\.)163.com/ <5>:http://nutch.cvs.sourceforge.net/nutch/nutch/src/plugin/parse-mp3/lib/， http://nutch.cvs.sourceforge.net/nutch/nutch/src/plugin/parse-rtf/lib/ 下载MP3跟rtf的jar文件，分别拷贝到src/plugin/parse-mp3/lib 和 src/plugin/parse-rtf/lib/文件夹下 <6>:刷新几下，右键选择工程文件夹，选择Build Path->Configure Build Path...在弹出的窗口上，切换到Libraries，选择Add Jars...，添加刚才下载的jar文件到工程。 <7>:到这一步，一般的工程都会有两个错误，nutch的official 1.0 release版本中，这两个问题因为licensing issues没有修复。接下来的就是最关键的部分了。修改---- src\plugin\parse-rtf\src\java\org\apache\nutch\parse\rtf下RTFParseFactory.java 添加----- import org.apache.nutch.parse.ParseResult; 将 ----- public Parse getParse(Content content) { 改为---- public ParseResult getParse(Content content) { 将 ---- return new ParseStatus(ParseStatus.FAILED, ParseStatus.FAILED_EXCEPTION, e.toString()).getEmptyParse(conf); 改为-----return new ParseStatus(ParseStatus.FAILED, ParseStatus.FAILED_EXCEPTION, e.toString()).getEmptyParseResult(content.getUrl(), getConf()); 将------return new ParseImpl(text, new ParseData(ParseStatus.STATUS_SUCCESS, title, OutlinkExtractor.getOutlinks(text, this.conf), content.getMetadata(), metadata)); 改为------return ParseResult.createParseResult(content.getUrl(), new ParseImpl(text, new ParseData(ParseStatus.STATUS_SUCCESS, title, OutlinkExtractor.getOutlinks(text, this.conf), content.getMetadata(), metadata))); 修改------src\plugin\parse-rtf\src\test\org\apache\nutch\parse\rtf下的TestRTFParser.java 将-----parse = new ParseUtil(conf).parseByExtensionId("parse-rtf", content); 改为----parse = new ParseUtil(conf).parseByExtensionId("parse-rtf", content).get(urlString); 到这一步，eclipse上面的工程就会没有错误了 . <8>:在nutch1.0的目录下新建立一个文件夹urls,然后再在urls中建立一个文本文件url. 写上链接。注意后面要有 "/". 选择Run->Run As->Java Application在弹出的Select Java Application上选择Crawl-org.apache.nutch.crawl. 接下来，选择 Run->Run Configurations…在左边的Java Application下面会有Crawl这一项，选择它，切换到Arguments，Program Arguments的内容就是要设置的参数，填上urls -dir crawl -depth 3 -topN 50（这里视自己的具体情况而定，urls为链接）在VM arguments下面填上-Dhadoop.log.dir=logs -Dhadoop.log.file=hadoop.log. <9>:直接运行吧：看在你的控制台上出现信息了没. 声明：ITeye文章版权属于作者，受法律保护。没有作者书面许可不得转载。推荐链接
返回顶楼

cqllang 等级: 初级会员性别: 文章: 260 积分: 0 来自: 重庆	发表时间：2009-12-04 解决了问题，感谢。。。
返回顶楼	回帖地址 0 0 请登录后投票

论坛首页 → 入门技术版

跳转论坛: