浏览 4357 次
精华帖 (0) :: 良好帖 (0) :: 新手帖 (0) :: 隐藏帖 (0)
|
|
---|---|
作者 | 正文 |
发表时间:2009-03-19
最后修改:2009-03-19
下面分步骤详述。 1.安装JDK 6,eclipse3.2以上版本 2.为eclise安装IBM mapreduce tools插件 http://www.alphaworks.ibm.com/tech/mapreducetools 3.安装cygwin,并设置环境变量 4.下载nutch源代码,我使用的是最新的1.0版本 5.在eclipse中创建MapReduce Project工程。将nutch下的src/java下的所有代码复制到工程的src目录下,a并将其依赖的jar导入工程路径。 6.将nutch/conf 下的配置文件复制到classloder可以找到的路径,我是复制在bin下 7.修改org.apache.nutch.crawl.Crawl,在main()里加入一句 conf.set("hadoop.job.ugi", "你的帐号名,你的系统密码"); 或者在nutch-site.xml加入 <property> <name>hadoop.job.ugi</name> <value>你的帐号名,你的系统密码</value> <description></description> </property> 8.运行org.apache.nutch.crawl.Crawl类,命令行参数可以如下: D:\test-nutch\urls -dir D:\test-nutch -depth 3 -topN 100 -threads 5,head溢出的话,请调整内存参数 如果运行成功的话,你就可以使用luke来查看索引文件了。 声明:ITeye文章版权属于作者,受法律保护。没有作者书面许可不得转载。
推荐链接
|
|
返回顶楼 | |