nutch在单机windows下测试环境的配置

全部 Hibernate Spring Struts iBATIS 企业应用 Lucene SOA Java综合 Tomcat 设计模式 OO JBoss

浏览 4365 次

锁定老帖子主题：nutch在单机windows下测试环境的配置精华帖 (0) :: 良好帖 (0) :: 新手帖 (0) :: 隐藏帖 (0)
作者	正文
yuhai.china 等级: 初级会员性别: 文章: 30 积分: 60 来自: 北京	发表时间：2009-03-19 最后修改：2009-03-19 相关推荐: Linux下Nutch分布式配置和使用【Nutch】Linux下Nutch分布式配置和使用在 Windows 平台下部署 Hadoop 开发环境 01.大数据介绍以及环境配置 windows和cygwin下hadoop安装配置更多相关推荐企业应用通常来说nutch应该部署在多台机器上，做并行抓取，那么配置nutch在单机windows下有什么意义呢？就是方便debug。下面分步骤详述。 1.安装JDK 6，eclipse3.2以上版本 2.为eclise安装IBM mapreduce tools插件 http://www.alphaworks.ibm.com/tech/mapreducetools 3.安装cygwin，并设置环境变量 4.下载nutch源代码，我使用的是最新的1.0版本 5.在eclipse中创建MapReduce Project工程。将nutch下的src/java下的所有代码复制到工程的src目录下，a并将其依赖的jar导入工程路径。 6.将nutch/conf 下的配置文件复制到classloder可以找到的路径，我是复制在bin下 7.修改org.apache.nutch.crawl.Crawl,在main()里加入一句 conf.set("hadoop.job.ugi", "你的帐号名,你的系统密码"); 或者在nutch-site.xml加入 <property> <name>hadoop.job.ugi</name> <value>你的帐号名,你的系统密码</value> <description></description> </property> 8.运行org.apache.nutch.crawl.Crawl类，命令行参数可以如下： D:\test-nutch\urls -dir D:\test-nutch -depth 3 -topN 100 -threads 5 ，head溢出的话，请调整内存参数如果运行成功的话，你就可以使用luke来查看索引文件了。声明：ITeye文章版权属于作者，受法律保护。没有作者书面许可不得转载。推荐链接
返回顶楼

论坛首页 → Java企业应用版

跳转论坛: