在前一篇eclipse中导入nutch源码后,发现运行的时候报出各种错误,这里重新记录安装步骤,并测试。
安装前准备:
eclipse svn插件
eclipse ivy插件
1. 打开eclipse, File-> New-> Other -> SVN -> 从SVN检出项目 , 选择next
2. 创建新的资源位置 -》 Next ,URL输入 https://svn.apache.org/repos/asf/nutch/branches/branch-1.6/
3. 点击 https://svn.apache.org/repos/asf/nutch/branches/branch-1.6/, Next, finish
4. 选择 java project -> next, 输入项目名,nutch,选择 finish
5. 右击nutch项目,选择Properties
6. source tab -> 移除nutch/src -> add folder ->展开 nutch/src -> 选择 src/bin, src/java, src/test 和 src/testresources
7. 同时把 plugin 下所有项目的 src/java 和 src/test folder 选上
8. Libraries tab, click Add Class Folder and add /conf to the classpath
9. Libraries tab add JARs > src/plugin/urlfilter-automaton/lib/automaton.jar & src/plugin/parse-swf/lib/javaswf.jar 如果没有可以自己去下载,然后加进去
10. Libraries tab Add Library > IvyDE Managed Dependencies > browse to nutch/ivy/ivy.xml > 选择ALL
11. Order and Export tab, 找到 "conf" folder 然后 点击上,再点TOP,把conf文件夹移到顶部
12. 将nutch-site.xml.template重命名为nutch-site.xml
13. 将 property "plugin.folders" 修改为 "./src/plugin" 在 $NUTCH_HOME/conf/nutch-site.xml文件中
14. 将 http.agent.name 的value 加入一个值,例如nutch,在conf/nutch-site.xml文件中
15. 修改 hadoop-core.jar 的源码,修改org.apache.hadoop.fs.FileUtil 中689行,将throw new IOException 改为LOG.warn。 编译,替换nutch中hadoop-core.jar 包
15. nutch项目进行ant
16. 在nutch项目下创建文件夹 urls,在urls下建立一个文件url.txt, 文件中写 http://news.163.com
17. Run configurations, Main tab-》 project 选择nutch, Main class选择org.apache.nutch.crawl.Crawl
Argument tab-》program arguments 写入urls -dir data -depth 2
VM arguments写入 -Dhadoop.log.dir=logs -Dhadoop.log.file=hadoop.log
执行Run
18. 观察控制台日志,如果出错,根据日志解决
相关推荐
- **下载Nutch源码**:访问Apache官方网站或其镜像站点,下载Nutch-0.9源码并解压缩至本地目录。 - **创建Java Project**:在Eclipse中创建一个新的Java Project,命名为"Nutch",并选择“Create project from ...
在项目创建后,你需要确保Nutch的所有源码文件夹都被正确地添加到Eclipse中。通过右键点击项目名,选择“Properties > Java Build Path > Source”,然后点击“Add Folder”按钮,将“conf”文件夹添加进来,这是...
导入项目后,可能会遇到30处编译错误,这主要是因为Nutch中两个必要的插件未随源码一同打包,即解析mp3和rtf文档的插件。这些插件由于license问题被独立出来,需从特定链接下载对应的jar包(jid3lib-0.5.1.jar和rtf-...
Nutch 1.16是该项目的一个稳定版本,已经预先编译完成,方便开发者直接在Eclipse或IntelliJ IDEA这样的集成开发环境中导入使用,无需自行配置和编译源代码。 **Nutch的组成部分** 1. **Web爬虫**:Nutch的爬虫负责...
然后,下载Nutch源码(如nutch2.2.1-src),导入Eclipse作为Java项目。配置项目的构建路径,确保包含所有必要的依赖库,如Hadoop和Lucene。 3.2 编译和构建:使用Eclipse的编译工具对Nutch源码进行编译。这通常包括...
- 导入 Nutch 源码,将 `src\java` 目录下的 `org` 文件夹复制到 Java 项目的 `src` 目录下。 - 将 `conf`, `lib`, `plugins` 目录复制到与 `src` 同级目录,并将 `conf` 添加到项目路径。 - 配置项目的 Build...
在Eclipse中编译和运行Hadoop-0.20.1源码是理解Hadoop工作原理和进行源代码级调试的重要步骤。以下是一个详细的过程,涵盖了从环境准备到源码编译和运行的全部环节。 首先,确保你的开发环境满足必要的前提条件。在...
本文介绍了 Nutch 的基本概念、架构以及如何在 Eclipse 中导入和配置 Nutch。同时,还探讨了如何与 Solr 整合以及如何使用 Lucene 进行文本索引和搜索。通过本文的学习,可以帮助读者更好地理解 Nutch 的工作原理和...
本教程将详细介绍如何在MyEclipse中部署Nutch1.3的工程源码。 首先,我们需要确保具备以下环境: 1. 安装了Java Development Kit (JDK):因为Nutch和MyEclipse都是基于Java的,所以确保系统已安装JDK且版本与Nutch...
- 打开Eclipse,导入Nutch 1.2项目。 - 在Package Explorer中找到Nutch 1.2项目,右键选择“Build Path” > “Configure Build Path”。 - 选择“Source”选项卡,将默认输出目录从`nutch1.2/bin`修改为`nutch1.2...
5. **Updatedb**:`Updatedb` 更新 `crawldb`,将解析后的 URL 数据导入,这个过程可以过滤和规范化URL。 6. **Invertlinks**:`Invertlinks` 用于构建链接数据库(linkdb),记录页面之间的链接关系,这对于后续的...
- **Eclipse集成开发环境**:Nutch的开发可以使用Eclipse这样的IDE,需要将Nutch的源码导入到Eclipse工程中。在Eclipse中,你需要将`nutch-1.0.jar`以及`nutch\lib`目录下的所有jar文件添加到项目的`Referenced ...
配置好的Nutch1.3开发环境,解压后直接导入Eclipse Workspace即可,调试通过,默认爬163两层,解决Eclipse3.6+版本无基于源码创建工程选项问题
#### 二、Nutch源码下载与IDE配置 1. **下载Nutch源码**: - 推荐使用Nutch 1.9版本,可以从官方下载地址获取:[http://mirrors.hust.edu.cn/apache/nutch/1.9/apache-nutch-1.9-src.zip]...
3. **导入Eclipse**:将下载的源码导入Eclipse,可以使用Maven工具自动配置项目的依赖关系。 4. **编译源码**:使用Eclipse或Maven命令行工具编译源码,生成可执行文件。 ### 在Windows/Linux上安装Hadoop教程 - *...