`
twtbgn
  • 浏览: 45176 次
  • 性别: Icon_minigender_1
  • 来自: 北京
社区版块
存档分类
最新评论

eclipse中导入nutch源码更新

 
阅读更多

在前一篇eclipse中导入nutch源码后,发现运行的时候报出各种错误,这里重新记录安装步骤,并测试。

安装前准备:

eclipse svn插件

eclipse ivy插件

1.  打开eclipse, File-> New-> Other -> SVN -> 从SVN检出项目 , 选择next

2.  创建新的资源位置 -》 Next ,URL输入  https://svn.apache.org/repos/asf/nutch/branches/branch-1.6/

3.  点击  https://svn.apache.org/repos/asf/nutch/branches/branch-1.6/, Next, finish

4.  选择 java project -> next, 输入项目名,nutch,选择 finish

5.  右击nutch项目,选择Properties

6. source tab -> 移除nutch/src -> add folder ->展开 nutch/src -> 选择 src/bin, src/java, src/test 和 src/testresources

7.  同时把 plugin 下所有项目的 src/java 和 src/test folder 选上

8.  Libraries tab, click Add Class Folder and add /conf to the classpath

9.  Libraries tab add JARs > src/plugin/urlfilter-automaton/lib/automaton.jar & src/plugin/parse-swf/lib/javaswf.jar  如果没有可以自己去下载,然后加进去

10. Libraries tab Add Library > IvyDE Managed Dependencies > browse to nutch/ivy/ivy.xml > 选择ALL

11. Order and Export tab, 找到 "conf" folder  然后 点击上,再点TOP,把conf文件夹移到顶部

12. 将nutch-site.xml.template重命名为nutch-site.xml

13. 将 property "plugin.folders" 修改为 "./src/plugin" 在 $NUTCH_HOME/conf/nutch-site.xml文件中

14. 将  http.agent.name 的value 加入一个值,例如nutch,在conf/nutch-site.xml文件中

15. 修改 hadoop-core.jar 的源码,修改org.apache.hadoop.fs.FileUtil 中689行,将throw new IOException 改为LOG.warn。 编译,替换nutch中hadoop-core.jar 包

15. nutch项目进行ant

16. 在nutch项目下创建文件夹 urls,在urls下建立一个文件url.txt, 文件中写 http://news.163.com

17. Run configurations, Main tab-》 project 选择nutch, Main class选择org.apache.nutch.crawl.Crawl

Argument tab-》program arguments 写入urls -dir data -depth 2

VM arguments写入 -Dhadoop.log.dir=logs -Dhadoop.log.file=hadoop.log

执行Run

18. 观察控制台日志,如果出错,根据日志解决

 

 

 

分享到:
评论

相关推荐

    Eclipse中编译Nutch-0.9

    - **下载Nutch源码**:访问Apache官方网站或其镜像站点,下载Nutch-0.9源码并解压缩至本地目录。 - **创建Java Project**:在Eclipse中创建一个新的Java Project,命名为"Nutch",并选择“Create project from ...

    eclipse配置nutch,eclipse配置nutch

    在项目创建后,你需要确保Nutch的所有源码文件夹都被正确地添加到Eclipse中。通过右键点击项目名,选择“Properties > Java Build Path > Source”,然后点击“Add Folder”按钮,将“conf”文件夹添加进来,这是...

    Eclipse中编译Nutch-1.0

    导入项目后,可能会遇到30处编译错误,这主要是因为Nutch中两个必要的插件未随源码一同打包,即解析mp3和rtf文档的插件。这些插件由于license问题被独立出来,需从特定链接下载对应的jar包(jid3lib-0.5.1.jar和rtf-...

    apache-nutch-1.16.rar 已编译好的版本,可以直接导入eclipse、idea

    Nutch 1.16是该项目的一个稳定版本,已经预先编译完成,方便开发者直接在Eclipse或IntelliJ IDEA这样的集成开发环境中导入使用,无需自行配置和编译源代码。 **Nutch的组成部分** 1. **Web爬虫**:Nutch的爬虫负责...

    nutch爬虫+java+eclipse

    然后,下载Nutch源码(如nutch2.2.1-src),导入Eclipse作为Java项目。配置项目的构建路径,确保包含所有必要的依赖库,如Hadoop和Lucene。 3.2 编译和构建:使用Eclipse的编译工具对Nutch源码进行编译。这通常包括...

    Windows下配置nutch

    - 导入 Nutch 源码,将 `src\java` 目录下的 `org` 文件夹复制到 Java 项目的 `src` 目录下。 - 将 `conf`, `lib`, `plugins` 目录复制到与 `src` 同级目录,并将 `conf` 添加到项目路径。 - 配置项目的 Build...

    Eclipse中编译运行Hadoop-0.20.1源码

    在Eclipse中编译和运行Hadoop-0.20.1源码是理解Hadoop工作原理和进行源代码级调试的重要步骤。以下是一个详细的过程,涵盖了从环境准备到源码编译和运行的全部环节。 首先,确保你的开发环境满足必要的前提条件。在...

    Nutch 安装ppt

    本文介绍了 Nutch 的基本概念、架构以及如何在 Eclipse 中导入和配置 Nutch。同时,还探讨了如何与 Solr 整合以及如何使用 Lucene 进行文本索引和搜索。通过本文的学习,可以帮助读者更好地理解 Nutch 的工作原理和...

    nutch1.3在myclipse部署工程源码

    本教程将详细介绍如何在MyEclipse中部署Nutch1.3的工程源码。 首先,我们需要确保具备以下环境: 1. 安装了Java Development Kit (JDK):因为Nutch和MyEclipse都是基于Java的,所以确保系统已安装JDK且版本与Nutch...

    Nutch搜索引擎培训讲义

    - 打开Eclipse,导入Nutch 1.2项目。 - 在Package Explorer中找到Nutch 1.2项目,右键选择“Build Path” > “Configure Build Path”。 - 选择“Source”选项卡,将默认输出目录从`nutch1.2/bin`修改为`nutch1.2...

    Nutch简要文档

    5. **Updatedb**:`Updatedb` 更新 `crawldb`,将解析后的 URL 数据导入,这个过程可以过滤和规范化URL。 6. **Invertlinks**:`Invertlinks` 用于构建链接数据库(linkdb),记录页面之间的链接关系,这对于后续的...

    Nutch程序运行环境配置

    - **Eclipse集成开发环境**:Nutch的开发可以使用Eclipse这样的IDE,需要将Nutch的源码导入到Eclipse工程中。在Eclipse中,你需要将`nutch-1.0.jar`以及`nutch\lib`目录下的所有jar文件添加到项目的`Referenced ...

    Nutch1.3开发环境

    配置好的Nutch1.3开发环境,解压后直接导入Eclipse Workspace即可,调试通过,默认爬163两层,解决Eclipse3.6+版本无基于源码创建工程选项问题

    网络爬虫教程

    #### 二、Nutch源码下载与IDE配置 1. **下载Nutch源码**: - 推荐使用Nutch 1.9版本,可以从官方下载地址获取:[http://mirrors.hust.edu.cn/apache/nutch/1.9/apache-nutch-1.9-src.zip]...

    Hadoop开发者第一期入门专刊

    3. **导入Eclipse**:将下载的源码导入Eclipse,可以使用Maven工具自动配置项目的依赖关系。 4. **编译源码**:使用Eclipse或Maven命令行工具编译源码,生成可执行文件。 ### 在Windows/Linux上安装Hadoop教程 - *...

Global site tag (gtag.js) - Google Analytics