`
twtbgn
  • 浏览: 45161 次
  • 性别: Icon_minigender_1
  • 来自: 北京
社区版块
存档分类
最新评论

eclipse中导入nutch源码

阅读更多

1、下载并解压eclipse(集成开发环境)
下载地址:http://www.eclipse.org/downloads/,下载Eclipse IDE for Java EE Developers
2、安装Subclipse插件(SVN客户端)
插件地址:http://subclipse.tigris.org/update_1.8.x
3、安装IvyDE插件(下载依赖Jar)
插件地址:http://www.apache.org/dist/ant/ivyde/updatesite/
4、签出代码
File > New > Project > SVN > 从SVN 检出项目
创建新的资源库位置 > URL:https://svn.apache.org/repos/asf/nutch/tags/release-1.6/ > 选中URL > Finish
弹出New Project向导,选择Java Project > Next,输入Project name:nutch1.6 > Finish
5、配置构建路径
在左部Package Explorer的 nutch1.6文件夹上单击右键 > Build Path > Configure Build Path...
> 选中Source选项 > 选择src > Remove > Add Folder... > 选择src/bin, src/java, src/test 和 src/testresources(对于插件,需要选中src/plugin目录下的每一个插件目录下的src/java , src/test文件夹) > OK
切换到Libraries选项 >
Add Class Folder... > 选中nutch1.6/conf > OK

下载已经jar包并放到build path中:automaton.jar, jdom-1.0.jar,  nekohtml-1.9.6.2.jar,   rome-1.0.jar,  tagsoup-1.1.3.jar
Add JARs... > 需要选中src/plugin目录下的每一个插件目录下的lib目录下的jar文件 > OK
Add Library... > IvyDE Managed Dependencies > Next > Main > Ivy File > Browse > ivy/ivy.xml > Finish
切换到Order and Export选项>
选中conf > Top
6、执行ANT
在左部Package Explorer的 nutch1.6文件夹下的build.xml文件上单击右键 > Run As > Ant Build  (需要挺长时间)
在左部Package Explorer的 nutch1.6文件夹上单击右键 > Refresh
在左部Package Explorer的 nutch1.6文件夹上单击右键 > Build Path > Configure Build Path... > 选中Libraries选项 > Add Class Folder... > 选中build > OK

7、修改配置文件nutch-site.xml
 将如下配置项加入文件nutch-site.xml:
<property>
<name>http.agent.name</name>
<value>nutch</value>
</property>
<property>
<name>http.content.limit</name>
<value>-1</value>
</property>

8、开发调试
在左部Package Explorer的 nutch1.6文件夹上单击右键 > New > Folder > Folder name: urls
在刚新建的urls目录下新建一个文本文件url,文本内容为:http://news.163.com
打开src/java下的org.apache.nutch.crawl.Crawl.java类,单击右键Run As > Run Configurations > Arguments > 在Program arguments输入框中输入: urls -dir data -depth 2 > Run
在需要调试的地方打上断点Debug As > Java Applicaton
9、查看结果
查看segments目录:
打开src/java下的org.apache.nutch.segment.SegmentReader.java类
单击右键Run As > Java Applicaton,控制台会输出该命令的使用方法
单击右键Run As > Run Configurations > Arguments > 在Program arguments输入框中输入: -dump data/segments/* data/segments/dump
用文本编辑器打开文件data/segments/dump/dump查看segments中存储的信息

查看crawldb目录:
打开src/java下的org.apache.nutch.crawl.CrawlDbReader.java类
单击右键Run As > Java Applicaton,控制台会输出该命令的使用方法
单击右键Run As > Run Configurations > Arguments > 在Program arguments输入框中输入: data/crawldb -stats
控制台会输出 crawldb统计信息
查看linkdb目录:
打开src/java下的org.apache.nutch.crawl.LinkDbReader.java类
单击右键Run As > Java Applicaton,控制台会输出该命令的使用方法
单击右键Run As > Run Configurations > Arguments > 在Program arguments输入框中输入: data/linkdb -dump data/linkdb_dump
用文本编辑器打开文件data/linkdb_dump/part-00000查看linkdb中存储的信息
分享到:
评论

相关推荐

    Eclipse中编译Nutch-0.9

    - **下载Nutch源码**:访问Apache官方网站或其镜像站点,下载Nutch-0.9源码并解压缩至本地目录。 - **创建Java Project**:在Eclipse中创建一个新的Java Project,命名为"Nutch",并选择“Create project from ...

    eclipse配置nutch,eclipse配置nutch

    在项目创建后,你需要确保Nutch的所有源码文件夹都被正确地添加到Eclipse中。通过右键点击项目名,选择“Properties &gt; Java Build Path &gt; Source”,然后点击“Add Folder”按钮,将“conf”文件夹添加进来,这是...

    Eclipse中编译Nutch-1.0

    导入项目后,可能会遇到30处编译错误,这主要是因为Nutch中两个必要的插件未随源码一同打包,即解析mp3和rtf文档的插件。这些插件由于license问题被独立出来,需从特定链接下载对应的jar包(jid3lib-0.5.1.jar和rtf-...

    apache-nutch-1.16.rar 已编译好的版本,可以直接导入eclipse、idea

    Nutch 1.16是该项目的一个稳定版本,已经预先编译完成,方便开发者直接在Eclipse或IntelliJ IDEA这样的集成开发环境中导入使用,无需自行配置和编译源代码。 **Nutch的组成部分** 1. **Web爬虫**:Nutch的爬虫负责...

    nutch爬虫+java+eclipse

    然后,下载Nutch源码(如nutch2.2.1-src),导入Eclipse作为Java项目。配置项目的构建路径,确保包含所有必要的依赖库,如Hadoop和Lucene。 3.2 编译和构建:使用Eclipse的编译工具对Nutch源码进行编译。这通常包括...

    Windows下配置nutch

    - 导入 Nutch 源码,将 `src\java` 目录下的 `org` 文件夹复制到 Java 项目的 `src` 目录下。 - 将 `conf`, `lib`, `plugins` 目录复制到与 `src` 同级目录,并将 `conf` 添加到项目路径。 - 配置项目的 Build...

    Nutch 安装ppt

    本文介绍了 Nutch 的基本概念、架构以及如何在 Eclipse 中导入和配置 Nutch。同时,还探讨了如何与 Solr 整合以及如何使用 Lucene 进行文本索引和搜索。通过本文的学习,可以帮助读者更好地理解 Nutch 的工作原理和...

    Eclipse中编译运行Hadoop-0.20.1源码

    在Eclipse中编译和运行Hadoop-0.20.1源码是理解Hadoop工作原理和进行源代码级调试的重要步骤。以下是一个详细的过程,涵盖了从环境准备到源码编译和运行的全部环节。 首先,确保你的开发环境满足必要的前提条件。在...

    nutch1.3在myclipse部署工程源码

    本教程将详细介绍如何在MyEclipse中部署Nutch1.3的工程源码。 首先,我们需要确保具备以下环境: 1. 安装了Java Development Kit (JDK):因为Nutch和MyEclipse都是基于Java的,所以确保系统已安装JDK且版本与Nutch...

    Nutch搜索引擎培训讲义

    - 打开Eclipse,导入Nutch 1.2项目。 - 在Package Explorer中找到Nutch 1.2项目,右键选择“Build Path” &gt; “Configure Build Path”。 - 选择“Source”选项卡,将默认输出目录从`nutch1.2/bin`修改为`nutch1.2...

    Nutch简要文档

    Nutch 与 Eclipse 结合开发时,通常需要先搭建 Hadoop 环境,因为 Nutch 基于 Hadoop 分布式计算框架,Hadoop 提供了数据存储和处理的能力。开发者需要了解 Hadoop 的基本命令和集群管理,确保 Nutch 在 Hadoop 上的...

    Nutch程序运行环境配置

    - **Eclipse集成开发环境**:Nutch的开发可以使用Eclipse这样的IDE,需要将Nutch的源码导入到Eclipse工程中。在Eclipse中,你需要将`nutch-1.0.jar`以及`nutch\lib`目录下的所有jar文件添加到项目的`Referenced ...

    Nutch1.3开发环境

    配置好的Nutch1.3开发环境,解压后直接导入Eclipse Workspace即可,调试通过,默认爬163两层,解决Eclipse3.6+版本无基于源码创建工程选项问题

    网络爬虫教程

    #### 二、Nutch源码下载与IDE配置 1. **下载Nutch源码**: - 推荐使用Nutch 1.9版本,可以从官方下载地址获取:[http://mirrors.hust.edu.cn/apache/nutch/1.9/apache-nutch-1.9-src.zip]...

    Hadoop开发者第一期入门专刊

    3. **导入Eclipse**:将下载的源码导入Eclipse,可以使用Maven工具自动配置项目的依赖关系。 4. **编译源码**:使用Eclipse或Maven命令行工具编译源码,生成可执行文件。 ### 在Windows/Linux上安装Hadoop教程 - *...

Global site tag (gtag.js) - Google Analytics