`
peigang
  • 浏览: 171490 次
  • 性别: Icon_minigender_1
  • 来自: 北京
社区版块
存档分类
最新评论

nutch二次开发环境搭建

    博客分类:
  • JAVA
阅读更多

本文在总结使用nutch1.2框架做二次开发实验中总结出开发环境的一些设置,详细步骤如下:

一、从apache网站下载apache-nutch-1.2-bin.zip。如果需要分析hadoop也可以顺便下载hadoop-0.21.0.tar.gz,解压以上两个文件。解压后文件分别为nutch-1.2、hadoop-0.21.0。

二、新建web工程,引入nutch-1.2.jar以及nutch-1.2/lib中(可根据需要筛选)的.jar文件。

三、拷贝plugins到src目录下。

四、nutch-1.2/conf中的文件拷贝到src目录下。

以上步骤完成后就可以在二次开发的代码中整合nutch以及hadoop了。

分享到:
评论

相关推荐

    Nutch1.7二次开发培训讲义

    ### Nutch 1.7 二次开发培训讲义知识点概览 #### 一、环境搭建与准备工作 **1. 开发环境的选择与配置** - **操作系统:** 二次开发Nutch 1.7时,开发阶段的操作系统选择相对灵活,只要确保安装了JDK和Eclipse即可。...

    Nutch入门资料PDF格式

    - 由于Nutch的高可扩展性,用户可以根据需求进行二次开发,比如开发新的插件来增加支持更多类型的数据文件。 - **Lucene集成**: - Lucene是一个高性能的全文检索引擎库,Nutch利用Lucene实现对抓取数据的高效索引...

    Nutch搜索引擎培训讲义

    - 提供了丰富的API接口,方便开发者进行二次开发和集成。 5. **用户体验** - 改进了用户界面和交互体验,提供更友好的管理控制台。 #### 四、总结 Nutch是一款强大的开源搜索引擎平台,提供了多个版本以适应...

    Mahout机器学习领域分布式计算框架

    #### 四、Hadoop环境搭建 ##### 4.1 单机Hadoop安装步骤 1. **安装SSH和Rsync**:确保远程连接和文件同步的顺畅。 2. **配置SSH免密码登录**:简化后续操作流程。 3. **配置JDK环境**:为Hadoop提供必要的Java运行...

    网络爬虫系统项目建设方案.docx

    - **测试环境搭建**:建立专门的测试环境,模拟真实使用场景进行功能和性能测试。 - **测试方法**:采用黑盒测试、白盒测试等多种测试方法,确保系统质量和稳定性。 #### 五、工程进度安排及项目实施人员资质 - **...

    Hadoop 权威指南(中文前三章)

    - **环境搭建**: 描述了如何设置开发环境,包括安装必要的软件、配置编译工具等。 **5.3 编写单元测试** - **测试方法**: 推荐使用单元测试来验证MapReduce程序的正确性。 **5.4 本地运行测试数据** - **本地...

Global site tag (gtag.js) - Google Analytics