`
tt9576
  • 浏览: 5432 次
文章分类
社区版块
存档分类
最新评论

nutch 安装部署 以nutch2.3.1 为例

阅读更多
[/size][size=medium]最近在研究nutch 在Ubuntu系统上安装部署nutch,nutch安装步骤如下:
1、先 安装ANT (ant下载安装包就不写了 百度一大把)
//解压 ant
sudo tar -zxvf   /usr/test/soft/apache-ant-1.9.7-bin.tar.gz -C /usr
//移动ant (这里只是把安装的文件放到一目录下,方便管理。)
sudo mv /usr/test/apache-ant-1.9.7 /usr/test/ant1.9
修改/usr/test/ant1.9/bin/ant文件,添加如下内容
export JAVA_HOME=/usr/jdk1.7    
这里需要修改在ant文件中添加java_home 的路径

2、安装nutch
//解压nutch
sudo tar -zxvf /usr/test/soft/apache-nutch-2.3.1-src.tar.gz -C /usr

//移动nutch
sudo mv /usr/test/apache-nutch-2.3.1/usr/test/nutch2.3

修改/usr/jiankongyun/nutch2.3/ivy/ivy.xml文件,添加如下内容
<dependency org="org.apache.gora" name="gora-mongodb" rev="0.6.1" conf="*->default" />
//这里用的是mongodb3.2 安装步骤后面的会有详细的文章 特别注意的一点就是 gora 的版本一定要对应,版本太高或者太低都会出现不兼容的问题,还是尽量使用官方的推荐版本

//编译nutch
cd /usr/test/nutch2.3
/usr/test/ant1.9/bin/ant runtime 

编译nutch的过程中 你可能会得到如下错误:
Trying to override old definition of task javac
  [taskdef] Could not load definitions from resource org/sonar/ant/antlib.xml. It could not be found.


ivy-probe-antlib:


ivy-download:
  [taskdef] Could not load definitions from resource org/sonar/ant/antlib.xml. It could not be found.
解决方法:
下载sonar-ant-task-2.1.jar,将其拷贝到nutch2.3/lib 目录下面
修改build.xml,引入上面添加的jar包:
<!-- Define the Sonar task if this hasn't been done in a common script -->
<taskdef uri="antlib:org.sonar.ant" resource="org/sonar/ant/antlib.xml">
    <classpath path="${ant.library.dir}" />
    <classpath path="${mysql.library.dir}" />
    <classpath><fileset dir="." includes="sonar*.jar" /></classpath>
</taskdef>

添加完成后再次运行 编译nutch 就可以了。

当然有什么不懂的 可以留言我们www.jiankongyun.net可以多多交流
分享到:
评论

相关推荐

    nutch2.3.1安装文档教程

    - 使用命令 `tar -zxvf apache-ant-1.9.9-src.tar.gz` 解压缩文件,这里以 `apache-ant-1.9.9-src.tar.gz` 为例,实际下载的文件名可能有所不同。 3. **配置环境变量**: - 编辑 `/etc/profile` 文件,添加以下行...

    Nutch2.3.1 环境搭建

    Nutch2.3.1是Apache Nutch的一个稳定版本,它是一个开源的网络爬虫框架,主要用于抓取、解析和索引互联网上的网页内容。在本文中,我们将深入探讨如何搭建Nutch2.3.1的运行环境,以便进行网页抓取和分析。 **一、...

    apache-nutch-2.3.1-src.tar.gz

    `apache-nutch-2.3.1-src.tar.gz` 是 Apache Nutch 的源代码包,版本号为 2.3.1,以 tar.gz 格式压缩。 这个压缩包中包含的主要文件和目录结构如下: 1. **src**: 这是 Nutch 的源代码存放位置,分为多个子目录,...

    apache-nutch-2.3.1 源码和构建好的库文件等 (part 3)

    Nutch为我们提供了这样一个不同的选择. 相对于那些商用的搜索引擎, Nutch作为开放源代码 搜索引擎将会更加透明, 从而更值得大家信赖. 现在所有主要的搜索引擎都采用私有的排序算法, 而不会解释为什么一个网页会排在...

    Apache Nutch Java网络爬虫系统 v2.3.1

    Nutch的创始人是Doug Cutting,他同时也是Lucene、Hadoop和Avro开源项目的创始人。 Nutch诞生于2002年8月,是Apache旗下的一个用Java实现的开源搜索引擎项目,自Nutch1.2版本之后,Nutch已经从搜索引

    Apache Nutch v2.3.1

    自Nutch1.2版本之后,Nutch已经从搜索引擎演化为网络爬虫,接着Nutch进一步演化为两大分支版本:1.X和2.X,这两大分支最大的区别在于2.X对底层的数据存储进行了抽象以支持各种底层存储技术。在Nutch的进化过程中,...

    apache-nutch-2.3.1 源码和构建好的库文件等 (part 2)

    Nutch为我们提供了这样一个不同的选择. 相对于那些商用的搜索引擎, Nutch作为开放源代码 搜索引擎将会更加透明, 从而更值得大家信赖. 现在所有主要的搜索引擎都采用私有的排序算法, 而不会解释为什么一个网页会排在...

    apache-nutch-2.3.1-src

    apache-nutch-2.3.1-src.tar ,网络爬虫的源码, 用ivy2管理, ant runtime 编译 apache-nutch-2.3.1-src.tar ,网络爬虫的源码, 用ivy2管理, ant runtime 编译

    apache-nutch-2.3.1 源码和构建好的库文件等 (part 1)

    Nutch为我们提供了这样一个不同的选择. 相对于那些商用的搜索引擎, Nutch作为开放源代码 搜索引擎将会更加透明, 从而更值得大家信赖. 现在所有主要的搜索引擎都采用私有的排序算法, 而不会解释为什么一个网页会排在...

    apache-nutch-2.3.1 源码和构建好的库文件等 (part 4)

    Nutch为我们提供了这样一个不同的选择. 相对于那些商用的搜索引擎, Nutch作为开放源代码 搜索引擎将会更加透明, 从而更值得大家信赖. 现在所有主要的搜索引擎都采用私有的排序算法, 而不会解释为什么一个网页会排在...

    Nutch-NewsClassify:基于nutch的新闻分类系统

    ## Nutch2.3.1新闻分类爬虫内容项目介绍本项目基于https://github.com/xautlx/nutch-ajax.git的nutch-ajax项目功能很强大,本项目在此基础上,对nutch-ajax项目做了一些精简和优化,对Nutch版本进行升级,♡Mybatis...

    Hadoop权威指南(中文版)2015上传.rar

    2.3.1 测试驱动 2.4 客户机 2.4.1 Java 2.4.2 Avro,REST,以及Thrift 2.5 示例 2.5.1 模式 2.5.2 加载数据 2.5.3 Web查询 2.6 HBase和RDBMS的比较 2.6.1 成功的服务 2.6.2 HBase 2.6.3 实例:HBase在Streamy.com的...

    Hadoop权威指南 第二版(中文版)

     2.3.1 测试驱动  2.4 客户机  2.4.1 Java  2.4.2 Avro,REST,以及Thrift  2.5 示例  2.5.1 模式  2.5.2 加载数据  2.5.3 Web查询  2.6 HBase和RDBMS的比较  2.6.1 成功的服务  2.6.2 HBase  2.6.3 ...

    search engine

    Google利用先进的爬虫技术和高效的索引机制,能够快速地抓取和索引互联网上的海量信息,为用户提供精准的搜索结果。 ##### 1.2 体验搜索引擎 体验是了解搜索引擎工作原理的一个好方法。通过实际操作,可以直观地...

    高清彩版 自己动手写搜索引擎

    - **2.2.4 Nutch网络搜索软件**:Nutch是一款开源的网络爬虫项目,用于抓取网页并构建索引,本节介绍其基本使用方法。 - **2.2.5 用户界面**:讨论如何设计友好的用户界面,以便用户更轻松地使用搜索引擎。 - **...

    一个专业搜索公司关于lucene+solar资料(1)

    - 初期以PageRank算法为核心,有效解决了当时互联网搜索引擎的质量问题。 - 随着时间的发展,Google不断改进其搜索引擎技术,成为全球最知名的搜索引擎之一。 **1.2 体验搜索引擎** - **搜索引擎的功能:** - ...

Global site tag (gtag.js) - Google Analytics