`
leongfans
  • 浏览: 86085 次
  • 性别: Icon_minigender_1
  • 来自: 北京
社区版块
存档分类
最新评论

Nutch Trunk(2.0) 编译

阅读更多
今天下载了Nutch的Trunk版本,调用ant编译的时候无法编译通过

[ivy:resolve] ::::::::::::::::::::::::::::::::::::::::::::::
[ivy:resolve] ::          UNRESOLVED DEPENDENCIES         ::
[ivy:resolve] ::::::::::::::::::::::::::::::::::::::::::::::
[ivy:resolve] :: org.gora#gora-core;0.1: not found
[ivy:resolve] :: org.gora#gora-sql;0.1: not found
[ivy:resolve] ::::::::::::::::::::::::::::::::::::::::::::::

从错误可以看出,缺少gora-core相关的包

google以后发现,gora项目仍然在孵化器中,所以在http://repo1.maven.org/maven2/中无法找到gora-core相关的包,这个包需要我们手动安装到本地库中

从http://incubator.apache.org/gora/中checkout最新的trunk版本,ant的时候继续报错
[ivy:resolve] ::::::::::::::::::::::::::::::::::::::::::::::
[ivy:resolve] ::          UNRESOLVED DEPENDENCIES         ::
[ivy:resolve] ::::::::::::::::::::::::::::::::::::::::::::::
[ivy:resolve] :: com.sun.jersey#jersey-core;1.4: not found
[ivy:resolve] :: com.sun.jersey#jersey-json;1.4: not found
[ivy:resolve] :: com.sun.jersey#jersey-server;1.4: not found
[ivy:resolve] ::::::::::::::::::::::::::::::::::::::::::::::
浏览maven2库,发现确实没有这几个包(被误删?还是版权问题下了?)
google了一个包含这三个包的库:http://download.java.net/maven/2/
在gora/ivy/ivysetting.xml中添加了
  <property name="repo.java.net"
    value="http://download.java.net/maven/2/"
    override="false"/>
ant编译通过
重新ant编译nutch,仍然找不到对应的gora相关的包
进到~/.ivy/local 里面看了一下,发现gora相关的版本号都是0.1-incubating
将gora/build.xml 和gora/build-common.xml中的version都修改为0.1,重新ant编译,gora包部署完毕

再回到nutch下面ant,build通过!!


粗略看了一下,gora应该是用于将nutch爬下来的网页Mapping到HBase或者DB中的ORM框架,值得关注一下~~
0
1
分享到:
评论

相关推荐

    apache-nutch-1.16.rar 已编译好的版本,可以直接导入eclipse、idea

    Nutch 1.16是该项目的一个稳定版本,已经预先编译完成,方便开发者直接在Eclipse或IntelliJ IDEA这样的集成开发环境中导入使用,无需自行配置和编译源代码。 **Nutch的组成部分** 1. **Web爬虫**:Nutch的爬虫负责...

    Eclipse中编译Nutch-1.0

    ### Eclipse中编译Nutch-1.0:深入解析与实践指南 #### 一、环境准备与基础构建 在Linux环境中使用Eclipse编译Nutch-1.0,首要任务是确保开发环境满足项目需求。这包括确认Eclipse的JDK、JRE版本至少为1.6或更高...

    Linux下Nutch单机配置

    ### Linux下Nutch单机配置知识点详解 #### 一、环境搭建与配置 **1.1 环境介绍** 本文档将详细介绍如何在Linux环境下进行Nutch的单机配置。所使用的具体环境如下: - **操作系统**: Red Hat Linux 9 - **Nutch...

    Eclipse中编译Nutch-0.9

    ### Eclipse中编译Nutch-0.9:详解与步骤 #### 核心知识点概览 在本篇文章中,我们将深入探讨如何在Eclipse环境中编译Nutch-0.9,一个开源的网络爬虫项目,用于抓取互联网上的网页信息。文章涵盖的关键知识点包括...

    Nutch搜索引擎培训讲义

    - 下载Nutch 1.5.1源码或预编译包。 - 配置Solr服务器。 5. **配置与运行** - 类似于Nutch 1.2,首先需要配置构建路径、添加JAR包等。 - 配置爬虫参数,包括爬取深度、过滤规则等。 - 部署到Tomcat服务器,并...

    搜索引擎nutch配置

    编译完成后,可以运行Nutch的命令行工具,如`bin/nutch inject`来注入种子URL,`bin/nutch fetch`执行抓取,`bin/nutch update`更新已抓取的页面,`bin/nutch generate`生成待抓取的URL列表,以及`bin/nutch crawl`...

    Lucene2.0+Nutch0.8 API帮助文档(CHM格式)

    《Lucene2.0+Nutch0.8 API帮助文档》是一个综合性的技术资源,它包含了对Lucene 2.0和Nutch 0.8这两个关键的开源搜索引擎库的详细接口和功能说明。这两个组件在信息检索、全文搜索以及网络爬虫领域有着广泛的应用。 ...

    nutch 爬虫数据nutch 爬虫数据nutch 爬虫数据nutch 爬虫数据

    Nutch 是一个开源的Web爬虫项目,由Apache软件基金会维护。它被设计用来抓取互联网上的网页,并对其进行索引,以便进行后续的搜索和分析。Nutch 的爬虫数据通常包括了它在抓取过程中收集到的网页URL、网页内容、元...

    nutch使用&Nutch;入门教程

    在使用Nutch之前,你需要配置Nutch的运行环境,包括安装Java、设置Hadoop(如果需要分布式爬取)、下载和编译Nutch源代码。还需要配置Nutch的`conf/nutch-site.xml`文件,指定抓取策略、存储路径、爬虫范围等参数。 ...

    nutch2.2.1安装步骤.docx

    1. apache-ant-1.10.5-bin.tar.gz:Ant 是一个 Java 编写的构建工具,用于自动化构建过程,如编译、打包和测试。 2. apache-nutch-2.2.1-src.tar.gz:这是 Nutch 2.2.1 的源代码包。 3. apache-tomcat-8.5.39.tar.gz...

    apache-nutch-2.3.1-src.tar.gz

    4. **LICENSE**: Nutch 的许可协议,它是 Apache License 2.0,允许自由使用、修改和分发。 5. **NOTICE**: 提供了关于 Nutch 使用的第三方库和组件的版权信息。 6. **ivy.xml**: Ivy 文件用于管理 Nutch 的依赖库...

    搭建nutch开发环境步骤

    在Nutch根目录下运行Maven命令来编译和安装Nutch: ```bash mvn clean install -DskipTests ``` 这将编译Nutch源代码,并将其安装到你的本地Maven仓库。 **步骤七:创建Nutch数据库** 在Nutch的根目录下,初始化...

    Nutch 1.3 学习笔记

    - **Nutch 2.0的主要变化**:学习笔记的最后一章概览了从Nutch 1.3过渡到Nutch 2.0的关键差异和改进,这对于理解Nutch的演进方向至关重要。 综上所述,Nutch 1.3是一款功能全面且高度可定制的网页抓取工具,通过...

    nutch工具包

    3. **LICENSE.txt**:文件包含了Nutch项目的授权协议,通常是Apache License 2.0,允许用户自由地使用、修改和分发Nutch的源代码。 4. **CHANGES.txt**:记录了从上一个版本到当前版本的所有变更,包括新功能、bug...

    eclipse配置nutch,eclipse配置nutch

    在IT领域,Apache Nutch是一款开源的Web爬虫项目,用于抓取网页并进行索引。而Eclipse作为一款流行的集成开发环境(IDE),被广泛应用于Java开发中。本文将详细解析如何在Eclipse中配置Nutch,以便于开发者更好地...

    nutch2.2.1-src

    2. **源码编译**:使用Maven或Ant命令编译源码,生成可执行的Nutch二进制文件。 3. **配置Nutch**:修改`conf/nutch-site.xml`等配置文件,设置爬虫的启动参数,如抓取范围、URL过滤规则等。 4. **创建数据库**:...

    nutch的源码解读和nutch入门

    Nutch 是一个开源的全文搜索引擎项目,它基于 Lucene 构建,旨在提供类似 Google 的搜索引擎服务。Nutch 的核心特点在于其分布式处理能力,它利用 Hadoop 平台进行大规模的数据处理,使得搜索引擎能够处理海量的网页...

    windows下安装nutch

    9. **测试Nutch**:在配置完成后,可以运行Nutch的测试命令,如`bin/nutch test`,来验证Nutch是否能正常工作。这将执行一系列检查,确保所有必需的服务和组件都已就绪。 通过以上步骤,你就可以在Windows环境下...

    nutch

    **Nutch 概述** Nutch 是一个开源的网络爬虫项目,主要设计用于抓取、索引和搜索互联网上的网页。它由 Apache 软件基金会开发,并且是 Hadoop 的一部分,这意味着它能够利用分布式计算来处理大规模的数据抓取任务。...

Global site tag (gtag.js) - Google Analytics