最近开始研究nutch,从apache网站上下载了最新的nutch-1.2包,然而在用ant buildfile导入工程时遇到了一些小小的问题,经过多方查找,终于得以解决,现记录如下。
1.导入工程后通常会发现org.apache.nutch.searcher包里的DdistributedSegmentBean.java文件会有一个错误,位置在第119行的以下这一段。
for (InetSocketAddress addr : segmentServers) {
SegmentBean bean = (RPCSegmentBean) RPC.getProxy(RPCSegmentBean.class,
FetchedSegments.VERSION, addr, conf);
beanList.add(bean);
}
解决办法:在build path里加入jre标准库就可以了,默认的只添加了dt.jar包
2.导入工程后,使用ant编译时,会产生如下异常:
Nutch\nutch-0.9\build.xml:61: Specify at least one source--a file or resource collection.
其原因是ant的buildfile文件build.xml里用到了*.template文件(通常是62-69行),但是在conf目录中并没有对应的文件存在。
解决的办法有两种,一是注释掉build.xml文件中的这几行。二是到相关网站上去下载对应的文件,放到conf目录下,地址是
http://svn.apache.org/viewvc/nutch/tags/release-1.2/conf/
分享到:
相关推荐
在IT领域,Apache Nutch是一款开源的Web爬虫项目,用于抓取网页并进行索引。而Eclipse作为一款流行的集成开发环境(IDE),被广泛应用...记住,配置过程中遇到任何问题,都可以查阅官方文档或社区论坛,寻求解决方案。
因此,Nutch 可以看作是 Lucene 的一个应用,提供了一个完整的搜索引擎解决方案。如果你已经有数据源,只需要搜索功能,可以直接使用 Lucene。而当你需要从网上抓取数据并进行搜索时,Nutch 就是更好的选择。 4. **...
本文将深入探讨Nutch在摘要生成过程中可能遇到的问题以及解决方案。 首先,我们要明白Nutch的摘要生成机制。Nutch采用了一种基于TF-IDF(词频-逆文档频率)的算法来生成摘要,该算法考虑了关键词在文档中的重要性。...
nutch配置nutch-default.xml
本文将详细介绍如何在Nutch 10版本中配置代理,并解决在配置过程中可能遇到的问题。 #### 配置文件说明 Nutch 10配置文件主要分为几个部分: 1. **Crawling Configuration**:爬虫配置文件,包括`conf/crawl-...
同时,遇到问题时,查看错误日志和堆栈跟踪是定位问题的关键。 11. **Nutch与其他系统集成** Nutch可以与HBase、Cassandra等NoSQL数据库集成,用于存储大量抓取数据。此外,也可以与Apache Tika一起工作,提取网页...
在安装和配置 Nutch 开发环境时,可能会遇到各种问题,以下是对这些问题的详细解答。 首先,确保你已经下载了 Nutch 的正确版本。Nutch 的官方网站可能只提供最新的稳定版本,如 1.6 或 2.1。如果需要其他版本,...
解决方法是在Cygwin安装目录下的`.bashrc`文件中,将`LANG`和`LC_ALL`变量值设为`en_US.GBK`,重启Cygwin或直接在终端中输入相应命令,即可避免该错误。 #### 六、Solr验证与配置 解压Solr包后,使用Cygwin进入其`...
- 接着,`NutchConfiguration`会调用`addNutchResources(conf)`方法,向`Configuration`对象添加Nutch自己的配置资源,如`Nutch-default.xml`和用户定义的`Nutch-site.xml`,这里的`Nutch-site.xml`会覆盖`Nutch-...
在抓取过程中,可能会遇到一些问题,例如环境变量配置不正确或Nutch配置文件的错误。务必检查错误日志(如`crawl.log`)以定位问题所在。 最后,JDK是运行Nutch所必需的。从Oracle官网下载JDK安装程序(如...
- **解决方案**: 修改 Cygwin 安装目录下的 `.bashrc` 文件,将 `LANG` 变量值设为 `"en_US.GBK"`。重启 Cygwin 或直接执行以下命令临时生效: ``` export LANG="en_US.GBK" export LC_ALL="en_US.GBK" ``` ##...
本文将详细介绍如何在Windows环境下配置Nutch 1.4,并使用Eclipse进行开发。以下是你需要知道的关键步骤: 1. **安装JDK**: 在配置Nutch之前,首先确保已安装Java Development Kit (JDK)。这里推荐使用JDK 1.6。...
- 解决方案可能包括修改Nutch或Hadoop的配置文件,例如`core-site.xml`,以适应Windows环境,或者在Windows上安装支持这些Unix命令的工具,如Cygwin。 4. **Nutch配置文件**: - Nutch运行还需要配置一系列的配置...
nutch常见问题归总,对初学nutch的一些问题做出的整理
Nutch的设计目标是提供一种灵活、可扩展的搜索解决方案,可以作为企业内部搜索引擎或者构建大型分布式搜索引擎的基础。 二、Nutch工作流程 1. 抓取(Crawling):Nutch通过配置的种子URL开始,逐页抓取网页,并将...
Nutch2.3.1是Apache Nutch的一个稳定版本,它是一个开源的网络爬虫框架,主要用于抓取、解析和索引互联网上的网页...同时,文档`Nutch环境搭建.docx`和`配置文件`将提供更具体的指导,帮助你在遇到问题时找到解决方案。