`

Nutch0.8.1学习笔记(1)

阅读更多

近来一直想用Nutch建立一个校内的资源搜索引擎,却没想到有中文分词引发出来一大堆问题。在此做个记录。

1. Cygwin下,Nutch0.8.1启动Crawl的时候找java.exe出错,路径错误找不到。解决方法是修改bin/nutch文件,78行的 JAVA=$Nutch_JAVA_HOME/bin/java ,去掉前面的$Nutch_JAVA_HOME,修改为JAVA=java。条件是系统中环境变量PATH中包含了jdk/bin。

2. 0.7版本的Nutch拿回来设置urls规则和起始URL后可以直接使用bin/nutch crawl......来启动,但0.8.1版本这样启动会发现fetch起始URL的时候会出现Null指针错误。原因是conf/nutch-default.xml中的http.agent.name配置属性为空。而其说明中要求不为空。在value节点下随便写入一个值,例如test/unique。然后再启动Nutch,OK.

分享到:
评论

相关推荐

    Nutch 1.3 学习笔记

    ### Nutch 1.3 学习笔记:深入解析与应用 #### 一、Nutch 1.3:概述与核心功能 Nutch 1.3 是一款强大的、开源的网页抓取工具,专为大规模互联网数据抓取设计。它不仅能够收集网页数据,还能进一步分析、构建索引,...

    Nutch全文搜索学习笔记

    ### Nutch全文搜索学习笔记 #### 一、Nutch安装与配置 **1. Linux环境下的JDK安装** 为了能够顺利地安装并运行Nutch,首先确保系统中已安装Java Development Kit (JDK) 并且正确配置了`JAVA_HOME`环境变量。如果...

    nutch学习笔记之第一天初学

    ### Nutch 学习笔记之第一天初学 在IT领域,特别是搜索引擎开发和技术研究方向,Apache Nutch无疑是一个值得关注的开源项目。Nutch是Apache软件基金会的一个子项目,旨在为开发者提供一个高度可扩展且可定制化的...

    分享一个Nutch入门学习的资料

    压缩包中的“Nutch.pdf”可能是Nutch的官方文档、教程或者是博主整理的学习笔记。这份PDF文档通常会详细讲解Nutch的架构、工作流程、配置方法,以及一些示例和最佳实践。学习者可以通过阅读这份文档,系统地了解...

    lucene2.4+nutch学习笔记三:lucene 在多个文本文档里找出包含一些关键字的文档

    《Lucene 2.4与Nutch学习笔记:在多文档中搜索关键词》 Lucene是一个高性能、全文检索库,而Nutch则是一个开源的网络爬虫项目,两者结合使用,能够实现对大量文本文档的高效搜索和索引。这篇学习笔记主要探讨如何...

    nutch二次开发学习笔记

    我们需要去抓取网页数据的时候我们就用nutch来爬取,我们对它进行二次开发使其更加符合我们的需求

    Apache Nutch 1.7 学习总结

    **Apache Nutch 1.7 学习总结** Apache Nutch 是一个开源的网络爬虫框架,用于抓取互联网上的网页并进行索引,为搜索引擎提供数据基础。Nutch 1.7 版本是其稳定的一个分支,适用于学习和实际项目应用。本文将详细...

    Nutch 0.8笔记NUTCHNUTCH

    1. **文档阅读**:深入了解 Nutch 需要阅读官方提供的文档,如 "Introduction to Nutch, Part 1 Crawling" 和 "Introduction to Nutch, Part 2 Searching",以及源代码。Nutch 的源码结构清晰,便于理解和学习。 2....

    基于lucene和nutch的开源搜索引擎资料集合

    Nutch全文搜索学习笔记.doc Yahoo的Hadoop教程.doc [硕士论文]_基于Lucene的Web搜索引擎实现.pdf [硕士论文]_基于MapReduce的分布式智能搜索引擎框架研究.pdf [硕士论文]_基于Nutch的垂直搜索引擎的分析与实现.pdf ...

    nutch帮助文档;nutch学习 入门

    1. **Nutch简介** Nutch是一个高度可扩展的开源搜索引擎,它提供了网页抓取、解析、过滤、索引和搜索等功能。Nutch最初设计的目标是创建一个与商业搜索引擎相媲美的开放源代码搜索解决方案,用于企业内部或特定领域...

    开发基于 Nutch 的集群式搜索引擎

    - 安装Nutch 0.8.1版本。 - 配置Hadoop环境,确保Nutch能够在Hadoop集群中正常工作。 - 设置主节点(RHAS 3.0)和从节点(Debian GNU/Linux 3.1)。 - 启动SSH服务。 3. **配置Nutch爬虫**: - 在Nutch配置...

    eclipse配置nutch,eclipse配置nutch

    在IT领域,Apache Nutch是一款开源的Web爬虫...这不仅为学习和研究Nutch提供了便利,也为实际应用中的数据采集和分析打下了坚实的基础。记住,配置过程中遇到任何问题,都可以查阅官方文档或社区论坛,寻求解决方案。

    nutch使用&Nutch;入门教程

    1. 抓取(Crawling):Nutch通过配置的种子URL开始,逐页抓取网页,并将这些页面存储在本地或分布式存储系统中。 2. 分析(Parsing):抓取的网页会被解析,提取出元数据(如标题、URL、链接等)和内容文本。 3. ...

    nutch2.2.1安装步骤.docx

    例如,创建名为 `nutch_test` 的数据库,采用 `latin1` 字符集和 `latin1_swedish_ci` 排序规则。然后创建一个名为 `collection1_webpage` 的表,该表包含了网页的各种属性,如 ID、抓取时间、修改时间、内容等。 ...

    Nutch配置环境\Nutch1[1].4_windows下eclipse配置图文详解.docx

    (1)在conf/nutch-default.xml中,将`plugin.folders`的值更改为`./src/plugin`。 (2)创建一个名为urls的目录,里面放一个txt文件,包含你要抓取的初始网址。在conf/nutch-site.xml中,添加`http.agent.name`...

Global site tag (gtag.js) - Google Analytics