`
king_sky_wjb
  • 浏览: 2673 次
  • 性别: Icon_minigender_1
  • 来自: 兰州
最近访客 更多访客>>
社区版块
存档分类
最新评论

Nutch入门白话版

阅读更多

不得不说,Nutch的入门官方文档写的真不清晰明了。害的我按照官方文档折腾半天。

 

Nutch现在已经到了2.2.2版本,而且版本1.x已经更新到了1.8,这里以1.7为例,1.8中的部分命令行工具的API有变,入门时不是很容易。

 

#安转运行Nutch#

 

- 下载安装Nutch

- 在${NUTCH_HOME}下,mkdir urls

- cd urls

- touch seed.txt

- edit seed.txt ,write :http://nutch.apache.org

- edit ${NUTCH_HOME}/conf/regex.urlfilter.txt

- replace

 

```

'#accept anything else

+.

 

```

 

with

 

```

+^http://([a-z0-9]*\.)*nutch.apache.org/

 

```

 

- 爬取网页: bin/nutch crawl urls -dir crawl -depth 3 -topN 5

注意:此命令1.8版本有改变

 

#安装Solr#

 

- 下载安装Solr,我使用的时最新版的4.8

- cd ${SOLR_HOME}/example

- java -jar start.jar

- 验证安装:http://localhost:8983/solr/

 

#Nutch和Solr集成#

这里要注意:文档说了那么多其实只有两件事:

+ 使用${NUTCH_HOME}/conf/schema-solr4.xml 替换掉${SOLR_HOME}/example/solr/collection1/conf/schema.xml ,并将schema-solr4.xml改名为schema.xml

+ 在schema.xml中第351行后面(其实只要添加在types标签中即可)添加:<field name="_version_" type="long" indexed="true" stored="true"/>

 

到这里集成就完成了。现在只要重新启动solr,并用下面的命令将Nutch爬取的数据索引到solr即可。

 

在${NUTCH_HOME}下,运行:

 

```

bin/nutch solrindex http://127.0.0.1:8983/solr/ crawl/crawldb -linkdb crawl/linkdb crawl/segments/*

 

```

然后访问:http://localhost:8983/solr/

 

分享到:
评论

相关推荐

    Nutch入门教程 高清 带书签

    这个“Nutch入门教程 高清 带书签”的资源,很显然是为了帮助初学者快速理解并掌握Nutch的基本操作和核心概念。下面,我们将深入探讨Nutch的相关知识点。 一、Nutch简介 Nutch是一个强大的Web爬虫框架,它提供了从...

    Nutch入门教程.pdf

    以上内容构成了Nutch入门教程的核心知识点,从简介、安装配置、初体验、基本原理、分析方法、分布式文件系统以及应用等多方面,详细介绍了Nutch框架及其使用方法,为对搜索引擎感兴趣的用户提供了一个全面的学习资源...

    分享一个Nutch入门学习的资料

    标题中的“Nutch入门学习”指的是Apache Nutch,这是一个开源的网络爬虫项目,用于抓取Web内容并建立搜索引擎。Nutch是大数据处理框架Hadoop的一个重要组成部分,它使用Hadoop进行分布式数据存储和处理。Nutch的学习...

    nutch使用&Nutch;入门教程

    “Nutch使用.pdf”和“Nutch入门教程.pdf”这两份文档将详细介绍如何从零开始使用Nutch,包括环境搭建、配置、启动爬虫、监控爬虫状态、查看抓取结果和索引数据等。通过这些教程,你可以快速掌握Nutch的基本操作,并...

    nutch入门.pdf

    Nutch是一个开源的、用Java编写的搜索引擎工具,它允许用户构建和部署自己的搜索引擎。通过学习和应用Nutch,用户可以理解搜索引擎的工作原理,透明度较高,因为其源代码是开放的,任何人都可以查看其排序算法是如何...

    Nutch入门.rar

    Nutch入门学习 7.1 概述...41 7.2 MapReduce.......41 7.3 文件系统语法......42 7.4 文件系统设计......42 7.5 系统的可用性......43 7.6 Nutch文件系统工作架构...43 8. nutch应用.45 8.1 修改源码.....45...

    nutch入门实例教程.pdf

    ### Nutch 入门实例教程知识点总结 #### 1. Nutch 简介 - **定义**: Nutch 是一个开源的 Java 实现的搜索引擎框架,它提供了构建和运行自己搜索引擎所需的所有工具。 - **研究动机**: - **透明度**: 作为开源...

    nutch入门教程

    ### Nutch入门教程知识点解析 #### 1. Nutch简介 **1.1 什么是Nutch** Nutch是一个开源的搜索引擎框架,完全基于Java开发,旨在帮助用户构建和运行自己的搜索引擎。它提供了一系列的工具和服务,使用户能够从...

    nutch帮助文档;nutch学习 入门

    本篇将深入探讨Nutch的基本概念、功能、架构以及如何入门学习。 1. **Nutch简介** Nutch是一个高度可扩展的开源搜索引擎,它提供了网页抓取、解析、过滤、索引和搜索等功能。Nutch最初设计的目标是创建一个与商业...

    nutch入门经典翻译1:Introduction to Nutch, Part 1: Crawling

    《Nutch入门经典翻译1:Introduction to Nutch, Part 1: Crawling》一文深入介绍了Nutch这一开源网络爬虫框架的基本概念、体系结构及其关键组件,为初学者提供了全面的理解视角。以下是对该文章核心知识点的详细解读...

    nutch09版本亲测好用

    Nutch 0.9 是一个历史悠久的开源搜索引擎项目,它主要关注网络爬虫和网页抓取方面的技术。这个版本在当时提供了稳定且功能强大的爬虫框架,被广泛用于数据采集和分析任务。以下是对 Nutch 0.9 版本的一些关键知识点...

Global site tag (gtag.js) - Google Analytics