最近一直在看lucene,了解到了 nutch,也同时了解了下 hadoop。
要在windows平台上使用nutch、hadoop ,需要安装cygwin,这个工具的安装很多blog上面都有介绍。我就不详细说了。关键是大家在安装的时候 选择把openssh也安装上。
这里先只说说我是如何运行起nutch的。
首先说下我的目录结构
F:
cygwin/
bin
...
hadoop/
bin
....
nutch-0.9/
bin
...
javaEEServer/
tomcat6.0/
bin
....
首先进入nutch-0.9,创建文件夹urls,然后在该文件夹下面创建文件urls.txt,然后在该文本文件中输入你想抓取的站点,我这里以www.whieb.com 为例子。然后在进入nutch-0.9/conf下面,修改nutch-site.xml为如下。
<?xml version="1.0"?>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>
<!-- Put site-specific property overrides in this file. -->
<!--修改前-->
<configuration>
</configuration>
============
<?xml version="1.0"?>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>
<!-- Put site-specific property overrides in this file. -->
<!--修改后-->
<configuration>
<property>
<name>http.agent.name</name>
<value>nutch-0.9</value>
<description></description>
</property>
<property>
<name>http.agent.description</name>
<value>my agent</value>
<description></description>
</property>
<property>
<name>http.agent.url</name>
<value>http://www.whieb.com</value>
<description></description>
</property>
<property>
<name>http.agent.email</name>
<value>esteem_84@163.com</value>
<description></description>
</property>
</configuration>
然后在修改文件craw-urlfilter.txt文件为:
# The url filter file used by the crawl command.
# Better for intranet crawling.
# Be sure to change MY.DOMAIN.NAME to your domain name.
# Each non-comment, non-blank line contains a regular expression
# prefixed by '+' or '-'. The first matching pattern in the file
# determines whether a URL is included or ignored. If no pattern
# matches, the URL is ignored.
# skip file:, ftp:, & mailto: urls
-^(file|ftp|mailto):
# skip image and other suffixes we can't yet parse
-\.(gif|GIF|jpg|JPG|png|PNG|ico|ICO|css|sit|eps|wmf|zip|ppt|mpg|xls|gz|rpm|tgz|mov|MOV|exe|jpeg|JPEG|bmp|BMP)$
# skip URLs containing certain characters as probable queries, etc.
-[?*!@=]
# skip URLs with slash-delimited segment that repeats 3+ times, to break loops
-.*(/.+?)/.*?\1/.*?\1/
# accept hosts in MY.DOMAIN.NAME
#+^http://([a-z0-9]*\.)*MY.DOMAIN.NAME/
+^http://www.whieb.com/
# skip everything else
-.
然后在nutch-0.9目录下建立一个logs文件夹,用来存放日志文件。
到此文件的目录应该为:
f:\nutch-0.9
bin
conf
...
logs
urls
然后启动cygwin,
执行如下命令:
其中命令:
bin/nutch crawl urls -dir mydir -depth 4 -threads 4 -topN 50 >&log1.log 为进行抓取
urls指定抓取的网站的目录
-dir指定抓取结果存放到哪里
-depth 指定抓取深度
-threads 指定开启多少个线程进行抓取
-topN 指定每个站点最多抓取多少
>&log1.log 指定日志存放的路径
执行完毕这些后,我们会发现在nutch-0.9目录下面会出现一个 mydir的目录,里面就是抓取获得的数据
然后,我们开始部署nutch的web应用,将nutch-0.9目录下面的nutch-0.9.war包拷贝到tomcat下面的webapps下面,然后启动服务器,tomcat会主动将该war包解包,我们进入解开的文件夹,进入到WEB-INF下面的class目录,修改nutch-site.xml为:
<?xml version="1.0"?>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>
<!-- Put site-specific property overrides in this file. -->
<configuration>
<property>
<name>http.agent.name</name>
<value>nutch-0.9</value>
<description></description>
</property>
<!-- file properties -->
<property>
<name>searcher.dir</name>
<value>F:\\nutch-0.9\\mydir</value>
<description></description>
</property>
</configuration>
然后在重新启动tomcat,在浏览器中 运行:
http://127.0.0.1:8080/nutch-0.9,应该会看到如下的页面:
然后 我们可以进行搜索:
这样我们就搭建了nutch的应用。这只是一个初步的应用,具体的nutch的学习还得进一步进行。
PS:如果遇到中文乱码,可以修改下tomcat的server.xml文件,将其修改为:
<Connector port="8080" protocol="HTTP/1.1"
connectionTimeout="20000"
redirectPort="8443" URIEncoding="UTF-8" useBodyEncodingForURI="true"/>
- 大小: 64.3 KB
- 大小: 55.9 KB
- 大小: 96 KB
分享到:
相关推荐
Nutch是Apache软件基金会开发的一款开源的网络爬虫项目,主要用于收集、索引和搜索互联网上的数据。这个“Nutch使用&Nutch;入门教程”将带你深入理解Nutch的基本概念、工作流程以及如何实际操作它来执行网络爬取任务...
在IT领域,Apache Nutch是一款开源的Web爬虫项目,用于抓取网页并进行索引。而Eclipse作为一款流行的集成开发环境(IDE),被广泛应用于Java开发中。本文将详细解析如何在Eclipse中配置Nutch,以便于开发者更好地...
**Nutch 概述** Nutch 是一个开源的网络爬虫项目,主要设计用于抓取、索引和搜索互联网上的网页。它由 Apache 软件基金会开发,并且是 Hadoop 的一部分,这意味着它能够利用分布式计算来处理大规模的数据抓取任务。...
Apache Nutch 是一个开源的网络爬虫框架,用于抓取互联网上的网页并建立索引,以便进行全文搜索。Nutch 2.2.1 是一个稳定版本,它依赖于其他几个组件来完成其功能,包括 Apache Ant、Apache Tomcat、Java 开发工具包...
资源名称:Nutch相关框架视频教程资源目录:【】Nutch相关框架视频教程1_杨尚川【】Nutch相关框架视频教程2_杨尚川【】Nutch相关框架视频教程3_杨尚川【】Nutch相关框架视频教程4_杨尚川【】Nutch相关框架视频教程5_...
- 运行Nutch的基本命令,如抓取种子URL (`bin/nutch inject`), 分析网页 (`bin/nutch fetch`), 解析内容 (`bin/nutch parse`), 更新数据库 (`bin/nutch updatedb`),生成索引 (`bin/nutch index`). 5. **Nutch 与 ...
【Nutch 0.8 知识点详解】 Nutch 是一个开源的、基于 Lucene 的网络搜索引擎项目,它提供了一套完整的搜索引擎解决方案,包括网页抓取、索引和搜索功能。Nutch 0.8 版本尤其值得关注,因为它完全使用 Hadoop 进行了...
Nutch是Apache软件基金会开发的一款开源搜索引擎项目,主要用于抓取、索引和搜索Web内容。作为初学者,了解和掌握Nutch的相关知识是探索搜索引擎技术的第一步。本篇将深入探讨Nutch的基本概念、功能、架构以及如何...
Nutch是一个基于Java开发的开源网络爬虫搜索引擎,它是Apache软件基金会项目之一,主要用于抓取网页,索引网页内容,并且支持全文搜索。Nutch搜索引擎能够对局域网和整个Web进行爬取,且提供了一个命令行工具来控制...
Nutch是Apache软件基金会开发的一款开源搜索引擎项目,主要用于网络数据抓取和索引。这个“Nutch入门教程 高清 带书签”的资源,很显然是为了帮助初学者快速理解并掌握Nutch的基本操作和核心概念。下面,我们将深入...
Nutch 是一个开源的、Java 实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具。 目 录 1. nutch简介...1 1.1什么是nutch..1 1.2研究nutch的原因...1 1.3 nutch的目标..1 1.4 nutch VS lucene.....2 2....
Nutch2.3.1是Apache Nutch的一个稳定版本,它是一个开源的网络爬虫框架,主要用于抓取、解析和索引互联网上的网页内容。在本文中,我们将深入探讨如何搭建Nutch2.3.1的运行环境,以便进行网页抓取和分析。 **一、...
Nutch是Apache软件基金会的一个开源项目,主要用于构建网络搜索引擎。这个开发资料压缩包包含了与Nutch相关的源代码和可能的配置文件,可以帮助开发者深入了解和学习Nutch的工作原理以及如何进行定制化开发。以下是...
### Nutch插件开发知识点详解 #### 一、Nutch插件系统概述 Nutch是一款开源的网络爬虫工具,其强大的灵活性与扩展性得益于其独特的插件系统设计。插件(Plugin)作为Nutch的核心组件之一,为用户提供了一种灵活的...
Nutch-1.5.1源码是Apache Nutch项目的一个重要版本,它是一个高度可扩展的、开源的网络爬虫和全文搜索引擎框架。Nutch最初由Doug Cutting创建,后来成为了Hadoop项目的一部分,因为其在大数据处理和分布式计算方面的...
Nutch是Apache软件基金会的一个开源项目,主要用于构建网络搜索引擎。它提供了一个可扩展的、高度模块化的框架,用于抓取、解析网页,并建立索引,是大数据和信息检索领域的重要工具。下面,我们将详细讲解如何搭建...