之前一直在学习网络爬虫heritrix与lucene,并励志用Heritrix+Lucene做毕业设计,自学挺累的,没有一个明确的方向,一直想找个做搜索的公司实习一段时间,眼看就要毕业了,实习的愿望也快泡汤了,现在只想着多接触一些新的东西。
现在开始学习nutch1.4,由于网上的文章很少是关于1.4的,故写了这篇文章希望对一些想学习网络爬虫的人有一些帮助,同时,也希望你们不要向我一样走了很多弯路,废话少说,直接进入正题吧!
nutch官网http://wiki.apache.org/nutch/NutchTutorial有专门的讲解,我现在把它翻译过来,希望对一些想学习的人有用,首先是安转nutch,这个就不介绍了,大家可上官网直接下载就是了。
关于怎么安装JDK以及怎么配置环境变量,这里也不多做介绍,网上有很多的例子。下载完nutch1.4后,比如加压到/home/chenyanting/nutch目录,可使用解压命令:tar zxvf apache-nutch-1.4-bin.tar.gz
解压完以后直接进入/home/chenyanting/nutch/apache-nutch-1.4-bin/runtime/local
在此目录下运行命令 ./bin/nutch 若没有出现下面的内容:
Usage: nutch [-core] COMMAND
where COMMAND is one of:
crawl one-step crawler for intranets
readdb read / dump crawl db
mergedb merge crawldb-s, with optional filtering
readlinkdb read / dump link db
inject inject new urls into the database
generate generate new segments to fetch from crawl db
freegen generate new segments to fetch from text files
fetch fetch a segment's pages
parse parse a segment's pages
readseg read / dump segment data
mergesegs merge several segments, with optional filtering and slicing
updatedb update crawl db from segments after fetching
invertlinks create a linkdb from parsed segments
mergelinkdb merge linkdb-s, with optional filtering
solrindex run the solr indexer on parsed segments and linkdb
solrdedup remove duplicates from solr
solrclean remove HTTP 301 and 404 documents from solr
parsechecker check the parser for a given url
indexchecker check the indexing filters for a given url
domainstats calculate domain statistics from crawldb
webgraph generate a web graph from existing segments
linkrank run a link analysis program on the generated web graph
scoreupdater updates the crawldb with linkrank scores
nodedumper dumps the web graph's node scores
plugin load a plugin and run one of its classes main()
junit runs the given JUnit test
or
CLASSNAME run the class named CLASSNAME
Most commands print help when invoked w/o parame
则要修改nutch解压目录中的runtime/local/bin/nutch脚本的执行权限 chmod 755 nutch
然后在设置JAVA_HOME
export JAVA_HOME='java路径'
然后修改这个目录下的conf/nutch-site.xml文件,加入如下属性:
<property>
<name>http.agent.name</name>
<value>My Nutch Spider</value>
</property>
创建存放url的目录
mkdir -p urls
cd urls
在里面新建文件seeds.txt
往这个文件里面加入你要爬取的地址比如:
http://nutch.apache.org/
修改文件conf/regex-urlfilter.txt,在最后加上
+^http://([a-z0-9]*\.)*nutch.apache.org/(把最后一行覆盖掉)
接着退回到local目录,运行命令:
bin/nutch crawl urls -dir crawl -depth 3 -topN 5
分享到:
相关推荐
nutch1.4帮助文档,学习nutch1.4必备,最新nutch1.4核心类解读!
在Windows平台上部署Nutch 1.4,需预先安装以下工具和软件: 1. **Java JDK 1.7**:Nutch基于Java开发,因此需要安装JDK,并设置相应的环境变量。 2. **Cygwin**:由于Nutch的脚本采用Linux Shell编写,故在Windows...
通过这些步骤,用户可以成功部署 Nutch 并进行简单的网页爬取任务。同时,文中还提供了常见的错误排查方法,帮助用户顺利解决问题。此外,本文还简单介绍了如何验证 Solr 的安装情况,确保整个系统可以正常使用。
Nutch 1.4是该项目的一个稳定版本,发布于2012年,尽管后续有更新的版本,但1.4版本因其稳定性及广泛的应用而备受青睐。在深入探讨Nutch 1.4的知识点之前,我们先来了解一下什么是Apache Nutch。 Apache Nutch是一...
### Nutch 1.4 在 Windows 下 Eclipse 配置图文详解 #### 一、环境准备与配置 **1.1 JDK 安装** - **版本选择**:文档中提到使用了 JDK1.6,官方下载地址为:[JDK6]...
apache-nutch-1.4-bin.tar.gz.part2
在这个"apache-nutch-1.4-bin.tar.gz"压缩包中,包含了运行 Nutch 的所有必要组件和配置文件,适合初学者和开发者快速部署和实验。 **Nutch 的核心组成部分:** 1. **爬虫(Spider)**:Nutch 的爬虫负责在网络中...
在“apache-nutch-1.4-src.tar.gz”这个压缩包中,包含了Nutch 1.4版本的源代码,用户可以根据自己的需求对代码进行定制和扩展。 Nutch 的主要组件包括以下几个方面: 1. **网络爬虫(Crawler)**:Nutch 的网络...
### IT知识点解析:Ubuntu下Nutch配置安装及使用详解 #### 一、环境搭建与配置 **1. Java环境安装** - **下载JDK**: 需要下载适合Ubuntu 10.0版本的JDK文件,本例中下载的是`jdk-6u24-linux-i586.bin.tar.gz`。 -...
apache-nutch-1.4-bin.part2
apache-nutch-1.4-bin.part1
apache-nutch-1.4-bin.tar.gz.part1
Nutch 是一个开源的网络爬虫项目,用于抓取互联网上的网页并建立索引,而Tomcat是一款流行的Java应用服务器,常用来部署Web应用程序。在本文中,我们将深入探讨如何在Tomcat环境下部署Nutch以及解决相关问题。 首先...
本文将详细介绍如何在Windows环境下配置Nutch 1.4,并使用Eclipse进行开发。以下是你需要知道的关键步骤: 1. **安装JDK**: 在配置Nutch之前,首先确保已安装Java Development Kit (JDK)。这里推荐使用JDK 1.6。...
在Eclipse中部署Apache Nutch时,可能会遇到缺少特定库文件的问题,这通常是由于Nutch的依赖管理没有完全覆盖所有必需的组件。本教程将详细解释如何解决在Eclipse环境中部署Nutch时遇到的关于MP3和RTF文件解析的缺失...
5. **部署 Nutch 搜索页面** - 将 Nutch 的 `.war` 文件复制到 Tomcat 的 `webapps` 目录下。 - 重启 Tomcat 服务器,并通过浏览器访问 http://127.0.0.1:8080/nutch-0.9 来检查部署是否成功。 6. **设置查询...
本教程将详细介绍如何在MyEclipse中部署Nutch1.3的工程源码。 首先,我们需要确保具备以下环境: 1. 安装了Java Development Kit (JDK):因为Nutch和MyEclipse都是基于Java的,所以确保系统已安装JDK且版本与Nutch...
在部署Nutch 0.9 时,首先需要将WAR文件部署到Tomcat或其他兼容的Web服务器上。然后,根据项目需求,可以编辑配置文件(如conf/nutch-site.xml)来定制爬虫行为,如设置爬取策略、抓取频率、存储路径等。 7. **...
- 部署Solr到Tomcat,配置Solr的`solrconfig.xml`和`schema.xml`以接收Nutch生成的索引。 - 更新Nutch的配置,使其指向Solr服务器。 **参考文献** - Apache Nutch官方文档 - 相关教程和社区讨论 在完成Nutch ...
【Nutch 知识点详解】 Nutch 是一个开源的 Java 搜索引擎,它提供了从爬虫到搜索的全套工具,使用户能够构建自己的搜索引擎。Nutch 的主要组成部分包括两个关键角色:Crawler 和 Searcher。 1. **Crawler**: ...