最近用到了nutch,目的是针对指定的一些网站抓取其内容,然后做分析用。
nutch 笔记是我使用nutch过程一系列总结,写下自己的学习经过和大家一起分享,也希望能得到大家的指点
好了,废话少说,言归正传,第一篇:Quick Start,我们的目标是快速的能跑起来,能检索出我们想要的结果。
首先要明白nutch是什么?
nutch是一个基于lucene的开源搜索引擎,它包括了所有你想要的东西,是一个完整的解决方案 。
一:安装JDK
如果你已经安装了JDK,并且已经设置了JAVA_HOME,那么跳过这一步
安装jdk
sudo apt-get install sun-java5-jdk
或者从sun公司网站下载bin文件执行安装
设置了JAVA_HOME
sudo vi ~/.bashrc
在最后面增加
export JAVA_HOME=/usr/lib/jvm/java-1.5.0-sun
export PATH=$PATH:$JAVA_HOME/bin
二:下载nutch的最新版本nutch0.8.1
wget http://apache.justdn.org/lucene/nutch/nutch-0.8.1.tar.gz
释放下来即可
tar zxvf nutch-0.8.1.tar.gz
三:抓取页面
增加url
cd nutch-0.8.1
mkdir urls
echo http://www.xici.net>>urls/xici
编辑conf/crawl-urlfilter.txt,修改MY.DOMAIN.NAME为
+^http://([a-z0-9]*.)*xici.net/
修改conf/nutch-site.xml,增加http.agent.name值
<property>
<name>http.agent.name</name>
<value>test/unique</value>
</property>
执行bin/nutch crawl开始抓取页面
sudo bin/nutch crawl urls -dir crawl -depth 5 -topN 50&
这个过程需要等待一些时间
三:检索
安装tomcat,我们使用apache网站上的包
cd ..
wget http://mirror.vmmatrix.net/apache/tomcat/tomcat-5/v5.5.20/bin/apache-tomcat-5.5.20.tar.gz
tar zxvf apache-tomcat-5.5.20.tar.gz
将nutch自带的war文件拷贝到webapps下面
rm -rf apache-tomcat-5.5.20/webapps/ROOT*
cp nutch-0.8.1/nutch*.war apache-tomcat-5.5.20/webapps/ROOT.war
运行tomcat,如果不设定nutch-site.xml的searcher.dir的值,则需要在crawl目录下面执行
sudo ${TOMCAT的目录}/bin/startup.sh
我们也可以设定nutch-site.xml的searcher.dir的值
sudo vi ${TOMCAT的目录}/webapps/ROOT/WEB-INF/classes/nutch-site.xml
增加
<property>
<name>searcher.dir</name>
<value>/home/martin/doc/nutch-0.8.1/crawl</value>
</property>
四:中文乱码
修改tomcat的server.xml,在Connector的tag最后增加
URIEncoding="UTF-8"
五:截图
-----------------------
nutch site:http://lucene.apache.org/nutch
nutch wiki:http://wiki.apache.org/nutch/
下一篇笔记:Nutch 笔记(二):Craw more urls and Recrawl:
http://martin.iteye.com/blog/27193
分享到:
相关推荐
《Lucene 2.4与Nutch学习笔记:在多文档中搜索关键词》 Lucene是一个高性能、全文检索库,而Nutch则是一个开源的网络爬虫项目,两者结合使用,能够实现对大量文本文档的高效搜索和索引。这篇学习笔记主要探讨如何...
《Nutch入门经典翻译1:Introduction to Nutch, Part 1: Crawling》一文深入介绍了Nutch这一开源网络爬虫框架的基本概念、体系结构及其关键组件,为初学者提供了全面的理解视角。以下是对该文章核心知识点的详细解读...
在构建一个功能完备的搜索引擎系统时,Apache Nutch是一个重要的开源选择。Nutch-0.9是Nutch的一个较早版本,虽然相比最新的版本可能功能稍显简陋,但对于初学者或者对特定需求的项目来说,它依然具有很高的学习价值...
Nutch 是一个开源的、基于 Lucene 的网络搜索引擎项目,它提供了一套完整的搜索引擎解决方案,包括网页抓取、索引和搜索功能。Nutch 0.8 版本尤其值得关注,因为它完全使用 Hadoop 进行了重写,从而充分利用了 ...
- **Nutch 2.0的主要变化**:学习笔记的最后一章概览了从Nutch 1.3过渡到Nutch 2.0的关键差异和改进,这对于理解Nutch的演进方向至关重要。 综上所述,Nutch 1.3是一款功能全面且高度可定制的网页抓取工具,通过...
Nutch 是一个开源的 Java 搜索引擎,它提供了从爬虫到搜索的全套工具,使用户能够构建自己的搜索引擎。Nutch 的主要组成部分包括两个关键角色:Crawler 和 Searcher。 1. **Crawler**: Crawler 负责抓取互联网上...
- 在 `nutch\bin` 目录下创建一个名为 `urls` 的目录,并在其中创建一个文本文件 `url.txt`,列出想要抓取的目标网站。 - 例如:`http://www.sina.com.cn` - 例如:`http://133.40.188.130:8880/klms` 5. **配置...
### Nutch 学习笔记之第一天初学 在IT领域,特别是搜索引擎开发和技术研究方向,Apache Nutch无疑是一个值得关注的开源项目。Nutch是Apache软件基金会的一个子项目,旨在为开发者提供一个高度可扩展且可定制化的...
Apache Nutch 是一个开源的网络爬虫框架,用于抓取互联网上的网页并生成索引,以便于搜索引擎使用。本文将详细介绍如何在Windows环境下配置Nutch 1.4,并使用Eclipse进行开发。以下是你需要知道的关键步骤: 1. **...
Apache Nutch 是一个开源的网络爬虫项目,用于抓取互联网上的网页并建立索引,以便于搜索引擎进行高效的信息检索。Nutch-GUI(图形用户界面)是 Nutch 的一部分,为用户提供了一个友好的交互界面,使得配置、管理和...
Nutch是一个开源的、用Java编写的搜索引擎工具,它允许用户构建和部署自己的搜索引擎。通过学习和应用Nutch,用户可以理解搜索引擎的工作原理,透明度较高,因为其源代码是开放的,任何人都可以查看其排序算法是如何...
Nutch是一个开源的全文搜索引擎项目,它主要专注于网络爬虫和信息提取。Nutch以其强大的可扩展性和灵活性,被广泛用于构建大规模的网页抓取和索引系统。在这个初体验中,我们将深入探讨Nutch的核心功能、工作原理...
1. **操作系统**:Nutch可以在Windows XP或Windows 2000+上运行,但需要注意的是,Nutch的原生脚本是为类Unix环境设计的,因此需要一个类似shell的环境。 2. **Java VM**:安装Nutch需要Java开发环境,至少需要Java...
## Nutch2.3.1新闻分类爬虫内容项目介绍本项目基于https://github.com/xautlx/nutch-ajax.git的nutch-ajax项目功能很强大,本项目在此基础上,对nutch-ajax项目做了一些精简和优化,对Nutch版本进行升级,♡Mybatis...
Nutch是一个开源的Web搜索引擎框架,基于Java编写,它使用Lucene作为搜索引擎核心。Nutch能够抓取网站并建立索引,实现全文搜索功能。Cygwin是一个在Windows环境下运行的类Unix模拟环境,它提供一个庞大的类Unix工具...
Nutch AJAX page Fetch, Parse, Index Plugin项目简介基于Apache Nutch 2.3和Htmlunit, Selenium WebDriver等组件扩展,实现对于AJAX加载类型页面的完整页面内容抓取,以及特定数据项的解析和索引。According to the...
Nutch2.3.1是Apache Nutch的一个稳定版本,它是一个开源的网络爬虫框架,主要用于抓取、解析和索引互联网上的网页内容。在本文中,我们将深入探讨如何搭建Nutch2.3.1的运行环境,以便进行网页抓取和分析。 **一、...