`
xxj
  • 浏览: 430121 次
  • 性别: Icon_minigender_1
  • 来自: 上海
社区版块
存档分类
最新评论

Nutch 笔记(一):Quick Start

阅读更多
最近用到了nutch,目的是针对指定的一些网站抓取其内容,然后做分析用。
nutch 笔记是我使用nutch过程一系列总结,写下自己的学习经过和大家一起分享,也希望能得到大家的指点

好了,废话少说,言归正传,第一篇:Quick Start,我们的目标是快速的能跑起来,能检索出我们想要的结果。

首先要明白nutch是什么?
nutch是一个基于lucene的开源搜索引擎,它包括了所有你想要的东西,是一个完整的解决方案 。


一:安装JDK
如果你已经安装了JDK,并且已经设置了JAVA_HOME,那么跳过这一步
安装jdk
sudo apt-get install sun-java5-jdk

或者从sun公司网站下载bin文件执行安装

设置了JAVA_HOME
sudo vi ~/.bashrc

在最后面增加
export JAVA_HOME=/usr/lib/jvm/java-1.5.0-sun
export PATH=$PATH:$JAVA_HOME/bin


二:下载nutch的最新版本nutch0.8.1
wget http://apache.justdn.org/lucene/nutch/nutch-0.8.1.tar.gz


释放下来即可
tar zxvf nutch-0.8.1.tar.gz


三:抓取页面
增加url
cd nutch-0.8.1
mkdir urls
echo http://www.xici.net>>urls/xici


编辑conf/crawl-urlfilter.txt,修改MY.DOMAIN.NAME为
+^http://([a-z0-9]*.)*xici.net/


修改conf/nutch-site.xml,增加http.agent.name值
  <property>
     <name>http.agent.name</name>
     <value>test/unique</value>
  </property>


执行bin/nutch crawl开始抓取页面
sudo bin/nutch crawl urls -dir crawl -depth 5 -topN 50&


这个过程需要等待一些时间

三:检索
安装tomcat,我们使用apache网站上的包
cd ..
wget http://mirror.vmmatrix.net/apache/tomcat/tomcat-5/v5.5.20/bin/apache-tomcat-5.5.20.tar.gz
tar zxvf apache-tomcat-5.5.20.tar.gz


将nutch自带的war文件拷贝到webapps下面
rm -rf apache-tomcat-5.5.20/webapps/ROOT*
cp nutch-0.8.1/nutch*.war apache-tomcat-5.5.20/webapps/ROOT.war


运行tomcat,如果不设定nutch-site.xml的searcher.dir的值,则需要在crawl目录下面执行
sudo ${TOMCAT的目录}/bin/startup.sh


我们也可以设定nutch-site.xml的searcher.dir的值
sudo vi ${TOMCAT的目录}/webapps/ROOT/WEB-INF/classes/nutch-site.xml


增加
  <property>
    <name>searcher.dir</name>
    <value>/home/martin/doc/nutch-0.8.1/crawl</value>
  </property>



四:中文乱码
修改tomcat的server.xml,在Connector的tag最后增加
URIEncoding="UTF-8"


五:截图


-----------------------
nutch site:http://lucene.apache.org/nutch
nutch wiki:http://wiki.apache.org/nutch/


下一篇笔记:Nutch 笔记(二):Craw more urls and Recrawl:http://martin.iteye.com/blog/27193
分享到:
评论
5 楼 w156445045 2013-03-15  
博主我用的是1.6的版本,我没找到conf/crawl-urlfilter.txt这个文件呢
还有那个war文件,楼主找到了没有啊?谢谢。
4 楼 wuwu_papaya 2007-01-07  
请问一下哦,我也装了0.8.1,不过我页面一打开怎么有javascript错误呢,你得有吗
3 楼 xxj 2006-10-15  
在windows下,你安装个cygwin。
2 楼 xxj 2006-10-13  
  thanks
1 楼 xxj 2006-10-13  
some useful resources:

http://today.java.net/pub/a/today/2006/01/10/introduction-to-nutch-1.html
http://today.java.net/pub/a/today/2006/02/16/introduction-to-nutch-2.html

http://www.dbanotes.net/archives/2005/01/nutch_aee.html
http://www.dbanotes.net/web/nutch_1.html

http://hedong.3322.org/archives/000247.html

相关推荐

    lucene2.4+nutch学习笔记三:lucene 在多个文本文档里找出包含一些关键字的文档

    《Lucene 2.4与Nutch学习笔记:在多文档中搜索关键词》 Lucene是一个高性能、全文检索库,而Nutch则是一个开源的网络爬虫项目,两者结合使用,能够实现对大量文本文档的高效搜索和索引。这篇学习笔记主要探讨如何...

    nutch入门经典翻译1:Introduction to Nutch, Part 1: Crawling

    《Nutch入门经典翻译1:Introduction to Nutch, Part 1: Crawling》一文深入介绍了Nutch这一开源网络爬虫框架的基本概念、体系结构及其关键组件,为初学者提供了全面的理解视角。以下是对该文章核心知识点的详细解读...

    nutch-0.9 环境搭建所需最小cygwin

    在构建一个功能完备的搜索引擎系统时,Apache Nutch是一个重要的开源选择。Nutch-0.9是Nutch的一个较早版本,虽然相比最新的版本可能功能稍显简陋,但对于初学者或者对特定需求的项目来说,它依然具有很高的学习价值...

    Nutch 0.8笔记NUTCHNUTCH

    Nutch 是一个开源的、基于 Lucene 的网络搜索引擎项目,它提供了一套完整的搜索引擎解决方案,包括网页抓取、索引和搜索功能。Nutch 0.8 版本尤其值得关注,因为它完全使用 Hadoop 进行了重写,从而充分利用了 ...

    Nutch 1.3 学习笔记

    - **Nutch 2.0的主要变化**:学习笔记的最后一章概览了从Nutch 1.3过渡到Nutch 2.0的关键差异和改进,这对于理解Nutch的演进方向至关重要。 综上所述,Nutch 1.3是一款功能全面且高度可定制的网页抓取工具,通过...

    Windows下配置nutch

    Nutch 是一个开源的 Java 搜索引擎,它提供了从爬虫到搜索的全套工具,使用户能够构建自己的搜索引擎。Nutch 的主要组成部分包括两个关键角色:Crawler 和 Searcher。 1. **Crawler**: Crawler 负责抓取互联网上...

    nutch的安装方法,好用

    - 在 `nutch\bin` 目录下创建一个名为 `urls` 的目录,并在其中创建一个文本文件 `url.txt`,列出想要抓取的目标网站。 - 例如:`http://www.sina.com.cn` - 例如:`http://133.40.188.130:8880/klms` 5. **配置...

    nutch学习笔记之第一天初学

    ### Nutch 学习笔记之第一天初学 在IT领域,特别是搜索引擎开发和技术研究方向,Apache Nutch无疑是一个值得关注的开源项目。Nutch是Apache软件基金会的一个子项目,旨在为开发者提供一个高度可扩展且可定制化的...

    Nutch配置环境\Nutch1[1].4_windows下eclipse配置图文详解.docx

    Apache Nutch 是一个开源的网络爬虫框架,用于抓取互联网上的网页并生成索引,以便于搜索引擎使用。本文将详细介绍如何在Windows环境下配置Nutch 1.4,并使用Eclipse进行开发。以下是你需要知道的关键步骤: 1. **...

    nutch-gui:Apache Nutch Web UI

    Apache Nutch 是一个开源的网络爬虫项目,用于抓取互联网上的网页并建立索引,以便于搜索引擎进行高效的信息检索。Nutch-GUI(图形用户界面)是 Nutch 的一部分,为用户提供了一个友好的交互界面,使得配置、管理和...

    nutch入门.pdf

    Nutch是一个开源的、用Java编写的搜索引擎工具,它允许用户构建和部署自己的搜索引擎。通过学习和应用Nutch,用户可以理解搜索引擎的工作原理,透明度较高,因为其源代码是开放的,任何人都可以查看其排序算法是如何...

    nutch初体验

    Nutch是一个开源的全文搜索引擎项目,它主要专注于网络爬虫和信息提取。Nutch以其强大的可扩展性和灵活性,被广泛用于构建大规模的网页抓取和索引系统。在这个初体验中,我们将深入探讨Nutch的核心功能、工作原理...

    windows下安装nutch

    1. **操作系统**:Nutch可以在Windows XP或Windows 2000+上运行,但需要注意的是,Nutch的原生脚本是为类Unix环境设计的,因此需要一个类似shell的环境。 2. **Java VM**:安装Nutch需要Java开发环境,至少需要Java...

    Nutch-NewsClassify:基于nutch的新闻分类系统

    ## Nutch2.3.1新闻分类爬虫内容项目介绍本项目基于https://github.com/xautlx/nutch-ajax.git的nutch-ajax项目功能很强大,本项目在此基础上,对nutch-ajax项目做了一些精简和优化,对Nutch版本进行升级,♡Mybatis...

    windows下nutch的安装.pdf

    Nutch是一个开源的Web搜索引擎框架,基于Java编写,它使用Lucene作为搜索引擎核心。Nutch能够抓取网站并建立索引,实现全文搜索功能。Cygwin是一个在Windows环境下运行的类Unix模拟环境,它提供一个庞大的类Unix工具...

    nutch-ajax:适用于AJAX的Apache Nutch插件页面获取,解析,索引

    Nutch AJAX page Fetch, Parse, Index Plugin项目简介基于Apache Nutch 2.3和Htmlunit, Selenium WebDriver等组件扩展,实现对于AJAX加载类型页面的完整页面内容抓取,以及特定数据项的解析和索引。According to the...

    Nutch2.3.1 环境搭建

    Nutch2.3.1是Apache Nutch的一个稳定版本,它是一个开源的网络爬虫框架,主要用于抓取、解析和索引互联网上的网页内容。在本文中,我们将深入探讨如何搭建Nutch2.3.1的运行环境,以便进行网页抓取和分析。 **一、...

Global site tag (gtag.js) - Google Analytics