`
lianshisheng
  • 浏览: 28217 次
  • 性别: Icon_minigender_1
  • 来自: 北京
社区版块
存档分类
最新评论

【转】站内搜索引擎Nutch【配置】全过程(ubuntu)

阅读更多
下载:
可以去Apache的官方网页http://www.apache.org/dyn/closer.cgi/lucene/nutch/ 下载最新版的Nutch,目前最新版是nutch-0.9,65M大小。
解压缩,进入bin/就能用。

安装辅助软件(运行环境):
①JDK,Nutch是用java写的一个开源项目,所以要使它正常运行必须安装JDK(也为了能修改nutch),Java 1.4.x以上版本,设置环境变量NUTCH_JAVA_HOME为java虚拟机的安装目录。
②Tomcat,还必须安装Apache's Tomcat 4.x 以上版本。
最后,想得到较好的运行效果,必须有至少1G的剩余空间和一个网速较快的网络。

抓取前的准备工作

输入需要抓取的网站地址
在Nutch的安装目录中建立一个名为 myurl 的文本文件,文件中写入要抓取网站的顶级网址,即要抓取的起始页。
以我要抓取的网页为例,输入:http://www.sdau.edu.cn/
注意:最后一个 “/” 和 conf/crawl-urlfilter.txt 中的内容统一。

更改配置文件 crawl-urlfilter.txt
编辑conf/crawl-urlfilter.txt文件,修改MY.DOMAIN.NAME部分,把它替换为你想要抓取的域名(地址),即把
# accept hosts in MY.DOMAIN.NAME
+^http://([a-z0-9]*\.)*MY.DOMAIN.NAME/
修改为:
# accept hosts in MY.DOMAIN.NAME
+^http://([a-z0-9]*\.)*sdau.edu.cn /


运行 crawl命令抓取网站内容

   运行的命令
·-dir  dirnames    设置保存所抓取网页的目录.
·-depth  depth
表明抓取网页的层次深度
·-delay  delay
表明访问不同主机的延时,单位为“秒”
·-threads  threads    表明需要启动的线程数

实际使用
改变当前工作区为nutch安装目录,运行以下命令行:
          bin/nutch crawl myurl -dir mydir -depth 2 -threads 4 >&logs/logs1.log

在上述命令的参数中,myurl 就是刚才我们创建的那个文件,存放我们要抓取的网址,dir指定抓取内容所存放的目录,depth表示以要抓取网站顶级网址为起点的爬行深度, threads指定并发的线程数。最后的logs/logs1.log表示把显示的内容保存在文件logs1.log中,以便分析程序的运行情况。


可能发生的错误:
1. 如果mydir在运行前已存在,则运行时将报错:mydir already exist。建议先删除这个目录,或者指定其他的目录存放抓取的网页。
   修改 conf/nutch-site.xml
<configuration>
       <property>
            <name>http.agent.name</name>
            <value>HD nutch agent</value>
       </property>
       <property>
            <name>http.agent.version</name>
            <value>1.0</value>
       </property>
</configuration>

如果没有配置此agent,爬取时会出现 Agent name not configured! 的错误。

四.在Tomcat中运行查看结果(在Windows下部署成功,但是在LInux下总是出错)
如果已经抓取成功,则可以在Tomcat上部署了
复制nutch.0.9.war到tomcat目录/webapps

修改/webapps/nutch/WEB-INF/classes/nutch-site.xml :

<nutch-conf>
</nutch-conf>
换成
<nutch-conf>
<property>
       <name>searcher.dir</name>
       <value>Your_crawl_dir_path</value>
</property>
</nutch-conf>
Your_crawl_dir_path指刚才抓取网页时网页保存的文件夹,比如我的就是:/usr/locla/mutch-0.9/bin/mydir
最后在浏览器中输入 http://localhost:8080 /mutch-0.9
输入:机构设置


第1-6项 (共有 31 项查询结果):

山东农业大学
... 学       学校概况 机构设置 招生就业 人 ... 河农场     学院设 ...
http://www.sdau.edu.cn/sdau2005/department.html (网页快照) (评分详解) (anchors) (more from [url]www.sdau.edu.cn[/url])

山东农业大学
... 学       学校概况 机构设置 招生就业 人 ... 介   校史沿革   机构 ...
http://www.sdau.edu.cn/sdau2005/gk3.html (网页快照) (评分详解) (anchors) (more from [url]www.sdau.edu.cn[/url])

山东农业大学学科建设研讨会发言摘要(五)
... 与学位点建设的经验与建 ... 学院学科建设的主要经验 ...
http://weekly.sdau.edu.cn/html2006/2006/xbzl/2007_13_29_6940.htm (网页快照) (评分详解) (anchors) (more from weekly.sdau.edu.cn)

山东农业大学精品课程建设
... 的申报受理机构,接受各省、教 ... 精品课程建设 ...
http://jpkc.sdau.edu.cn/2004-5-12.html (网页快照) (评分详解) (anchors)

电子版文章列表――山东农大报欢迎您
... 年7月5日 机关党委被评 ... 加强学风建设和当前工作 ...
http://weekly.sdau.edu.cn/html2006/2006/xxyw/index.htm (网页快照) (评分详解) (anchors) (more from weekly.sdau.edu.cn)

分享到:
评论

相关推荐

    搜索引擎nutch配置

    **Nutch搜索引擎配置详解** Nutch是一款开源的网络爬虫软件,主要用于收集、索引和搜索互联网上的数据。它在大数据领域中占有重要地位,尤其对于构建自定义搜索引擎的项目非常实用。Nutch的设计理念是模块化,允许...

    分布式搜索引擎nutch开发

    分布式搜索引擎Nutch开发详解 Nutch是一款开源的、基于Java实现的全文搜索引擎,它主要用于构建大规模的网络爬虫系统,并提供了对抓取的网页进行索引和搜索的功能。Nutch与Hadoop紧密集成,能够充分利用分布式计算...

    开源搜索引擎nutch-1.0.part09.rar

    Nutch 是一个开源的、Java 实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具。 nutch 1.0

    nutch框架 搜索引擎

    ### Nutch框架:一个灵活与可扩展的开源搜索引擎 #### 基本概念与起源 Nutch是一款由Nutch组织发起、多个实验室如CommerceNet Labs共同研发的开源Web搜索引擎。其设计初衷旨在提供一个透明、公正的全球网络搜索...

    Nutch搜索引擎(1-5期)

    Nutch搜索引擎·Nutch简介及安装(第1期) Nutch搜索引擎·Solr简介及安装(第2期) Nutch搜索引擎·Nutch简单应用(第3期) Nutch搜索引擎·Eclipse开发配置(第4期) Nutch搜索引擎·Nutch浅入分析(第5期)

    基于lucene和nutch的开源搜索引擎资料集合

    [硕士论文]_基于Nutch的垂直搜索引擎的分析与实现.pdf 一个例子学懂搜索引擎(lucene).doc 中文搜索引擎技术揭密.doc 九大开源搜索引擎介绍.txt 基于Nutch的搜索引擎技术.pdf 基于开源工具搭建小型搜索引擎.pdf 整合...

    Lucene nutch 搜索引擎 开发 实例 源码

    《Lucene与Nutch搜索引擎开发实例详解》 在信息技术领域,搜索引擎已经成为不可或缺的一部分,它们能够高效地处理海量数据,帮助用户快速找到所需信息。本文将深入探讨基于Java的开源搜索引擎框架——Lucene和Nutch...

    Lucene+Nutch搜索引擎开发.王学松源代码

    《Lucene+Nutch搜索引擎开发:王学松源代码解析》 在信息技术日新月异的今天,搜索引擎已经成为了人们获取信息的重要工具。Lucene和Nutch是两个在开源社区广泛使用的搜索引擎技术,它们为开发者提供了构建高效、可...

    lucene+nutch搜索引擎开发源码1

    《lucene+nutch搜索引擎开发源码1》是一个包含开源搜索引擎项目Lucene和Nutch源代码的压缩包,主要针对搜索引擎开发的学习和实践。这个压缩包是书籍《lucene+nutch搜索引擎开发》的一部分,由于源码量较大,因此分为...

    Lucene+Nutch搜索引擎开发

    在探讨“Lucene+Nutch搜索引擎开发”这一主题时,我们需要深入了解Lucene与Nutch这两个开源项目的功能、工作原理以及如何将它们结合起来构建一个高效的搜索引擎。 ### Lucene简介 Lucene是一个高性能、全功能的...

    基于Java的搜索引擎Nutch中文搜索技术研究

    ### 基于Java的搜索引擎Nutch中文搜索技术研究 #### 摘要与背景介绍 随着互联网技术的发展,搜索引擎已成为人们获取信息的重要途径之一。Nutch作为一个优秀的基于Java的开源搜索引擎,其英文搜索功能非常强大,但在...

    Nutch搜索引擎的页面排序修改方法研究.kdh

    Nutch是一个优秀的开放源代码的Web搜索引擎。虽然Nutch的页面排序方法比较合理,但是很多情况下仍然不能 满足需要。分析开源搜索引擎Nutch代码,研究了Nutch的页面排序方法。在Nutch原有的结构基础上提出了3种修改...

    Nutch搜索引擎·Nutch简单应用(第3期)

    Nutch是一个基于Java开发的开源网络爬虫搜索引擎,它是Apache软件基金会项目之一,主要用于抓取网页,索引网页内容,并且支持全文搜索。Nutch搜索引擎能够对局域网和整个Web进行爬取,且提供了一个命令行工具来控制...

    Lucene.Nutch搜索引擎开发

    学习Lucene和Nutch的入门书籍,学习搜索引擎开发值得一看的书籍

    eclipse配置nutch,eclipse配置nutch

    本文将详细解析如何在Eclipse中配置Nutch,以便于开发者更好地理解和操作这一过程。 ### 一、理解Nutch与Eclipse的结合 Nutch是一个基于Hadoop的框架,用于构建可扩展且高性能的网络爬虫。它不仅能够抓取网页,还...

    开发基于 Nutch 的集群式搜索引擎

    ### 开发基于Nutch的集群式搜索引擎 #### Nutch背景知识与架构 Nutch是一款开源搜索引擎,使用Java语言编写,并且依赖于Lucene这一高性能全文搜索引擎库。自Nutch 0.8.0版本起,它完全运行在Hadoop平台上,这使...

    lucene+nutch搜索引擎

    Nutch包含了爬虫、索引和搜索等功能,提供了一站式的搜索引擎解决方案。在学习Nutch时,你需要理解它的爬虫框架、URL管理、网页抓取策略以及与Lucene的集成方式。Nutch能够处理大量的网页数据,通过配置和扩展,可以...

    Lucene+nutch搜索引擎开发

    完整的《Lucene+nutch搜索引擎开发》PDF版一共83.6M,无奈我上传的最高限是80M,所以切成两个。这一个是主文件,还需要下载一个副文件Lucene+nutch搜索引擎开发.z01。解压时直接放到一起,解压这个主文件就行了。

Global site tag (gtag.js) - Google Analytics