`
lujar
  • 浏览: 516475 次
  • 性别: Icon_minigender_1
  • 来自: 杭州
社区版块
存档分类
最新评论

搜索引擎Nutch 0.7.2 试用笔记

阅读更多

  在Google里面搜索了一些Nutch的资料,还真不多。今天画了两个小时搞了一通,把一些心得纪录下来。

我的jdk 是1.5.x ,Tomcat是5.0.x

1 下载0.7.2 版本的包:里面已经包含了war文件,所以不需要Ant编译了

2 安装Cygwin,这个没什么好说的。

3 把Nutch借压缩到D:/nutch

4 在D:/nutch下面建立一个文件 urls (没有后缀)

http://www.xxx.edu.cn/

5 在D:\nutch\conf\crawl-urlfilter.txt里面,加入

+^http://www.xxx.edu.cn/

6 环境变量加入

NUTCH_JAVA_HOME = D:\jdk1.5.0_06

7 打开cygwin窗口,

cd D:\nutch

在D:\nutch下面执行

bin/nutch crawl urls -dir crawled -depth 3 >& crawl.log
这个命令会在当前目录下建立一个crawled的文件夹,然后对刚才的www.xxx.edu.cn的网站开始检索。
层数是3层,一般最好10层。然后结果输出在crawl.log里面
8 将nutch-0.7.2.war拷贝到tomcat/webapps下面,改名nutch
9 在D:\tomcat\conf\Catalina\localhost\ 建立nutch.xml
<Context path="" debug="5" privileged="true" docBase="nutch"/>
10 启动tomcat,等war解开以后,打开
D:\tomcat\webapps\nutch\WEB-INF\classes\nutch-site.xml
修改如下
<nutch-conf>
<property>
    <name>searcher.dir</name>
    <value>D:\nutch\crawled\</value>
</property>
</nutch-conf>
11 D:\tomcat\webapps\nutch\zh\include 下面新建header.jsp,内容就是复制header.html,但是
前面加上
<%@ page 
  contentType="text/html; charset=UTF-8"
  pageEncoding="UTF-8"
%>
在D:\tomcat\webapps\nutch\search.jsp里面,找到并修改为
<jsp:include page="<%= language + "/include/header.jsp"%>"/>
顺便把下面js注释掉
function queryfocus() { 
//search.query.focus();
  }
12 D:\tomcat\conf\server.xml 找到以下段,并修改
    <Connector port="8080"
               maxThreads="150" minSpareThreads="25" maxSpareThreads="75"
               enableLookups="false" redirectPort="8443" acceptCount="100"
               debug="0" connectionTimeout="20000"
               disableUploadTimeout="true"
               URIEncoding="UTF-8" useBodyEncodingForURI="true" />
好了,到此,重启tomcat,访问 http://localhost:8080 就可以看到搜索主页了,而且搜索支持中文
和分词,虽然分得不是很好。
13 接下来一个重要的功能就是增量更新索引。
在D:\nutch下建立recrawl.sh 。内容为
#!/bin/bash
# A simple script to run a Nutch re-crawl
if [ -n "$1" ]
then
  crawl_dir=$1
else
  echo "Usage: recrawl crawl_dir [depth] [adddays]"
  exit 1
fi
if [ -n "$2" ]
then
  depth=$2
else
  depth=5
fi
if [ -n "$3" ]
then
  adddays=$3
else
  adddays=0
fi
webdb_dir=$crawl_dir/db
segments_dir=$crawl_dir/segments
index_dir=$crawl_dir/index
# The generate/fetch/update cycle
for ((i=1; i <= depth ; i++))
do
  bin/nutch generate $webdb_dir $segments_dir -adddays $adddays
  segment=`ls -d $segments_dir/* | tail -1`
  bin/nutch fetch $segment
  bin/nutch updatedb $webdb_dir $segment
done
# Update segments
mkdir tmp
bin/nutch updatesegs $webdb_dir $segments_dir tmp
rm -R tmp
# Index segments
for segment in `ls -d $segments_dir/* | tail -$depth`
do
  bin/nutch index $segment
done
# De-duplicate indexes
# "bogus" argument is ignored but needed due to
# a bug in the number of args expected
bin/nutch dedup $segments_dir bogus
# Merge indexes
ls -d $segments_dir/* | xargs bin/nutch merge $index_dir
在cygwin里面,执行
./recrawl crawled 8
意思是更新索引,目录是crawled,层数8 。还可以把天数跟在后面。执行完毕后要重启Tomcat,因为
Nutch.war里面对查询有缓存。
 
最后可以把这个脚本放到crontab里面,每天夜里2点执行,执行完毕后重新启动Tomcat。
 
 
 
分享到:
评论

相关推荐

    开源搜索引擎nutch-1.0.part09.rar

    Nutch 是一个开源的、Java 实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具。 nutch 1.0

    搜索引擎nutch配置

    **Nutch搜索引擎配置详解** Nutch是一款开源的网络爬虫软件,主要用于收集、索引和搜索互联网上的数据。它在大数据领域中占有重要地位,尤其对于构建自定义搜索引擎的项目非常实用。Nutch的设计理念是模块化,允许...

    分布式搜索引擎nutch开发

    分布式搜索引擎Nutch开发详解 Nutch是一款开源的、基于Java实现的全文搜索引擎,它主要用于构建大规模的网络爬虫系统,并提供了对抓取的网页进行索引和搜索的功能。Nutch与Hadoop紧密集成,能够充分利用分布式计算...

    基于Java的搜索引擎Nutch中文搜索技术研究

    ### 基于Java的搜索引擎Nutch中文搜索技术研究 #### 摘要与背景介绍 随着互联网技术的发展,搜索引擎已成为人们获取信息的重要途径之一。Nutch作为一个优秀的基于Java的开源搜索引擎,其英文搜索功能非常强大,但在...

    基于lucene和nutch的开源搜索引擎资料集合

    [硕士论文]_基于Nutch的垂直搜索引擎的分析与实现.pdf 一个例子学懂搜索引擎(lucene).doc 中文搜索引擎技术揭密.doc 九大开源搜索引擎介绍.txt 基于Nutch的搜索引擎技术.pdf 基于开源工具搭建小型搜索引擎.pdf 整合...

    Nutch搜索引擎(1-5期)

    Nutch搜索引擎·Nutch简介及安装(第1期) Nutch搜索引擎·Solr简介及安装(第2期) Nutch搜索引擎·Nutch简单应用(第3期) Nutch搜索引擎·Eclipse开发配置(第4期) Nutch搜索引擎·Nutch浅入分析(第5期)

    开源搜索引擎nutch-1.0.part01.rar

    Nutch 是一个开源的、Java 实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具。

    Nutch搜索引擎的页面排序修改方法研究.kdh

    Nutch是一个优秀的开放源代码的Web搜索引擎。虽然Nutch的页面排序方法比较合理,但是很多情况下仍然不能 满足需要。分析开源搜索引擎Nutch代码,研究了Nutch的页面排序方法。在Nutch原有的结构基础上提出了3种修改...

    nutch框架 搜索引擎

    ### Nutch框架:一个灵活与可扩展的开源搜索引擎 #### 基本概念与起源 Nutch是一款由Nutch组织发起、多个实验室如CommerceNet Labs共同研发的开源Web搜索引擎。其设计初衷旨在提供一个透明、公正的全球网络搜索...

    linux、webservice、ssl、socket、搜索引擎nutch.rar

    熟悉Nutch的架构,包括爬虫、索引器和查询处理器,以及如何配置和扩展Nutch以适应不同的搜索需求,对于想要构建自定义搜索引擎或者深入理解搜索引擎工作原理的开发者来说非常有价值。 这些技术相互之间有着紧密的...

    Nutch 1.3 学习笔记

    ### Nutch 1.3 学习笔记:深入解析与应用 #### 一、Nutch 1.3:概述与核心功能 Nutch 1.3 是一款强大的、...无论是对于数据科学家、搜索引擎开发者还是研究者来说,掌握Nutch的核心概念和操作流程都是极其有价值的。

    lucene+nutch搜索引擎开发源码1

    《lucene+nutch搜索引擎开发源码1》是一个包含开源搜索引擎项目Lucene和Nutch源代码的压缩包,主要针对搜索引擎开发的学习和实践。这个压缩包是书籍《lucene+nutch搜索引擎开发》的一部分,由于源码量较大,因此分为...

    Lucene+Nutch搜索引擎开发.王学松源代码

    《Lucene+Nutch搜索引擎开发:王学松源代码解析》 在信息技术日新月异的今天,搜索引擎已经成为了人们获取信息的重要工具。Lucene和Nutch是两个在开源社区广泛使用的搜索引擎技术,它们为开发者提供了构建高效、可...

    Lucene nutch 搜索引擎 开发 实例 源码

    《Lucene与Nutch搜索引擎开发实例详解》 在信息技术领域,搜索引擎已经成为不可或缺的一部分,它们能够高效地处理海量数据,帮助用户快速找到所需信息。本文将深入探讨基于Java的开源搜索引擎框架——Lucene和Nutch...

    Nutch搜索引擎·Nutch简单应用(第3期)

    Nutch是一个基于Java开发的开源网络爬虫搜索引擎,它是Apache软件基金会项目之一,主要用于抓取网页,索引网页内容,并且支持全文搜索。Nutch搜索引擎能够对局域网和整个Web进行爬取,且提供了一个命令行工具来控制...

    Lucene+Nutch搜索引擎开发

    在探讨“Lucene+Nutch搜索引擎开发”这一主题时,我们需要深入了解Lucene与Nutch这两个开源项目的功能、工作原理以及如何将它们结合起来构建一个高效的搜索引擎。 ### Lucene简介 Lucene是一个高性能、全功能的...

    Nutch搜索引擎·Nutch浅入分析(第5期)

    Nutch搜索引擎的基本原理和组成是互联网搜索引擎开发领域的重要知识点。Nutch搜索引擎作为一种开源的网页搜索引擎,以其模块化和可扩展性而受到开发者的青睐。以下详细解释了Nutch的基本组成和工作流程。 首先,...

    Lucene.Nutch搜索引擎开发

    学习Lucene和Nutch的入门书籍,学习搜索引擎开发值得一看的书籍

Global site tag (gtag.js) - Google Analytics