`
xxj
  • 浏览: 430142 次
  • 性别: Icon_minigender_1
  • 来自: 上海
社区版块
存档分类
最新评论

Nutch 笔记(二):Craw more urls and Recrawl

阅读更多
一:Recrawl
nutch wiki上有现成的script,我们只需要拿来用用即可
http://wiki.apache.org/nutch/IntranetRecrawl#head-e58e25a0b9530bb6fcdfb282fd27a207fc0aff03

把它放在nutch-0.8.1/bin/recrawl.sh

martin@martinx:~/workspace/doc/nutch-0.8.1$ sudo bin/recrawl.sh ../tomcat5/webap ps/ROOT xici/ 
10 1 5


wiki中对参数的说明已经很详细了,没有必要再多说了。这里有个参数../tomcat5/webap你可以看到脚本中只是
touch $tomcat_dir/WEB-INF/web.xml

让tomcat重新加载webapp,如果你没有使用tomcat,只是crawl,你修改一下脚本,就把这个参数给去掉吧。

二:Crawl more urls and merge
我们上面只是抓取了一个xici的页面,但是我们的目标不仅仅是一个,而是一系列的,所有我们必须增加新的url进行抓取。

新增news.163.com
mkdir url2
echo http://news.163.com>url2/163


重新执行我们上面提到的crawl
martin@martinx:~/workspace/doc/nutch-0.8.1$ sudo bin/nutch crawl url2 -dir 163 -depth 10 -topN 50

note:
  这个时间会很长,如果你愿意可以用别的资讯很少的网站代替

合并我们采用nutch wiki上的脚本http://wiki.apache.org/nutch/MergeCrawl保存到bin/mergecrawl.sh。

martin@martinx:~/workspace/doc/nutch-0.8.1$ bin/mergecrawl.sh newpath 163/ xici/

传递的两个参数分别是两次crawl的目录

修改tomcat目录下的classes/nutch-site.xml文件,将searcher.dir修改为新的索引目录

perl -pi -e 's|xici|newpath|' ../tomcat5/webapps/ROOT/WEB-INF/classes/nutch-site.xml


重新加载webapp
touch ../tomcat5/webapps/ROOT/WEB-INF/web.xml


以下是截图
这个是163的


这个是xici的
分享到:
评论

相关推荐

    lucene2.4+nutch学习笔记三:lucene 在多个文本文档里找出包含一些关键字的文档

    《Lucene 2.4与Nutch学习笔记:在多文档中搜索关键词》 Lucene是一个高性能、全文检索库,而Nutch则是一个开源的网络爬虫项目,两者结合使用,能够实现对大量文本文档的高效搜索和索引。这篇学习笔记主要探讨如何...

    nutch_recrawl_mergecrawl.rar_nutch_nutch recrawl_recrawl

    这个名为 "nutch_recrawl_mergecrawl.rar" 的压缩包包含两个关键组件:`recrawl` 和 `mergecrawl`,它们分别针对索引更新和多网站查询的合并。 **1. Nutch 简介** Nutch 是由 Apache 软件基金会维护的一个项目,其...

    Nutch开源搜索引擎增量索引recrawl的终极解决办法

    ### Nutch开源搜索引擎增量索引recrawl的终极解决办法 #### 知识点解析: **Nutch与Hadoop集成下的recrawl策略** Nutch是一款基于Java的开源搜索引擎框架,能够爬取网页、提取数据并建立索引。它利用Apache ...

    Nutch 1.3 学习笔记

    ### Nutch 1.3 学习笔记:深入解析与应用 #### 一、Nutch 1.3:概述与核心功能 Nutch 1.3 是一款强大的、开源的网页抓取工具,专为大规模互联网数据抓取设计。它不仅能够收集网页数据,还能进一步分析、构建索引,...

    Nutch开源搜索引擎增量索引recrawl的终极解决办法续

    ### Nutch开源搜索引擎增量索引recrawl的终极解决办法续 #### 一、背景与问题概述 在前一篇文章中,我们探讨了Nutch开源搜索引擎在进行增量索引更新(recrawl)时遇到的问题及其初步解决方案。然而,在实际操作...

    Nutch配置环境\Nutch1[1].4_windows下eclipse配置图文详解.docx

    下载Apache Nutch 1.4的二进制版本。解压后,通过命令行进入Nutch目录并运行`ant`,等待构建完成。 6. **导入Eclipse项目**: 在Eclipse中新建一个Java项目,将Nutch解压后的conf目录添加到项目的构建路径中。设置...

    nutch初体验

    **二、Nutch的工作流程** Nutch的工作流程主要包括以下几个步骤: 1. **种子URL生成**:首先,你需要提供一组起始URL(种子),Nutch将从这些URL开始爬取。 2. **网页抓取**:Nutch使用高效的HTTP客户端库下载...

    Nutch 0.8笔记NUTCHNUTCH

    首先,`crawl` 命令中的 `urls` 参数不再是直接指定文件,而是指定一个目录,例如 `urls/foo`。其次,需要在 `nutch-site.xml` 中设置 `http.agent.name` 属性,否则可能会导致错误。Nutch 的日志信息现在被默认输出...

    nutch入门经典翻译1:Introduction to Nutch, Part 1: Crawling

    《Nutch入门经典翻译1:Introduction to Nutch, Part 1: Crawling》一文深入介绍了Nutch这一开源网络爬虫框架的基本概念、体系结构及其关键组件,为初学者提供了全面的理解视角。以下是对该文章核心知识点的详细解读...

    nutch的安装方法,好用

    - 在 `nutch\bin` 目录下创建一个名为 `urls` 的目录,并在其中创建一个文本文件 `url.txt`,列出想要抓取的目标网站。 - 例如:`http://www.sina.com.cn` - 例如:`http://133.40.188.130:8880/klms` 5. **配置...

    nutch-0.9 环境搭建所需最小cygwin

    《nutch-0.9 环境搭建所需最小cygwin详解》 在构建一个功能完备的搜索引擎系统时,Apache Nutch是一个重要的开源选择。Nutch-0.9是Nutch的一个较早版本,虽然相比最新的版本可能功能稍显简陋,但对于初学者或者对...

    nutch-gui:Apache Nutch Web UI

    Apache Nutch 是一个开源的网络爬虫项目,用于抓取互联网上的网页并建立索引,以便于搜索引擎进行高效的信息检索。Nutch-GUI(图形用户界面)是 Nutch 的一部分,为用户提供了一个友好的交互界面,使得配置、管理和...

    Windows下配置nutch

    【Nutch 知识点详解】 Nutch 是一个开源的 Java 搜索引擎,它提供了从爬虫到搜索的全套工具,使用户能够构建自己的搜索引擎。Nutch 的主要组成部分包括两个关键角色:Crawler 和 Searcher。 1. **Crawler**: ...

    windows下nutch的安装.pdf

    在介绍Windows下Nutch的安装过程之前,首先需要了解Nutch和Cygwin这两个工具的基本概念和作用。Nutch是一个开源的Web搜索引擎框架,基于Java编写,它使用Lucene作为搜索引擎核心。Nutch能够抓取网站并建立索引,实现...

    nutch二次开发学习笔记

    我们需要去抓取网页数据的时候我们就用nutch来爬取,我们对它进行二次开发使其更加符合我们的需求

    Nutch-NewsClassify:基于nutch的新闻分类系统

    ## Nutch2.3.1新闻分类爬虫内容项目介绍本项目基于https://github.com/xautlx/nutch-ajax.git的nutch-ajax项目功能很强大,本项目在此基础上,对nutch-ajax项目做了一些精简和优化,对Nutch版本进行升级,♡Mybatis...

    nutch-ajax:适用于AJAX的Apache Nutch插件页面获取,解析,索引

    Nutch AJAX page Fetch, Parse, Index Plugin项目简介基于Apache Nutch 2.3和Htmlunit, Selenium WebDriver等组件扩展,实现对于AJAX加载类型页面的完整页面内容抓取,以及特定数据项的解析和索引。According to the...

    Nutch2.3.1 环境搭建

    **二、获取Nutch源码** 1. 访问Apache Nutch官方网站(http://nutch.apache.org/releases.html),下载Nutch 2.3.1的源码包。 2. 解压下载的源代码到你选择的工作目录,例如`/usr/local/src/nutch-2.3.1`。 **三、...

Global site tag (gtag.js) - Google Analytics