Nutch 笔记（二）：Craw more urls and Recrawl - 徐祥军 - ITeye博客

`

xxj

浏览: 437341 次
性别:
来自: 上海

最近访客更多访客>>

lgx2351

songhait

renee1111

liuxd

博主相关

博客

微博

相册

收藏

留言

关于我

文章分类

社区版块

存档分类

最新评论

w156445045：博主我用的是1.6的版本，我没找到conf/crawl-url ...
Nutch 笔记（一）：Quick Start
hz_qiuyuanxin：楼主，正则表达式写错了，是 /.*\./
Rails中文件上传
lijun4186255：
rails 中文乱码的问题
luopeng_tr：楼主你好，看了帖子我做了一下测试。出来一个问题，希望指教n ...
在rails中使用UUIDTools
404714：提供一大堆tag是不错，有没有想过如何把数据库字段映射成tag ...
Haml&Radius 不错

Nutch 笔记（二）：Craw more urls and Recrawl

Tomcat Web 脚本资讯 XML

阅读更多

一：Recrawl
nutch wiki上有现成的script，我们只需要拿来用用即可

http://wiki.apache.org/nutch/IntranetRecrawl#head-e58e25a0b9530bb6fcdfb282fd27a207fc0aff03

把它放在nutch-0.8.1/bin/recrawl.sh

martin@martinx:~/workspace/doc/nutch-0.8.1$ sudo bin/recrawl.sh ../tomcat5/webap ps/ROOT xici/ 
10 1 5

wiki中对参数的说明已经很详细了，没有必要再多说了。这里有个参数../tomcat5/webap你可以看到脚本中只是

touch $tomcat_dir/WEB-INF/web.xml

让tomcat重新加载webapp,如果你没有使用tomcat，只是crawl，你修改一下脚本，就把这个参数给去掉吧。

二：Crawl more urls and merge
我们上面只是抓取了一个xici的页面，但是我们的目标不仅仅是一个，而是一系列的，所有我们必须增加新的url进行抓取。

新增news.163.com

mkdir url2
echo http://news.163.com>url2/163

重新执行我们上面提到的crawl

martin@martinx:~/workspace/doc/nutch-0.8.1$ sudo bin/nutch crawl url2 -dir 163 -depth 10 -topN 50

note:
这个时间会很长，如果你愿意可以用别的资讯很少的网站代替

合并我们采用nutch wiki上的脚本http://wiki.apache.org/nutch/MergeCrawl保存到bin/mergecrawl.sh。

martin@martinx:~/workspace/doc/nutch-0.8.1$ bin/mergecrawl.sh newpath 163/ xici/

传递的两个参数分别是两次crawl的目录

修改tomcat目录下的classes/nutch-site.xml文件，将searcher.dir修改为新的索引目录

perl -pi -e 's|xici|newpath|' ../tomcat5/webapps/ROOT/WEB-INF/classes/nutch-site.xml

重新加载webapp

touch ../tomcat5/webapps/ROOT/WEB-INF/web.xml

以下是截图
这个是163的

这个是xici的

分享到：

Stefan's Nutch Documentation | Nutch 笔记（一）：Quick Start

2006-10-13 07:47
浏览 10460
评论(0)
查看更多

评论

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

lucene2.4+nutch学习笔记三：lucene　在多个文本文档里找出包含一些关键字的文档: 《Lucene 2.4与Nutch学习笔记：在多文档中搜索关键词》 Lucene是一个高性能、全文检索库，而Nutch则是一个开源的网络爬虫项目，两者结合使用，能够实现对大量文本文档的高效搜索和索引。这篇学习笔记主要探讨如何...

nutch_recrawl_mergecrawl.rar_nutch_nutch recrawl_recrawl: 这个名为 "nutch_recrawl_mergecrawl.rar" 的压缩包包含两个关键组件：`recrawl` 和 `mergecrawl`，它们分别针对索引更新和多网站查询的合并。 **1. Nutch 简介** Nutch 是由 Apache 软件基金会维护的一个项目，其...

Nutch开源搜索引擎增量索引recrawl的终极解决办法: ### Nutch开源搜索引擎增量索引recrawl的终极解决办法 #### 知识点解析： **Nutch与Hadoop集成下的recrawl策略** Nutch是一款基于Java的开源搜索引擎框架，能够爬取网页、提取数据并建立索引。它利用Apache ...

Nutch 1.3 学习笔记: ### Nutch 1.3 学习笔记：深入解析与应用 #### 一、Nutch 1.3：概述与核心功能 Nutch 1.3 是一款强大的、开源的网页抓取工具，专为大规模互联网数据抓取设计。它不仅能够收集网页数据，还能进一步分析、构建索引，...

Nutch开源搜索引擎增量索引recrawl的终极解决办法续: ### Nutch开源搜索引擎增量索引recrawl的终极解决办法续 #### 一、背景与问题概述在前一篇文章中，我们探讨了Nutch开源搜索引擎在进行增量索引更新（recrawl）时遇到的问题及其初步解决方案。然而，在实际操作...

Nutch 0.8笔记NUTCHNUTCH: 首先，`crawl` 命令中的 `urls` 参数不再是直接指定文件，而是指定一个目录，例如 `urls/foo`。其次，需要在 `nutch-site.xml` 中设置 `http.agent.name` 属性，否则可能会导致错误。Nutch 的日志信息现在被默认输出...

Nutch配置环境\Nutch1[1].4_windows下eclipse配置图文详解.docx: 下载Apache Nutch 1.4的二进制版本。解压后，通过命令行进入Nutch目录并运行`ant`，等待构建完成。 6. **导入Eclipse项目**：在Eclipse中新建一个Java项目，将Nutch解压后的conf目录添加到项目的构建路径中。设置...

nutch pdf 学习文档: Nutch 是一个开源Java 实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具。

nutch初体验: **二、Nutch的工作流程** Nutch的工作流程主要包括以下几个步骤： 1. **种子URL生成**：首先，你需要提供一组起始URL（种子），Nutch将从这些URL开始爬取。 2. **网页抓取**：Nutch使用高效的HTTP客户端库下载...

nutch入门经典翻译1：Introduction to Nutch, Part 1: Crawling: 《Nutch入门经典翻译1：Introduction to Nutch, Part 1: Crawling》一文深入介绍了Nutch这一开源网络爬虫框架的基本概念、体系结构及其关键组件，为初学者提供了全面的理解视角。以下是对该文章核心知识点的详细解读...

nutch的安装方法，好用: - 在 `nutch\bin` 目录下创建一个名为 `urls` 的目录，并在其中创建一个文本文件 `url.txt`，列出想要抓取的目标网站。 - 例如：`http://www.sina.com.cn` - 例如：`http://133.40.188.130:8880/klms` 5. **配置...

nutch-0.9 环境搭建所需最小cygwin: 《nutch-0.9 环境搭建所需最小cygwin详解》在构建一个功能完备的搜索引擎系统时，Apache Nutch是一个重要的开源选择。Nutch-0.9是Nutch的一个较早版本，虽然相比最新的版本可能功能稍显简陋，但对于初学者或者对...

图解搜索引擎nutch配置: ### 图解搜索引擎Nutch配置详解 #### 一、前言 Nutch 是一款开源的网络爬虫项目，它能够从互联网上抓取网页并构建索引。本文将通过图文结合的方式，详细介绍如何在Windows环境下配置Nutch搜索引擎。由于网上关于...

nutch-gui:Apache Nutch Web UI: Apache Nutch 是一个开源的网络爬虫项目，用于抓取互联网上的网页并建立索引，以便于搜索引擎进行高效的信息检索。Nutch-GUI（图形用户界面）是 Nutch 的一部分，为用户提供了一个友好的交互界面，使得配置、管理和...

Windows下配置nutch: 【Nutch 知识点详解】 Nutch 是一个开源的 Java 搜索引擎，它提供了从爬虫到搜索的全套工具，使用户能够构建自己的搜索引擎。Nutch 的主要组成部分包括两个关键角色：Crawler 和 Searcher。 1. **Crawler**： ...

windows下nutch的安装.pdf: 在介绍Windows下Nutch的安装过程之前，首先需要了解Nutch和Cygwin这两个工具的基本概念和作用。Nutch是一个开源的Web搜索引擎框架，基于Java编写，它使用Lucene作为搜索引擎核心。Nutch能够抓取网站并建立索引，实现...

nutch二次开发学习笔记: 我们需要去抓取网页数据的时候我们就用nutch来爬取，我们对它进行二次开发使其更加符合我们的需求

Nutch-NewsClassify:基于nutch的新闻分类系统: ## Nutch2.3.1新闻分类爬虫内容项目介绍本项目基于https://github.com/xautlx/nutch-ajax.git的nutch-ajax项目功能很强大，本项目在此基础上，对nutch-ajax项目做了一些精简和优化，对Nutch版本进行升级，♡Mybatis...

nutch-ajax:适用于AJAX的Apache Nutch插件页面获取，解析，索引: Nutch AJAX page Fetch, Parse, Index Plugin项目简介基于Apache Nutch 2.3和Htmlunit, Selenium WebDriver等组件扩展，实现对于AJAX加载类型页面的完整页面内容抓取，以及特定数据项的解析和索引。According to the...

Global site tag (gtag.js) - Google Analytics