[转]nutch1.2断电或者断网后继续爬取的方式 - 雨中人 - ITeye博客

`

lovepoem

浏览: 17420 次
性别:
来自: 北京

最近访客更多访客>>

woodding2008

wd1282988143

博主相关

博客

微博

相册

收藏

留言

关于我

文章分类

社区版块

存档分类

最新评论

[转]nutch1.2断电或者断网后继续爬取的方式

博客分类：

nutch检索

阅读更多

最近用nutch抓取了几个g的数据，爬了两天了。中途要断电，网上找到别人的断点继续爬取的方式，解决了问题。

nutch抓取过程是分阶段的，每个阶段完成后都会写到文件中。

附nutch抓取的阶段： (injector) ->generator -> fetcher -> crawldb updater -> linkdb updater -> indexer ->deldup -> merger。

下面是从fetcher阶段之后，各个阶段的调用命令：
(假设crawl为抓取目录，crawl/segments存放每一轮抓取的结果，crawl/crawldb为crawldb的目录，crawl/linkdb存放所有的链接，crawl/segments/20091102091322是本轮generate产生的待抓取的网页)
fetch    usage:
        bin/nutch fetch crawl/segments/20091102091322

updatedb usage:
        bin/nutch updatedb crawl/crawldb crawl/segments/20091102091322 -filter

updatelinkdb usage:
        bin/nutch invertlinks crawl/linkdb crawl/segments/20091102091322

index usage:
        bin/nutch index crawl/indexes crawl/crawldb crawl/linkdb crawl/segments/20091102091322

deldup usage:
        bin/nutch nearDedup crawl/indexes

merge usage:
        bin/nutch merge crawl/index_20091102091322 crawl/indexes

转自：http://www.hadoopor.com/thread-453-1-1.html

（求救！NUTCH中途爬行中断怎么继续未完成的任务！！！高人指点下）

补充：其实后来实践，并没有很好地解决问题。这种措施只能继续被中断的某个segment(比如本例子的20091102091322)的各个抓取步骤，紧接下来的别的segment并不能继续.大家可以实践并交流

分享到：

[转] 用JAVA 实现“生产者－消费者”问题 | 使用nutch检索的历程

2011-05-12 16:04
浏览 1788
评论(0)
分类:编程语言
查看更多

评论

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

nutch1.2 java的project: 1. **导入项目**：在Eclipse中选择“File” > “Import” > “Existing Projects into Workspace”，然后浏览到下载的`nutch1.2+Project`目录，导入项目。 2. **添加库**：确保你的Eclipse环境中已经安装了Apache ...

nutch1.2 java project: Nutch 1.2 是一个开源的网络爬虫项目，基于 Java 编写，用于抓取互联网上的网页并建立索引。这个项目是 Apache Software Foundation 的一部分，它为大规模的数据采集提供了强大的工具。Nutch 1.2 版本相对于早期版本...

Nutch 1.2源码阅读: ### Nutch 1.2 源码阅读深入解析 #### Crawl类核心作用与流程概览在深入了解Nutch 1.2源码之前，我们先明确Nutch的架构和工作流程。Nutch作为一款开源搜索引擎框架，其功能涵盖网页抓取、索引构建以及查询处理。...

nutch1.2源码: 1. **更好的爬取策略**：Nutch 1.2优化了URL的抓取优先级算法，使得重要的网页能更快被发现和抓取。 2. **性能提升**：通过优化代码和更新依赖库，提高了爬取和索引的速度。 3. **增强的可配置性**：增加了更多的...

myeclipse8.5导入nutch1.2源码: - 在 Default output folder 设置中，将输出目录更改为 `nutch1.2/bin/tmp_nutch`。 - 转到 Libraries 标签页，点击 Add Class Folder，选择 `nutch1.2/conf` 目录。 3. **调整库顺序**： - 在 Order and Export...

nutch1.2测试文档: nutch1.2测试文档

nutch-1.2.war: nutch官方简单案例，请版本是nutch-1.2.war

Windows下cygwin+MyEclipse 8.5+Nutch1.2+Tomcat 6.0: ### Windows下cygwin+MyEclipse 8.5+Nutch1.2+Tomcat 6.0 本文旨在详细介绍如何在Windows环境下搭建基于cygwin、MyEclipse 8.5、Nutch 1.2及Tomcat 6.0的开发环境，并对每个步骤进行深入解析。 #### 一、Cygwin的...

基于Apache Nutch和Solr的AJAX页面内容爬取与处理设计源码: 本项目是基于Apache Nutch和Solr开发的AJAX页面内容爬取与处理设计源码，主要使用Java进行开发。项目共包含1064个文件，其中Java源代码文件458个，XML配置文件181个，文本文件81个，HTML页面文件56个，JPG图片文件56...

nutch-1.2.part02: nutch Nutch是一个由Java实现的，刚刚诞生开放源代码(open-source)的web搜索引擎。尽管Web搜索是漫游Internet的基本要求，但是现有web搜索引擎的数目却在下降。并且这很有可能进一步演变成为一个公司垄断了几乎...

实验报告(利用Nutch和IKanalyzer构造中文分词搜索引擎): 本实验的目标是利用开源工具Nutch和IKAnalyzer构建一个中文分词搜索引擎，旨在理解搜索引擎的基本工作流程，掌握网页爬取、分词处理以及搜索功能的实现。实验中，主要涉及的技术包括搜索引擎基础、Nutch的使用、...

Nutch搜索引擎培训讲义: - 选择“Source”选项卡，将默认输出目录从`nutch1.2/bin`修改为`nutch1.2/_bin`。 - 对于bin文件夹，可以通过右键点击“Team” > “Restore”来恢复其内容。 3. **添加JAR包** - 通过“Add JARs”功能，将`...

nutch-1.2.part06: nutch Nutch是一个由Java实现的，刚刚诞生开放源代码(open-source)的web搜索引擎。尽管Web搜索是漫游Internet的基本要求，但是现有web搜索引擎的数目却在下降。并且这很有可能进一步演变成为一个公司垄断了几乎...

nutch部分网页乱码BUG修正: Nutch是Apache开发的一款开源网络爬虫项目，用于抓取互联网上的网页并建立索引，以便于搜索引擎进行数据处理。然而，在实际使用过程中，由于编码问题，Nutch可能会出现部分网页乱码的情况。本篇文章将深入探讨这个...

nutch网页爬取总结: **Nutch 网页爬取总结** **前言** Nutch 是一个开源的网络爬虫项目，由 Apache 基金会维护，主要用于构建大规模的搜索引擎。它提供了从互联网抓取网页、分析链接关系、生成倒排索引等一系列功能。Nutch 的设计目标...

搭建nutch web开发环境: 此外，由于Nutch 1.2的Web界面在1.3版本后被移除，这意味着在更现代的Nutch版本中，你需要寻找其他方式来展示和交互索引结果，例如使用自定义的Web应用程序与Solr API交互。总的来说，搭建Nutch Web开发环境是一个...

nutch-1.2.part07: nutch Nutch是一个由Java实现的，刚刚诞生开放源代码(open-source)的web搜索引擎。尽管Web搜索是漫游Internet的基本要求，但是现有web搜索引擎的数目却在下降。并且这很有可能进一步演变成为一个公司垄断了几乎...

nutch-1.2.part05: nutch Nutch是一个由Java实现的，刚刚诞生开放源代码(open-source)的web搜索引擎。尽管Web搜索是漫游Internet的基本要求，但是现有web搜索引擎的数目却在下降。并且这很有可能进一步演变成为一个公司垄断了几乎...

nutch-1.2.part03: nutch Nutch是一个由Java实现的，刚刚诞生开放源代码(open-source)的web搜索引擎。尽管Web搜索是漫游Internet的基本要求，但是现有web搜索引擎的数目却在下降。并且这很有可能进一步演变成为一个公司垄断了几乎...

Global site tag (gtag.js) - Google Analytics