`

readdb导致fetch job中断的问题

阅读更多
Nutch readdb命令可以用来统计目前crawldb库里面URL的情况

root@namenode:/# bin/crawler readdb /user/root/crawl/crawldb -stats
CrawlDb statistics start: /user/root/crawl/crawldb
Statistics for CrawlDb: /user/root/crawl/crawldb
TOTAL urls:    26400413
retry 0:    26366653
retry 1:    33760
min score:    0.054
avg score:    0.07116767
max score:    4542.56
status 1 (db_unfetched):    25497960
status 2 (db_fetched):    587216
status 3 (db_gone):    12145
status 4 (db_redir_temp):    95622
status 5 (db_redir_perm):    207469
status 6 (db_notmodified):    1
CrawlDb statistics: done

当抓取job正在进行的时候,若使用这个命令会导致正在运行的task重新跑 (在跑readdb之前 map进度已经10%, 当运行过这个命令之后,所有的task发生错误,然后从0%开始重新跑)

Running Jobs

Jobid Priority User Name Map % Complete Map Total Maps Completed Reduce % Complete Reduce Total Reduces Completed Job Scheduling Information
job_201003050945_0010 NORMAL root fetch crawl/segments/20100306172317 0.62%
17 0 0.00%
7 0    

错误

task_201003050945_0010_m_000000 0.22%
10 threads, 3124 successes, 191 errors, 951 others, 2.0 pages/s, 57 kB/s, 6-Mar-2010 17:54:02
java.io.IOException: Task process exit 
with nonzero status of 255.
at org.apache.hadoop.mapred.
TaskRunner.run(TaskRunner.java:425)
7

从前端开是中断了fetch job,然后先运行了 stat job之后重新运行fetch job

Completed Jobs

Jobid Priority User Name Map % Complete Map Total Maps Completed Reduce % Complete Reduce Total Reduces Completed Job Scheduling Information
job_201003050945_0011 NORMAL root stats /user/root/crawl/crawldb 100.00%
42 42 100.00%
7 7    
分享到:
评论

相关推荐

    javascript实现fetch请求返回的统一拦截

    JavaScript中的fetch API是一种现代的异步数据获取方式,它提供了更简洁、更符合Promise特性的接口来处理HTTP请求。...理解并熟练运用这些技术,对于提升JavaScript编程能力以及解决实际问题非常有帮助。

    JavaScript 用fetch 实现异步下载文件功能

    本文将详细解析如何使用JavaScript中的fetch API来实现文件的异步下载功能。首先,我们会介绍fetch API的基本用法,然后通过一个具体的实例代码来演示如何结合HTML和JavaScript来完成这一任务。 fetch API是现代...

    OracleFetch

    《OracleFetch:Autonomy下的数据聚合与管理》 在当今数据驱动的世界中,高效的数据管理和检索成为了企业运营的关键。Autonomy公司推出的OracleFetch,作为一款专业的企业级数据聚合工具,为用户提供了强大的数据库...

    Hibernate Fetch 的作用

    此外,如代码示例中提到的,使用Fetch可能会导致数据重复,这是因为Fetch实际上是在为关联对象(这里是`Child`)服务,而不是直接为父对象服务。 #### 5. 实战案例 在实际应用中,合理的Fetch策略使用应该基于具体...

    Laravel开发-fetch

    查询构建器提供了链式调用的方法来构建复杂的SQL查询,如`DB::table('table_name')->select()->where()->fetch()`。 5. **关系(Relationships)**:在Laravel的Eloquent中,可以定义模型间的关系,如一对一、一对...

    BLE090_PRO_fetch_Fetch!_

    在本例中,"Fetch error"可能意味着固件更新过程中,从服务器下载固件文件FIRM.bin时出现了问题,可能是网络中断、服务器未响应或者文件校验失败。 4. **错误处理**:当出现“Fetch error”时,通常需要进行错误...

    Background Fetch 修正Demo

    这个Demo可能包含了如何解决在Background Fetch过程中遇到的多线程锁问题,这通常是由于多个并发请求在同一时间访问共享资源导致的冲突。多线程编程是iOS开发中的一个关键领域,尤其是在涉及后台操作时,良好的线程...

    Fetch+Promise教程

    Fetch+Promise教程 Fetch API 是一种现代化的网络请求方式,旨在取代传统的 XMLHttpRequest。它提供了许多优点,包括链式调用的语法、返回 Promise 等。Fetch API 的概念和用法、Headers 对象、Request 对象等都是...

    Oracle 中使用 fetch bulk collect into 批量效率的读取游标数据

    Oracle 中使用 fetch bulk collect into 批量效率的读取游标数据 Oracle 中的游标数据读取是数据库开发中非常常见的操作。通常,我们使用 fetch some_cursor into var1, var2 形式来获取游标数据,当游标中的记录数...

    解决因文件权限导致git fetch命令执行失败的问题

    最近在一个基于 git 的发布系统中拉取代码,发现无法拉取最新的提交记录,通过调试和查看日志文件找到一行错误:error: cannot open .git/FETCH_HEAD: Permission denied,原因是文件权限问题导致。 问题原因 ...

    西门子 TCP通信中的Fetch和Write用法

    西门子PLC中的TCP通信主要包括FETCH和WRITE两种通信方式,这两种方式无需在PLC侧编程,只需要进行一些简单的配置即可实现与S5设备或PC的数据交换。 首先,我们需要使用带有FETCHWRITE功能的模块。在进行硬件组态后...

    electron-main-fetch在Electron的主要进程中使用浏览器FetchAPI

    `electron-main-fetch`库就是为了满足这个需求而诞生的,它允许我们在Electron的主要进程中使用与浏览器相同的Fetch API。 Fetch API是一种现代、统一的接口,用于在Web上发起HTTP请求。它提供了异步操作,返回...

    FetchRobotics_FetchRobot_Fetch!_

    Fetch Robot

    Fetch一个PHP的IMAP库

    7. **错误处理**:提供完善的错误处理机制,便于调试和排除问题。 【标签】"PHP开发-发送和解析邮件"暗示了Fetch库不仅可以用于接收邮件,也可能支持发送邮件。在PHP开发中,发送邮件通常使用PHPMailer或...

    解决sklearn中 fetch-lfw-people()人脸数据集下载失败问题?

    from sklearn.datasets import fetch_lfw_people faces = fetch_lfw_people() 执行上面的第二行程序,python会从网上下载labeled_face_wild people数据集,这个数据集大概200M,因为墙的原因下载很慢失败。 下载...

    fetch请求超时

    fetch请求超时,在fetch的基础上做的可以设置超时时间的 javascript 插件,具体使用请查看我的博客 https://blog.csdn.net/yumikobu/article/details/80167982

    php提示Warning:mysql_fetch_array() expects的解决方法

    本文实例讲述了php提示Warning mysql_...mysql_fetch_array()函数导致的,下面我们一起来看问题解决方案,我的代码如下: 复制代码 代码如下:include(“conn.php”); if(!empty($_GET[‘id’])){  $sql=”select * fr

    Node.js-d3-fetch这个模块提供基于Fetch之上的便捷解析

    **Node.js-d3-fetch模块详解** 在现代Web开发中,数据获取和处理是至关重要的环节。`d3-fetch`是一个非常实用的Node.js模块,它为开发者提供了基于Fetch API的便利扩展,使得在Node.js环境中处理HTTP请求变得更加...

Global site tag (gtag.js) - Google Analytics