Nutch readdb命令可以用来统计目前crawldb库里面URL的情况
root@namenode:/# bin/crawler readdb /user/root/crawl/crawldb -stats
CrawlDb statistics start: /user/root/crawl/crawldb
Statistics for CrawlDb: /user/root/crawl/crawldb
TOTAL urls: 26400413
retry 0: 26366653
retry 1: 33760
min score: 0.054
avg score: 0.07116767
max score: 4542.56
status 1 (db_unfetched): 25497960
status 2 (db_fetched): 587216
status 3 (db_gone): 12145
status 4 (db_redir_temp): 95622
status 5 (db_redir_perm): 207469
status 6 (db_notmodified): 1
CrawlDb statistics: done
当抓取job正在进行的时候,若使用这个命令会导致正在运行的task重新跑 (在跑readdb之前 map进度已经10%, 当运行过这个命令之后,所有的task发生错误,然后从0%开始重新跑)
Running Jobs
Jobid
|
Priority
|
User
|
Name
|
Map % Complete
|
Map Total
|
Maps Completed
|
Reduce % Complete
|
Reduce Total
|
Reduces Completed
|
Job Scheduling Information
|
job_201003050945_0010
|
NORMAL |
root |
fetch crawl/segments/20100306172317 |
0.62%
|
17 |
0 |
0.00%
|
7 |
0 |
|
错误
task_201003050945_0010_m_000000
|
0.22%
|
10 threads, 3124 successes, 191 errors, 951 others, 2.0 pages/s, 57 kB/s, |
6-Mar-2010 17:54:02 |
|
java.io.IOException: Task process exit
with nonzero status of 255.
at org.apache.hadoop.mapred.
TaskRunner.run(TaskRunner.java:425)
|
7
|
从前端开是中断了fetch job,然后先运行了 stat job之后重新运行fetch job
Completed Jobs
Jobid
|
Priority
|
User
|
Name
|
Map % Complete
|
Map Total
|
Maps Completed
|
Reduce % Complete
|
Reduce Total
|
Reduces Completed
|
Job Scheduling Information
|
job_201003050945_0011
|
NORMAL |
root |
stats /user/root/crawl/crawldb |
100.00%
|
42 |
42 |
100.00%
|
7 |
7 |
|
分享到:
相关推荐
JavaScript中的fetch API是一种现代的异步数据获取方式,它提供了更简洁、更符合Promise特性的接口来处理HTTP请求。...理解并熟练运用这些技术,对于提升JavaScript编程能力以及解决实际问题非常有帮助。
本文将详细解析如何使用JavaScript中的fetch API来实现文件的异步下载功能。首先,我们会介绍fetch API的基本用法,然后通过一个具体的实例代码来演示如何结合HTML和JavaScript来完成这一任务。 fetch API是现代...
`electron-main-fetch`库就是为了满足这个需求而诞生的,它允许我们在Electron的主要进程中使用与浏览器相同的Fetch API。 Fetch API是一种现代、统一的接口,用于在Web上发起HTTP请求。它提供了异步操作,返回...
此外,如代码示例中提到的,使用Fetch可能会导致数据重复,这是因为Fetch实际上是在为关联对象(这里是`Child`)服务,而不是直接为父对象服务。 #### 5. 实战案例 在实际应用中,合理的Fetch策略使用应该基于具体...
查询构建器提供了链式调用的方法来构建复杂的SQL查询,如`DB::table('table_name')->select()->where()->fetch()`。 5. **关系(Relationships)**:在Laravel的Eloquent中,可以定义模型间的关系,如一对一、一对...
《OracleFetch:Autonomy下的数据聚合与管理》 在当今数据驱动的世界中,高效的数据管理和检索成为了企业运营的关键。Autonomy公司推出的OracleFetch,作为一款专业的企业级数据聚合工具,为用户提供了强大的数据库...
在本例中,"Fetch error"可能意味着固件更新过程中,从服务器下载固件文件FIRM.bin时出现了问题,可能是网络中断、服务器未响应或者文件校验失败。 4. **错误处理**:当出现“Fetch error”时,通常需要进行错误...
这个Demo可能包含了如何解决在Background Fetch过程中遇到的多线程锁问题,这通常是由于多个并发请求在同一时间访问共享资源导致的冲突。多线程编程是iOS开发中的一个关键领域,尤其是在涉及后台操作时,良好的线程...
Fetch+Promise教程 Fetch API 是一种现代化的网络请求方式,旨在取代传统的 XMLHttpRequest。它提供了许多优点,包括链式调用的语法、返回 Promise 等。Fetch API 的概念和用法、Headers 对象、Request 对象等都是...
Oracle 中使用 fetch bulk collect into 批量效率的读取游标数据 Oracle 中的游标数据读取是数据库开发中非常常见的操作。通常,我们使用 fetch some_cursor into var1, var2 形式来获取游标数据,当游标中的记录数...
本文将详细探讨西门子PLC中TCP通信的FETCH和WRITE两种用法,这将帮助用户更高效地实现数据交换。 首先,要启用西门子PLC的TCP通信功能,需要配置相应的硬件模块。在西门子的STEP 7编程软件中,通过硬件组态完成模块...
最近在一个基于 git 的发布系统中拉取代码,发现无法拉取最新的提交记录,通过调试和查看日志文件找到一行错误:error: cannot open .git/FETCH_HEAD: Permission denied,原因是文件权限问题导致。 问题原因 ...
Fetch Robot
**Node.js-d3-fetch模块详解** 在现代Web开发中,数据获取和处理是至关重要的环节。`d3-fetch`是一个非常实用的Node.js模块,它为开发者提供了基于Fetch API的便利扩展,使得在Node.js环境中处理HTTP请求变得更加...
7. **错误处理**:提供完善的错误处理机制,便于调试和排除问题。 【标签】"PHP开发-发送和解析邮件"暗示了Fetch库不仅可以用于接收邮件,也可能支持发送邮件。在PHP开发中,发送邮件通常使用PHPMailer或...
fetch请求超时,在fetch的基础上做的可以设置超时时间的 javascript 插件,具体使用请查看我的博客 https://blog.csdn.net/yumikobu/article/details/80167982
from sklearn.datasets import fetch_lfw_people faces = fetch_lfw_people() 执行上面的第二行程序,python会从网上下载labeled_face_wild people数据集,这个数据集大概200M,因为墙的原因下载很慢失败。 下载...
本文实例讲述了php提示Warning mysql_...mysql_fetch_array()函数导致的,下面我们一起来看问题解决方案,我的代码如下: 复制代码 代码如下:include(“conn.php”); if(!empty($_GET[‘id’])){ $sql=”select * fr