Hadoop集群时间不统一导致Nutch无法正常运行
抓取domain的时候 nutch 可以正确的构建fecthlist,但是只能抓取主域名一个url,还不报错,于是也研究下了代码,看到网上也有人评论,那我就不在自己写了m感觉这位仁兄总结的很好,有一点需要注意的就是,dns 设置的不对也有可能发生这样 的情况
转自:http://liuskysun.blog.163.com/blog/static/99812978201171922133994/
现象:在调试Nutch源码,Crawl.java过程中发现:(红色部分)产生的Segments为NULL,导致无法进行下一次迭代,而结束整个抓取任务。
for (i = 0; i < depth; i++) {
if (checkTaskStop(uploadUrl, nodeRef)) {
break;
}
long top = topN;
if (i == 0 && fetchNum > 0) {
top = Long.MAX_VALUE;
}
Path[] segs = generator.generate(crawlDb, segments, -1, top, System.currentTimeMillis());
if (segs == null) {
log.info("Stopping at depth=" + i + " - no more URLs to fetch.");
break;
}
// fetch it
if (checkTaskStop(uploadUrl, nodeRef)) {
break;
}
fetcher.fetch(segs[0], threads, org.apache.nutch.fetcher.Fetcher.isParsing(conf));
if (!Fetcher.isParsing(job)) {
// parse it, if needed
parseSegment.parse(segs[0]);
}
// update crawldb
if (checkTaskStop(uploadUrl, nodeRef)) {
break;
}
if (i < depth-1) {
crawlDbTool.update(crawlDb, segs, true, true);
}
}
原因:由于Hadoop集群的时间不统一导致
解决方法:同步Hadoop集群时间到统一时间点,重新启动hadoop集群(或者把namenode的时间设置成比其他node的时间大)。
sudo date -d 2011/08/19
sudo date -s 14:06:00
分享到:
相关推荐
在cats_and_dogs_small数据集上,由于样本数量有限,过拟合可能是个问题,因此使用正则化手段(如Dropout或Batch Normalization)以及早停法(early stopping)来防止过拟合是非常必要的。 验证集是用来在训练过程...
SRIM(Stopping and Range of Ions in Matter)是一个广泛使用的软件工具,用于模拟带电粒子在材料中的传播和能量损失。因此,我们可以推测“pysrim-executor”可能是为了简化与SRIM相关的计算,提供了一种Python...
echo "Stopping Apache Tomcat..." $CATALINA_HOME/bin/shutdown.sh ;; restart) echo "Restarting Apache Tomcat..." $CATALINA_HOME/bin/shutdown.sh sleep 2 $CATALINA_HOME/bin/startup.sh ;; *) ...
还有tf.data API,用于高效地构建输入管道,以及tf.keras.modelCheckpoint和EarlyStopping回调,用于模型保存和早停策略,以防止过拟合。 总之,这个压缩包提供的TensorFlow 2.15.0版本是Linux用户在Python 3.9环境...
深度学习与PyTorch入门实战视频教程 配套源代码和PPT深度学习与PyTorch入门实战视频教程 配套源代码和PPT深度学习与PyTorch入门实战视频教程 配套源代码和PPT深度学习与PyTorch入门实战视频教程 配套源代码和PPT深度...
1. **表示现在正在发生的事情**:当说话的瞬间,某个动作正在发生,比如"We are waiting for you."(我们正在等你)。 2. **表示现阶段正在进行但不一定此刻正在进行的动作**:动作在说话时刻可能并未在进行,但...
使用Ignite,你可以轻松地集成常见的训练策略,如早停法(Early Stopping)、学习率调整策略(Learning Rate Scheduler)等。此外,它还支持多种常见的指标计算,如精度、召回率、F1分数等,方便你在训练过程中实时...
- 以重读闭音节结尾,末尾只有一个辅音字母:双写辅音字母加-ing(e.g., stopping) 3. **一般过去时**:表示过去某个时间发生的动作或状态。动词变化规则包括: - 一般情况:词尾加-ed(e.g., walked) - 以 e ...
- Minor changes to the No operation error watchdog timer for the CD and Hard disk tests. - Minor correction to the Butterfly seek test. - Video playback trace logging increased. Release 5.3 build ...
nohup java $JAVA_OPTS -jar $JAR_FILE > /dev/null 2>&1 & ``` 这个脚本非常类似,但使用了`nohup`命令让应用在后台运行,并且将输出重定向到`/dev/null`以避免填满日志文件。`&`符号表示在后台启动进程。 接下来...
- 多音节词通常在前面加 more 或 most(e.g., beautiful → more beautiful → most beautiful) 7. be 动词和助动词:be动词的形式包括am, is, are, were, was, isn't, aren't, weren't, wasn't。助动词有do, ...
1. 数据集介绍: `train.csv`文件包含了训练集,其中包含74595条记录,每条记录代表一个商品。每个商品有23个特征(包括id和target列),其中`target`列是需要预测的类别,共分为45个不同的类别。`test.csv`文件则...
5.5.2 Stopping the Program at Regular Intervals . . . . . 48 5.5.3 Measuring Memory Consumption with Simple Tools . . 49 5.5.4 Use top . . . . . . . . . . . . 49 5.5.5 Use the Windows Task Manager . ....
4. stop - stops - stopping - stopped 三、短语翻译: 1. 图书室制度 - library rules 2. 不能步行 - must not walk 3. 借书卡 - a library card 四、时间逆读法: 1. 7:00 - seven o'clock 2. 1:25 - a quarter ...
1. 模拟器概览(Outline of Simulator):介绍了模拟器的基本功能和用途,可能包括模拟器的目的是为了在没有PLC(可编程逻辑控制器)的情况下进行操作检查,从而能在新创建的屏幕上进行测试。 2. 模拟器组成...
echo "Stopping Tomcat..." su -c "$EXEC -Dshutdown=true >> $TOMCAT_HOME/logs/catalina.out 2>&1 &" tomcat ;; restart) $0 stop sleep 5 $0 start ;; *) echo "Usage: /etc/init.d/tomcatd {start|...
3. **SPC(Stopping and Set Partitioning Coding)**: SPC编码是一种特殊的卷积编码,它利用了码字的特殊结构来简化Viterbi解码过程。在某些情况下,SPC编码能提供接近于分组码的性能,但解码复杂度却远低于分组...
西门子PLCS7-1200的硬件中断组织块为用户提供了方便的调试和维护功能, users can use the hardware interrupt function to respond to hardware events, such as immediately stopping the control system's ...
20. stop - stopping 21. sit - sitting 22. begin - beginning 23. shop - shopping 24. lie - lying 25. skip - skipping 二、写出以下动词的第三人称单数: 1. drink - drinks 2. go - goes 3. stay - stays 4. ...