`

Stopping at depth=1 - no more URLs to fetch.

阅读更多
Hadoop集群时间不统一导致Nutch无法正常运行 

抓取domain的时候 nutch 可以正确的构建fecthlist,但是只能抓取主域名一个url,还不报错,于是也研究下了代码,看到网上也有人评论,那我就不在自己写了m感觉这位仁兄总结的很好,有一点需要注意的就是,dns 设置的不对也有可能发生这样 的情况
转自:http://liuskysun.blog.163.com/blog/static/99812978201171922133994/
现象:在调试Nutch源码,Crawl.java过程中发现:(红色部分)产生的Segments为NULL,导致无法进行下一次迭代,而结束整个抓取任务。
for (i = 0; i < depth; i++) {
                if (checkTaskStop(uploadUrl, nodeRef)) {
                    break;
                }
                long top = topN;
                if (i == 0 && fetchNum > 0) {
                    top = Long.MAX_VALUE;
                }
                Path[] segs = generator.generate(crawlDb, segments, -1, top, System.currentTimeMillis());
                if (segs == null) {
                    log.info("Stopping at depth=" + i + " - no more URLs to fetch.");
                    break;
                }

                // fetch it
                if (checkTaskStop(uploadUrl, nodeRef)) {
                    break;
                }
                fetcher.fetch(segs[0], threads, org.apache.nutch.fetcher.Fetcher.isParsing(conf));
                if (!Fetcher.isParsing(job)) {
                    // parse it, if needed
                    parseSegment.parse(segs[0]);
                }

                // update crawldb
                if (checkTaskStop(uploadUrl, nodeRef)) {
                    break;
                }
                if (i < depth-1) {
                    crawlDbTool.update(crawlDb, segs, true, true);
                }
            }

原因:由于Hadoop集群的时间不统一导致

解决方法:同步Hadoop集群时间到统一时间点,重新启动hadoop集群(或者把namenode的时间设置成比其他node的时间大)。
sudo date  -d  2011/08/19
sudo date  -s  14:06:00
分享到:
评论

相关推荐

    猫狗数据集cats-and-dogs-small.zip

    在cats_and_dogs_small数据集上,由于样本数量有限,过拟合可能是个问题,因此使用正则化手段(如Dropout或Batch Normalization)以及早停法(early stopping)来防止过拟合是非常必要的。 验证集是用来在训练过程...

    PyPI 官网下载 | pysrim-executor-0.1.0.tar.gz

    SRIM(Stopping and Range of Ions in Matter)是一个广泛使用的软件工具,用于模拟带电粒子在材料中的传播和能量损失。因此,我们可以推测“pysrim-executor”可能是为了简化与SRIM相关的计算,提供了一种Python...

    apache-tomcat-8.5.14.tar.gz

    echo "Stopping Apache Tomcat..." $CATALINA_HOME/bin/shutdown.sh ;; restart) echo "Restarting Apache Tomcat..." $CATALINA_HOME/bin/shutdown.sh sleep 2 $CATALINA_HOME/bin/startup.sh ;; *) ...

    tensorflow-2.15.0-cp39-cp39-manylinux-2-17-x86-64.zip

    还有tf.data API,用于高效地构建输入管道,以及tf.keras.modelCheckpoint和EarlyStopping回调,用于模型保存和早停策略,以防止过拟合。 总之,这个压缩包提供的TensorFlow 2.15.0版本是Linux用户在Python 3.9环境...

    lesson35-Early-stopping-Dropout.zip

    深度学习与PyTorch入门实战视频教程 配套源代码和PPT深度学习与PyTorch入门实战视频教程 配套源代码和PPT深度学习与PyTorch入门实战视频教程 配套源代码和PPT深度学习与PyTorch入门实战视频教程 配套源代码和PPT深度...

    英语时态----现在进行时.docx

    1. **表示现在正在发生的事情**:当说话的瞬间,某个动作正在发生,比如"We are waiting for you."(我们正在等你)。 2. **表示现阶段正在进行但不一定此刻正在进行的动作**:动作在说话时刻可能并未在进行,但...

    PyPI 官网下载 | pytorch-ignite-0.5.0.dev20210401.tar.gz

    使用Ignite,你可以轻松地集成常见的训练策略,如早停法(Early Stopping)、学习率调整策略(Learning Rate Scheduler)等。此外,它还支持多种常见的指标计算,如精度、召回率、F1分数等,方便你在训练过程中实时...

    小学PEP英语总复习3_6年级英语语法总结最全.doc

    - 以重读闭音节结尾,末尾只有一个辅音字母:双写辅音字母加-ing(e.g., stopping) 3. **一般过去时**:表示过去某个时间发生的动作或状态。动词变化规则包括: - 一般情况:词尾加-ed(e.g., walked) - 以 e ...

    BURNINTEST--硬件检测工具

    - Minor changes to the No operation error watchdog timer for the CD and Hard disk tests. - Minor correction to the Butterfly seek test. - Video playback trace logging increased. Release 5.3 build ...

    jar包启动脚本与关闭脚本win+linux

    nohup java $JAVA_OPTS -jar $JAR_FILE &gt; /dev/null 2&gt;&1 & ``` 这个脚本非常类似,但使用了`nohup`命令让应用在后台运行,并且将输出重定向到`/dev/null`以避免填满日志文件。`&`符号表示在后台启动进程。 接下来...

    英语期末复习知识点(动词时态).pdf

    - 多音节词通常在前面加 more 或 most(e.g., beautiful → more beautiful → most beautiful) 7. be 动词和助动词:be动词的形式包括am, is, are, were, was, isn't, aren't, weren't, wasn't。助动词有do, ...

    otto-group-product-classification-challenge.zip

    1. 数据集介绍: `train.csv`文件包含了训练集,其中包含74595条记录,每条记录代表一个商品。每个商品有23个特征(包括id和target列),其中`target`列是需要预测的类别,共分为45个不同的类别。`test.csv`文件则...

    Springer.The.Developer’s.Guide.to.Debugging.2008.pdf

    5.5.2 Stopping the Program at Regular Intervals . . . . . 48 5.5.3 Measuring Memory Consumption with Simple Tools . . 49 5.5.4 Use top . . . . . . . . . . . . 49 5.5.5 Use the Windows Task Manager . ....

    外研版六年级英语上册第十单元练习题精选.doc

    4. stop - stops - stopping - stopped 三、短语翻译: 1. 图书室制度 - library rules 2. 不能步行 - must not walk 3. 借书卡 - a library card 四、时间逆读法: 1. 7:00 - seven o'clock 2. 1:25 - a quarter ...

    三星Touch-manual(英文手册).pdf

    1. 模拟器概览(Outline of Simulator):介绍了模拟器的基本功能和用途,可能包括模拟器的目的是为了在没有PLC(可编程逻辑控制器)的情况下进行操作检查,从而能在新创建的屏幕上进行测试。 2. 模拟器组成...

    Linux Tomcat 配置及加入服务,

    echo "Stopping Tomcat..." su -c "$EXEC -Dshutdown=true &gt;&gt; $TOMCAT_HOME/logs/catalina.out 2&gt;&1 &" tomcat ;; restart) $0 stop sleep 5 $0 start ;; *) echo "Usage: /etc/init.d/tomcatd {start|...

    viterbi-hard-and-soft-decoding-AWGN_VD_SPC.rar_Soft viterbi_Soft

    3. **SPC(Stopping and Set Partitioning Coding)**: SPC编码是一种特殊的卷积编码,它利用了码字的特殊结构来简化Viterbi解码过程。在某些情况下,SPC编码能提供接近于分组码的性能,但解码复杂度却远低于分组...

    (完整版)西门子PLCS7-1200硬件中断功能简介.doc

    西门子PLCS7-1200的硬件中断组织块为用户提供了方便的调试和维护功能, users can use the hardware interrupt function to respond to hardware events, such as immediately stopping the control system's ...

    小学英语专项练习动词.doc

    20. stop - stopping 21. sit - sitting 22. begin - beginning 23. shop - shopping 24. lie - lying 25. skip - skipping 二、写出以下动词的第三人称单数: 1. drink - drinks 2. go - goes 3. stay - stays 4. ...

Global site tag (gtag.js) - Google Analytics