配置完成nutch容易出现的错误 -

a280606790

浏览: 486362 次
性别:
来自: 湖南

最近访客更多访客>>

paganini0102

Hello---World

yezhi3514

hellodota

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

配置完成nutch容易出现的错误

博客分类：

nutch

Hadoop Java Apache Eclipse thread

1.1.2   运行crawl报错Job failed

Exception in thread "main" java.io.IOException: Job failed!
        at org.apache.hadoop.mapred.JobClient.runJob(JobClient.java:604)
        at org.apache.nutch.indexer.DeleteDuplicates.dedup(DeleteDuplicates.java:439)
        at org.apache.nutch.crawl.Crawl.main(Crawl.java:135)
问题解决：

此多为crawl-urlfilter.txt：MY.DOMAIN.NAME的修改不正确

1.1.3   又一个Job failed

Exception in thread "main" java.io.IOException: Job failed!
        at org.apache.hadoop.mapred.JobClient.runJob(JobClient.java:604)
        at org.apache.nutch.indexer.DeleteDuplicates.dedup(DeleteDuplicates.java:439)
        at org.apache.nutch.crawl.Crawl.main(Crawl.java:135)

问题解决：

1、多为crawl-urlfilter.txt的MY.DOMAIN.NAME修改不正确

2、中断过正在抓取的程序
3、刚集合了庖丁分词

1.1.4   Eclipse中运行nutch：Job failed

Exception in thread "main" java.io.IOException: Job failed!
       at org.apache.hadoop.mapred.JobClient.runJob(JobClient.java:604)
      at org.apache.nutch.crawl.Injector.inject(Injector.java:162)
       at org.apache.nutch.crawl.Crawl.main(Crawl.java:115)

问题解决：

此问题是eclipse的java版本设置问题，解决方法：

如原来使用java1.4，需要改为1.6

project-》properties-》java compiler

右 jdk compliance

compiler compliance level：改为6.0

执行bin/nutch crawl urls -dir crawled -depth 3 -thrads 4 -topN 5 >& crawl.log抛如下异常：

Exception in thread "main" java.net.UnknownHostException: unknown host: namenode
    at org.apache.hadoop.ipc.Client$Connection.<init>(Client.java:195)
    at org.apache.hadoop.ipc.Client.getConnection(Client.java:850)
    at org.apache.hadoop.ipc.Client.call(Client.java:720)
    at org.apache.hadoop.ipc.RPC$Invoker.invoke(RPC.java:220)
    at $Proxy0.getProtocolVersion(Unknown Source)
    at org.apache.hadoop.ipc.RPC.getProxy(RPC.java:359)
    at org.apache.hadoop.hdfs.DFSClient.createRPCNamenode(DFSClient.java:106)
    at org.apache.hadoop.hdfs.DFSClient.<init>(DFSClient.java:207)
    at org.apache.hadoop.hdfs.DFSClient.<init>(DFSClient.java:170)
    at org.apache.hadoop.hdfs.DistributedFileSystem.initialize(DistributedFileSystem.java:82)
    at org.apache.hadoop.fs.FileSystem.createFileSystem(FileSystem.java:1378)
    at org.apache.hadoop.fs.FileSystem.access$200(FileSystem.java:66)
    at org.apache.hadoop.fs.FileSystem$Cache.get(FileSystem.java:1390)
    at org.apache.hadoop.fs.FileSystem.get(FileSystem.java:196)
    at org.apache.hadoop.fs.FileSystem.get(FileSystem.java:95)
    at org.apache.nutch.crawl.Crawl.main(Crawl.java:94)

分享到：

网络爬虫调研报告 | Nutch1.0的配置与运行

2010-11-09 09:14
浏览 2435
评论(0)
分类:编程语言
查看更多

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

网络爬虫调研报告.doc: 为了避免同一个 URL被多次处理 ,当一个 URL被处理过后 ,它将被转移到完成队列或者错误队列 (如果发生错误 )。（3）错误队列 :如果在下载网页是发生错误 ,该 URL将被加入到错误队列。（4）完成队列 :如果在处理...

嵌入式八股文面试题库资料知识宝典-华为的面试试题.zip: 嵌入式八股文面试题库资料知识宝典-华为的面试试题.zip

训练导控系统设计.pdf: 训练导控系统设计.pdf

嵌入式八股文面试题库资料知识宝典-网络编程.zip: 嵌入式八股文面试题库资料知识宝典-网络编程.zip

人脸转正GAN模型的高效压缩.pdf: 人脸转正GAN模型的高效压缩.pdf

少儿编程scratch项目源代码文件案例素材-几何冲刺转瞬即逝.zip: 少儿编程scratch项目源代码文件案例素材-几何冲刺转瞬即逝.zip

少儿编程scratch项目源代码文件案例素材-鸡蛋.zip: 少儿编程scratch项目源代码文件案例素材-鸡蛋.zip

嵌入式系统_USB设备枚举与HID通信_CH559单片机USB主机键盘鼠标复合设备控制_基于CH559单片机的USB主机模式设备枚举与键盘鼠标数据收发系统支持复合设备识别与HID.zip: 嵌入式系统_USB设备枚举与HID通信_CH559单片机USB主机键盘鼠标复合设备控制_基于CH559单片机的USB主机模式设备枚举与键盘鼠标数据收发系统支持复合设备识别与HID

嵌入式八股文面试题库资料知识宝典-linux常见面试题.zip: 嵌入式八股文面试题库资料知识宝典-linux常见面试题.zip

面向智慧工地的压力机在线数据的预警应用开发.pdf: 面向智慧工地的压力机在线数据的预警应用开发.pdf

基于Unity3D的鱼类运动行为可视化研究.pdf: 基于Unity3D的鱼类运动行为可视化研究.pdf

少儿编程scratch项目源代码文件案例素材-霍格沃茨魔法学校.zip: 少儿编程scratch项目源代码文件案例素材-霍格沃茨魔法学校.zip

少儿编程scratch项目源代码文件案例素材-金币冲刺.zip: 少儿编程scratch项目源代码文件案例素材-金币冲刺.zip

【HarmonyOS技术领域】HarmonyOS编译构建子系统解析：高效灵活的系统开发与优化工具: 内容概要：本文深入探讨了HarmonyOS编译构建子系统的作用及其技术细节。作为鸿蒙操作系统背后的关键技术之一，编译构建子系统通过GN和Ninja工具实现了高效的源代码到机器代码的转换，确保了系统的稳定性和性能优化。该系统不仅支持多系统版本构建、芯片厂商定制，还具备强大的调试与维护能力。其高效编译速度、灵活性和可扩展性使其在华为设备和其他智能终端中发挥了重要作用。文章还比较了HarmonyOS编译构建子系统与安卓和iOS编译系统的异同，并展望了其未来的发展趋势和技术演进方向。; 适合人群：对操作系统底层技术感兴趣的开发者、工程师和技术爱好者。; 使用场景及目标：①了解HarmonyOS编译构建子系统的基本概念和工作原理；②掌握其在不同设备上的应用和优化策略；③对比HarmonyOS与安卓、iOS编译系统的差异；④探索其未来发展方向和技术演进路径。; 其他说明：本文详细介绍了HarmonyOS编译构建子系统的架构设计、核心功能和实际应用案例，强调了其在万物互联时代的重要性和潜力。阅读时建议重点关注编译构建子系统的独特优势及其对鸿蒙生态系统的深远影响。

嵌入式八股文面试题库资料知识宝典-奇虎360 2015校园招聘C++研发工程师笔试题.zip: 嵌入式八股文面试题库资料知识宝典-奇虎360 2015校园招聘C++研发工程师笔试题.zip

嵌入式八股文面试题库资料知识宝典-腾讯2014校园招聘C语言笔试题（附答案）.zip: 嵌入式八股文面试题库资料知识宝典-腾讯2014校园招聘C语言笔试题（附答案）.zip

双种群变异策略改进RWCE算法优化换热网络.pdf: 双种群变异策略改进RWCE算法优化换热网络.pdf

三电平有源电力滤波器仿真：基于瞬时无功功率理论的双闭环控制与SVPWM调制技术: 内容概要：本文详细介绍了基于瞬时无功功率理论的三电平有源电力滤波器（APF）仿真研究。主要内容涵盖并联型APF的工作原理、三相三电平NPC结构、谐波检测方法（ipiq）、双闭环控制策略（电压外环+电流内环PI控制）以及SVPWM矢量调制技术。仿真结果显示，在APF投入前后，电网电流THD从21.9%降至3.77%，显著提高了电能质量。适用人群：从事电力系统研究、电力电子技术开发的专业人士，尤其是对有源电力滤波器及其仿真感兴趣的工程师和技术人员。使用场景及目标：适用于需要解决电力系统中谐波污染和无功补偿问题的研究项目。目标是通过仿真验证APF的有效性和可行性，优化电力系统的电能质量。其他说明：文中提到的仿真模型涉及多个关键模块，如三相交流电压模块、非线性负载、信号采集模块、LC滤波器模块等，这些模块的设计和协同工作对于实现良好的谐波抑制和无功补偿至关重要。

工业自动化领域OPC DA转MQTT网关软件设计与实现：应对不良网络环境的数据传输解决方案: 内容概要：本文探讨了在工业自动化和物联网交汇背景下，构建OPC DA转MQTT网关软件的需求及其具体实现方法。文中详细介绍了如何利用Python编程语言及相关库（如OpenOPC用于读取OPC DA数据，paho-mqtt用于MQTT消息传递），完成从OPC DA数据解析、格式转换到最终通过MQTT协议发布数据的关键步骤。此外，还讨论了针对不良网络环境下数据传输优化措施以及后续测试验证过程。适合人群：从事工业自动化系统集成、物联网项目开发的技术人员，特别是那些希望提升跨协议数据交换能力的专业人士。使用场景及目标：适用于需要在不同通信协议间建立高效稳定的数据通道的应用场合，比如制造业生产线监控、远程设备管理等。主要目的是克服传统有线网络限制，实现在不稳定无线网络条件下仍能保持良好性能的数据传输。其他说明：文中提供了具体的代码片段帮助理解整个流程，并强调了实际部署过程中可能遇到的问题及解决方案。

基于C#实现的检测小说章节的重复、缺失、广告等功能+源码+项目文档（毕业设计&课程设计&项目开发）: 基于C#实现的检测小说章节的重复、缺失、广告等功能+源码+项目文档，适合毕业设计、课程设计、项目开发。项目源码已经过严格测试，可以放心参考并在此基础上延申使用，详情见md文档基于C#实现的检测小说章节的重复、缺失、广告等功能+源码+项目文档，适合毕业设计、课程设计、项目开发。项目源码已经过严格测试，可以放心参考并在此基础上延申使用，详情见md文档~ 基于C#实现的检测小说章节的重复、缺失、广告等功能+源码+项目文档，适合毕业设计、课程设计、项目开发。项目源码已经过严格测试，可以放心参考并在此基础上延申使用，详情见md文档基于C#实现的检测小说章节的重复、缺失、广告等功能+源码+项目文档，适合毕业设计、课程设计、项目开发。项目源码已经过严格测试，可以放心参考并在此基础上延申使用，详情见md文档基于C#实现的检测小说章节的重复、缺失、广告等功能+源码+项目文档，适合毕业设计、课程设计、项目开发。项目源码已经过严格测试，可以放心参考并在此基础上延申使用，详情见md文档基于C#实现的检测小说章节的重复、缺失、广告等功能+源码+项目文档，适合毕业设计、课程设计、项目开发。项目源码已经过严格测试，可以放心参考并在此基础上延申使用，详情见md文档

最近访客 更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

配置完成nutch容易出现的错误

配置完成nutch容易出现的错误

评论

发表评论

相关推荐

网页去重

nutch 抓取动态网页设置

nutch 中的MapReduce详细分析

提高Nutch局域网抓取的速度

nutch 过滤掉不正确的URL实现方法:

nutch中Nutch-defaul.xml相关配置

nutch的核心流程分析

Nutch中文分词总结

nutch累积式抓取

提高Nutch局域网抓取的速度

nutch如何才能抓取到动态的url

Nutch-0.9源代码：Crawl类整体分析

网络爬虫调研报告

Nutch1.0的配置与运行

Nutch1.0的配置与运行

Nutch的资料

nutch的基本工作流程理解

最近访客更多访客>>