`
085567
  • 浏览: 220304 次
  • 性别: Icon_minigender_1
  • 来自: 北京
社区版块
存档分类
最新评论

在CDH3上运行mahout的random forest算法时的异常处理

 
阅读更多

在应用apache mahout中的random forest分类的时候,报java.lang.IllegalStateException: java.io.EOFException异常。具体如下图:

 


这个错误发生是在训练出模型后,将模型存储的时候。原因是cloudera的hadoop版本在mapreduce 任务运行完后,会生成一个_SUCCESS目录,这将导致如上异常。

 

 

解决的办法是在配置文件mapred-site.xml中加入配置mapreduce.fileoutputcommitter.marksuccessfuljobs 值为false。

 

<property>
    <name>mapreduce.fileoutputcommitter.marksuccessfuljobs</name>
    <value>false</value>
</property>

 

英文解释见:http://blog.nemccarthy.me/?p=82

 

  • 大小: 22.4 KB
分享到:
评论

相关推荐

    mahout-0.9-cdh5.5.0.tar.gz

    mahout-0.9-cdh5.5.0.tar.gz

    适配CDH6.3.2的Spark3.2.2

    在使用"spark-3.2.2-bin-3.0.0-cdh6.3.2"这个压缩包时,用户可以直接在CDH6.3.2环境中运行,无需再进行编译,确保了与CDH组件的兼容性和稳定性。需要注意的是,安装和配置Spark时,要遵循CDH的官方文档,以确保所有...

    mahout-core-0.9.chm

    针对mahout-core-0.9自制的chm版文档。可以用于CDH 5自含Mahout的参考

    CDH6.3.2集成flink1.14.5 parcel

    7. **测试集成**:集成后,应通过运行简单的Flink作业来验证其功能,例如流处理或批处理任务,确保Flink可以在CDH环境中正常运行和处理数据。 8. **监控和维护**:集成后的系统需要监控其性能和稳定性,确保Flink...

    hadoop-0.20.2-cdh3u6

    这个版本在Hadoop的原始基础上进行了优化和增强,提供了企业级的功能和稳定性,适用于大规模数据处理和分析。 CDH3u6是CDH系列的第三个重大更新(u代表update),版本号中的“3”表示这是基于Hadoop的0.20.x分支。...

    pig-0.12.0-cdh5.5.0.tar.gz

    2. **Pig 对 CDH 的支持**:在 CDH 5.5.0 上运行 Pig,可以充分利用 YARN(Yet Another Resource Negotiator)的资源管理能力,实现更高效的作业调度和资源分配。此外,Pig 还可以与其他 CDH 组件,如 Hive、Impala ...

    CDH5.9.0节点删除下线

    在CDH5.9.0集群环境中,有时由于硬件更新、资源优化或故障处理等原因,可能需要删除或下线部分节点。以下是一个详尽的步骤指南,帮助你安全地从CDH5.9.0集群中移除节点。 首先,确保你已经了解了CDH(Cloudera ...

    CDH-6.3.2-FLINK1.12.0相关资源包

    在CDH上运行Flink,用户可以利用其强大的流处理能力来处理实时数据流,比如实时监控、实时告警、实时分析等。同时,Flink的批处理能力也能满足离线数据分析的需求。CDH的YARN资源管理器可以协调和分配Flink任务的...

    flink-1.12-CDH-6.3.2.zip

    描述“flink1.12集成CDH6.3.2,亲测可用”意味着该压缩包中的内容已经过实际测试,可以在CDH 6.3.2平台上顺利运行Flink 1.12。这为用户提供了信心,表明这个组合已经被验证为稳定且功能正常。 标签“flink cdh”...

    flink-1.13.1 cdh6.3.2

    正确配置和使用这些文件可以确保Flink作业在CDH集群上高效、稳定地运行,为大数据实时处理提供强大支持。在实际操作中,还需要注意网络环境、权限设置以及集群资源的合理分配,以达到最佳性能。

    hadoop-0.20.2-cdh3u6.rar

    Hadoop-0.20.2-cdh3u6是Cloudera公司基于Apache Hadoop的发行版CDH3的更新版本,它针对企业级应用进行了优化,包含了多个关键改进和修复。 CDH(Cloudera Distribution Including Apache Hadoop)是Cloudera提供的...

    CDH之ZK升级.doc

    在大数据处理与分析领域,Cloudera Distribution Including Hadoop (CDH) 是一款非常流行的企业级Hadoop发行版,它集成了众多开源项目来提供高效的数据处理能力。ZooKeeper作为分布式系统中的协调服务,在CDH集群中...

    cdh继承tez引擎 cdh添加tez引擎 hive引擎增加

    提及Tez比Spark更省心,这意味着在处理大规模数据时,Tez可能具有更好的资源管理,不容易出现内存溢出等Spark常见的问题。 10. **维护与监控**: 集成Tez后,定期对Tez的运行状态进行监控,如任务执行时间、资源...

    CDH6.3.2之升级spark-3.3.1.doc

    - 将解压后的Spark目录复制到CDH的安装目录下:`cp -r spark-3.3.1-bin-3.0.0-cdh6.3.2 /opt/cloudera/parcels/CDH/lib/spark3` 3. **配置文件复制**: - **hive-site.xml**:`cp /etc/hive/conf/hive-site.xml /...

    cdh6.3.2 集成 Phoenix

    在大数据处理领域,CDH(Cloudera Distribution Including Apache Hadoop)是一款广泛使用的开源大数据平台,它包含了Hadoop生态系统中的多个组件,如HDFS、YARN、MapReduce、Hive等。而Phoenix是一个针对HBase的SQL...

    flink-1.10.1.rar for cdh6.3.2

    在CDH6.3.2上运行Flink 1.10.1时,用户可以通过Web UI监控作业的运行状态,包括任务进度、资源消耗、错误日志等信息,这对于调试和优化作业性能至关重要。同时,Flink的事件时间窗口和水印机制,使得处理延迟问题有...

    Apache Atlas 2.1.0 集成CDH6.3.2 编译包

    1. **兼容性**:Apache Atlas 2.1.0与CDH 6.3.2的兼容性是首要考虑的,这确保了在CDH环境中运行Atlas时,所有的组件都能协同工作,避免了潜在的版本冲突。 2. **安装与配置**:在CDH集群上部署Apache Atlas需要对...

    hadoop-0.20.2-CDH3B4.tar.gz下载

    本文将围绕"Hadoop-0.20.2-CDH3B4.tar.gz"这一压缩包,深入探讨解压后的内容及其在sqoop-1.2.0环境中的应用。 首先,"hadoop-0.20.2-CDH3B4.tar.gz"是一个针对CDH3(Cloudera Distribution Including Apache Hadoop...

    hive2.1.1-cdh6.3.2

    1. **hive-jdbc-2.1.1-cdh6.3.2-standalone.jar**:这是Hive JDBC的独立版本,包含了所有必要的依赖,可以直接在没有其他CDH库的环境中运行。开发者可以将这个JAR文件添加到他们的项目中,以便通过Java应用程序或Web...

    spark-2.4.6-cdh5.16.2

    总的来说,Spark 2.4.6与CDH 5.16.2的结合为大数据处理提供了一个强大而稳定的平台,它集成了高效的数据处理、实时流处理、机器学习和图处理能力,同时利用CDH的管理工具和优化,使得在企业环境中部署和运行Spark变...

Global site tag (gtag.js) - Google Analytics