Failure Info:Job initialization failed: java.io.IOException: Split metadata size exceeded 10000000.
Aborting job job_201205162059_1073852 at
org.apache.hadoop.mapreduce.split.SplitMetaInfoReader.readSplitMetaInfo(SplitMetaInfoReader.java:48) at
org.apache.hadoop.mapred.JobInProgress.createSplits(JobInProgress.java:817) at
org.apache.hadoop.mapred.JobInProgress.initTasks(JobInProgress.java:711) at
org.apache.hadoop.mapred.JobTracker.initJob(JobTracker.java:4028) at
org.apache.hadoop.mapred.EagerTaskInitializationListener$InitJob.run(EagerTaskInitializationListener.java:79) at
java.util.concurrent.ThreadPoolExecutor$Worker.runTask(ThreadPoolExecutor.java:886) at
java.util.concurrent.ThreadPoolExecutor$Worker.run(ThreadPoolExecutor.java:908) at java.lang.Thread.run(Thread.java:662)
出错原因:该job的job.splitmetainfo文件大小超过限制;
1. job.splitmetainfo,该文件记录split的元数据信息,job split ----> HDFS block && slave node
存放路径位于:${hadoop.tmp.dir}/mapred/staging/${user.name}/.staging/jobId/
2. 参数mapreduce.jobtracker.split.metainfo.maxsize控制该文件的最大大小,默认为:10000000(10M)
解决方法:
1. 修改mapreduce.jobtracker.split.metainfo.maxsize参数值,但需要重启jobtracker才能生效;
2. 该问题的根本原因还是因为input小文件或者目录太多导致的,所以建议合并小文件;
分享到:
相关推荐
【SpringBoot】Error: java.lang.ClassNotFoundException: org.wltea.analyzer.core.IKSegmenter报错明细问题分析后记 报错明细 IDEA SpringBoot集成hadoop运行环境,本地启动项目,GET请求接口触发远程提交...
我在进行MapReduce本地测试的时候,遇见下面的报错: Exception in thread “main” java. lang . UnsatisfiedLinkError: org. apache . hadoop. io. nativeio. NativeIOSWindows . access0 (Ijava...
org.apache.hadoop.mapred.YarnChild: Error running child : java.lang.IncompatibleClassChangeError: Found interface org.apache.hadoop.mapreduce.TaskAttemptContext, but class was expected at org.apache...
Jobtracker启动报错:解决方法:导入guava-r09-jarjar.jar org/apache/hadoop/thirdparty/guava/common/collect/LinkedListMultimap错误分析及解决方法: Intel版本hadoop因为缺少license,启动jobtracker报错:
【SpringBoot】Error: Could not find or load main class org.apache.hadoop.mapreduce.v2.app.MRAppMaster报错明细问题解决后记 报错明细 IDEA SpringBoot集成hadoop运行环境,,本地启动项目,GET请求接口触发...
MapReduce 设计模式知识点总结 MapReduce 设计模式是大数据处理的核心组件,负责将大规模数据处理和分析任务分解为可并行处理的任务。MapReduce 设计模式主要由两个阶段组成:Map 阶段和 Reduce 阶段。 Map 阶段 ...
at org.apache.sqoop.mapreduce.JobBase.putSqoopOptionsToConfiguration(JobBase.java:392) at org.apache.sqoop.mapreduce.JobBase.createJob(JobBase.java:378) at org.apache.sqoop.mapreduce.ImportJobBase....
"MapReduce编程初级实践" MapReduce是Hadoop框架中的一个核心组件,用于处理大规模数据。MapReduce是一种编程模型,用于处理大规模数据,通过将计算任务分配到多个节点上,从而实现数据处理的并行化。 实验目的: ...
MapReduce 是一种编程模型,用于处理和生成大数据集。它由 Google 在 2004 年提出,并广泛用于大规模数据集的并行处理。MapReduce 模型包含两个主要的函数: 1. **Map 函数**:它接受输入数据并将其转换为中间键值...
MapReduce工作原理详解 Hadoop是一个开源的分布式计算框架,起源于Apache项目,专注于大规模数据的分布式存储和处理。它的核心特性包括可扩展性、经济性、高效性和可靠性,使得处理PB级别的数据变得可能,同时利用...
大数据管理与监控:Ambari:MapReduce原理与实践.docx
IDEA中通过Java的API操作MapReducer报错org.apache.hadoop.io.nativeio.NativeIO$Windows...的解决办法(进来看一下)-附件资源
import java.io.IOException; import java.util.Iterator; import java.util.StringTokenizer; import org.apache.hadoop.conf.Configuration; import org.apache.hadoop.fs.Path; import org.apache.hadoop.io....
大数据管理与监控:Cloudera Manager:MapReduce原理与实践.docx
MapReduce是一种编程模型,用于处理和生成大数据集的并行计算程序。它由Google提出,并在2004年的一篇论文中被介绍给公众。MapReduce模型基于两个核心函数:Map和Reduce。 ### MapReduce的工作原理: 1. **Map阶段...
MapReduce是一种分布式计算框架,由Google提出,后被Apache Hadoop采纳并开源。它使得开发者能够编写出可以在大规模集群上运行的应用程序,处理PB级别的数据,而这些应用程序即便是在单个商用机器上也能正常工作。...
8. mapreduce.task.io.sort.factor 配置Map任务在进行排序操作时,单个溢写(Spill)操作可以使用的最大输出流数。 9. mapreduce.task.io.sort.mb 配置Map任务的排序缓冲区大小(以MB为单位)。 10. mapreduce.map...
这是谷歌三大论文之一的 MapReduce: Simplified Data Processing on Large Clusters 英文原文。我的翻译可以见https://blog.csdn.net/m0_37809890/article/details/87830686
3. java.lang.Exception: java.io.IOException: Illegal partition for 13926435656(4),说明partition和reducetask个数没对上,调整reducetask个数。解决方案:调整reducetask个数,使其与partition个数相匹配。 ...
Doug Cutting随后基于此论文用Java实现了开源版本,即Hadoop中的MapReduce,成为其核心组件。HDFS(Hadoop Distributed File System)是Hadoop的另一个关键组成部分,而YARN(Yet Another Resource Negotiator)则是...