0 0

远程在hadoop集群上跑pagerank的时候,map执行了100% 但是reduce出现了下面的错误10

12/02/10 10:58:41 INFO mapred.JobClient:  map 98% reduce 25%
12/02/10 10:58:44 INFO mapred.JobClient:  map 99% reduce 25%
12/02/10 10:58:47 INFO mapred.JobClient:  map 100% reduce 25%
12/02/10 10:59:01 INFO mapred.JobClient: Task Id : attempt_201202091335_0237_r_000000_0, Status : FAILED
java.lang.RuntimeException: java.lang.NoSuchMethodException: com.wlh.pageRank.PageRank$MyReducer.<init>()
at org.apache.hadoop.util.ReflectionUtils.newInstance(ReflectionUtils.java:115)
at org.apache.hadoop.mapred.ReduceTask.runNewReducer(ReduceTask.java:634)
at org.apache.hadoop.mapred.ReduceTask.run(ReduceTask.java:416)
at org.apache.hadoop.mapred.Child$4.run(Child.java:259)
at java.security.AccessController.doPrivileged(Native Method)
at javax.security.auth.Subject.doAs(Subject.java:396)
at org.apache.hadoop.security.UserGroupInformation.doAs(UserGroupInformation.java:1059) at org.apache.hadoop.mapred.Child.main(Child.java:253)
Caused by: java.lang.NoSuchMethodException: com.wlh.pageRank.PageRank$MyReducer.<init>()
at java.lang.Class.getConstructor0(Class.java:2706)
at java.lang.Class.getDeclaredConstructor(Class.java:1985)
at org.apache.hadoop.util.ReflectionUtils.newInstance(ReflectionUtils.java:109)
... 7 more

12/02/10 10:59:04 WARN mapred.JobClient: Error reading task outputs8
12/02/10 10:59:04 WARN mapred.JobClient: Error reading task outputs8
12/02/10 10:59:05 INFO mapred.JobClient:  map 100% reduce 0%
12/02/10 10:59:26 INFO mapred.JobClient:  map 100% reduce 25%
12/02/10 10:59:29 INFO mapred.JobClient:  map 100% reduce 33%
12/02/10 10:59:44 INFO mapred.JobClient: Task Id : attempt_201202091335_0237_r_000000_1, Status : FAILED
java.lang.RuntimeException: java.lang.NoSuchMethodException: com.wlh.pageRank.PageRank$MyReducer.<init>()
at org.apache.hadoop.util.ReflectionUtils.newInstance(ReflectionUtils.java:115)
at org.apache.hadoop.mapred.ReduceTask.runNewReducer(ReduceTask.java:634)
at org.apache.hadoop.mapred.ReduceTask.run(ReduceTask.java:416)


该程序是远程提交一个job给hadoop集群,集群上可以查看map任务的各个细节,显示执行了100%,当reduce执行的时候出现了错误,但是该代码在本机hadoop伪分布模式下运行正常。如能提供参考或解决办法,很是感激!谢谢!!
2012年2月10日 11:23
目前还没有答案

相关推荐

    Hadoop Map Reduce教程

    该框架将任务分解为一系列较小的任务(Map 和 Reduce),并在集群中的多台计算机上并行执行这些任务。 - **应用场景**:适用于大数据分析、搜索引擎索引构建、日志文件分析等场景。 #### 二、MapReduce 工作原理 1...

    Hadoop MapReduce实战手册(完整版)

    JobTracker负责调度作业,而TaskTracker则在工作节点上执行具体的Map和Reduce任务。此外,还可能涉及YARN(Yet Another Resource Negotiator),这是Hadoop 2.x版本中取代JobTracker的新资源管理框架。 数据处理的...

    Hadoop-MapReduce下的PageRank矩阵分块算法

    在Hadoop-MapReduce框架下,PageRank矩阵分块算法的核心在于如何有效地分配和处理Web图的分块,以减少Map和Reduce阶段的迭代次数,降低时间和空间开销。具体而言,该算法首先将Web图分割成多个子图,每个子图包含...

    Hadoop_MapReduce教程.doc

    Map任务通常在数据实际存储的节点上执行,以减少网络I/O。 2. **Shuffle与Sort**: Map任务的输出会被框架自动排序,按照中间键进行分组,以便reduce任务能以键的顺序处理数据。这个过程被称为shuffle,同时包括...

    Hadoop下的分布式搜索引擎

    通过使用Map/Reduce模型,爬虫模块可以在多个节点上并行工作,从而大大提高数据收集的速度。 - **索引模块**:接收到爬虫模块传来的网页数据后,索引模块将对其进行解析和索引化处理。索引过程同样可以通过Map/...

    hadoop应用实例

    2. 负载均衡与调度:Hadoop自动调度任务,确保任务在拥有数据的节点上执行,减少网络传输,提高效率。同时,它会动态调整任务分配,平衡集群负载。 3. 复杂性的隐藏:MapReduce模型通过抽象出Map和Reduce函数,降低...

    hadoop-page-rank:MC6007 - Hadoop PageRank map-reduce

    在处理大规模数据时,可能需要考虑一些优化策略,比如数据局部性、减少shuffle阶段的数据传输、调整Hadoop集群的配置参数等,以提高整体计算效率。 这个项目"MC6007 - Hadoop PageRank map-reduce"提供了学习和...

    基于hadoop对网页进行排名.zip

    通过迭代计算,Hadoop可以有效地在大规模数据集上执行PageRank算法,找出网络中最有影响力的网页。 在Hadoop中实现PageRank,通常会涉及以下几个步骤: 1. 数据准备:首先,需要将网页数据(包括URL、链接关系等)...

    Hadoop_MapReduce教程

    这个框架使得用户能够编写应用程序来处理PB级别的数据,即使是在由数千台普通机器组成的集群上也能高效运行。MapReduce的工作原理是将复杂的计算任务分解成两个主要阶段:Map阶段和Reduce阶段。 1. **Map阶段**: ...

    09-Hadoop编程.pdf

    在Hadoop集群上运行MapReduce任务,首先需要将数据上传到HDFS中,然后编写MapReduce程序,提交到集群上运行。 在MapReduce程序设计中,开发者需要关注几个关键部分:Mapper、Reducer以及Driver程序。Mapper读取输入...

    HadoopMRExamples:可以在此处找到 Hadoop Map Reduce 示例

    在大数据处理领域,Hadoop MapReduce 是一个至关重要的框架,它允许用户编写并运行分布式处理大规模数据集的应用程序。这个框架借鉴了 Google 的 MapReduce 论文,将复杂的大规模数据处理任务分解为两个主要阶段:...

    Hadoop的源起与体系介绍

    通过MapReduce,开发者可以将数据处理问题分解为Map(映射)和Reduce(归约)两个步骤,从而可以将任务分散到多个计算节点上执行,提高处理效率。 除了HDFS和MapReduce之外,Hadoop生态系统中还包含了很多其他组件...

    完整版大数据云计算课程 Hadoop数据分析平台系列课程 Hadoop 01 Hadoop介绍 共33页.pptx

    学习Hadoop涉及安装、配置和管理Hadoop集群,包括设置Hadoop环境,配置集群节点,以及在不同操作系统和关系型数据库之间传输数据。熟练掌握这些技能是成为Hadoop专家的基础。 【实验环境】 通常,一个Hadoop学习或...

    在搜索引擎中的Hadoop应用

    本文的研究实验在一个包含100台计算机的集群上进行,该集群总存储容量达到200TB,每天处理大约1亿个网页的数据,运行200至500个不同的作业。 #### 八、总结 Hadoop在搜索引擎中的应用极大地提升了数据处理的能力和...

    PageRank_MapReduce:在 Hadoop 上运行的 MapReduce 程序

    在 Hadoop 这个开源大数据处理框架中,MapReduce 被广泛应用来执行各种计算任务,包括计算 PageRank。 Hadoop 是一个允许在廉价硬件上运行分布式存储和计算的平台,其核心组件包括 HDFS(Hadoop Distributed File ...

    java__Hadoop_MapReduce教程.pdf

    1. **Hadoop MapReduce框架介绍**:Hadoop MapReduce是一种分布式计算框架,能将大量廉价硬件组合成一台超级计算机集群,通过Map和Reduce阶段进行并行计算,处理海量数据。其核心思想是将大任务分解为小任务,分布到...

Global site tag (gtag.js) - Google Analytics