spark枚举类作为Key时跨进程问题 -

distantlight1

浏览: 44507 次
性别:
来自: 上海

最近访客更多访客>>

zhangyi0618

依然任逍遥

penguinwcc

m99m9999

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

spark枚举类作为Key时跨进程问题

博客分类：

spark

spark 枚举 hashcode

最近在集群上跑spark时发现有些reduceByKey操作结果不符合预期，大致伪代码如下（公司统一用java，就没写成scala，用了scala的简写节省字数）。就是类似WordCount的简单计算，DimType是一个枚举类

        JavaPairRDD<DimType, Long> rawRdd=...;
        JavaPairRDD<DimType, Long> reducedRdd = entryPairRDD
                .reduceByKey(_+_);

        List<Tuple2<DimType, Long>> results = reducedRdd.collect();

        for (Tuple2<DimType, Long> tuple2 : results) {
            logger.info("Result: " + tuple2);
            ...;
        }

脚本在单节点运行正常，但是设置多个Executor（如spark.executor.instances=2）结果就发生重复项，输出大致如下这样：

Result: (A,1)
Result: (A,2)
Result: (B,3)
Result: (C,3)
Result: (B,2)
Result: (C,4)

所有枚举项都出现了两次（正好等于executor的实例数），就好像各个Executor之间没有进行reduce一样

出现这个情况的原因比较tricky，因为spark的Shuffle过程会根据key的hashCode来判定相等，而恰恰Enum类的hashCode比较特殊，系统写死了就等于内存地址

public final int hashCode() {
     return super.hashCode();
}

这就导致在同不同进程里的枚举项被当成了不同的key，于是没有聚合起来

本来重写hashCode就可以解决问题，但坑爹的是Enum.hashCode()还被定义成final方法，无法被子类覆盖。所以只能自己在外面再封装一层对象，然后重新hashCode()，例如用Enum.name().hashCode()。或者干脆就不要用枚举类来做RDD的Key，以免发生类似问题

另外如果用其他自定义类做key的时候，一定要记得重写hashCode和equals，否则跨进程的时候也会发生类似问题

分享到：

netty+javassist轻量级http服务&RequestMa ... | spark源码梳理(1)-Action提交2

2016-01-21 15:09
浏览 1367
评论(0)
分类:开源软件
查看更多

发表评论

您还没有登录,请您登录后再发表评论

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

spark枚举类作为Key时跨进程问题

评论

发表评论

相关推荐

最近访客 更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

spark枚举类作为Key时跨进程问题

评论

发表评论

相关推荐

Spark Streaming有状态计算的实际问题

hadoop/spark关闭钩子研究

spark源码梳理(1)-Action提交2

spark源码梳理(1)-Action提交1

spark源码梳理(0)-说明

最近访客更多访客>>