最新文章列表

spark shuffle详解

Shuffle是MapReduce框架中的一个特定的phase,介于Map phase和Reduce phase之间,当Map的输出结果要被Reduce使用时,输出结果需要按key哈希,并且分发到每一个Reducer上去,这个过程就是shuffle。由于shuffle涉及到了磁盘的读写和网络的传输,因此shuffle性能的高低直接影响到了整个程序的运行效率。 下面这幅图清晰地描述了MapRed ...
student_lp 评论(0) 有2913人浏览 2015-05-19 11:59

大数据潮流已经来临 ---- ITSoku带你一周快速掌握Hadoop开发与实战!

大数据的潮流已经来临,未来也将是数据的时代,Hadoop正是为大数据而来,为此ITSoku搜集了目前最好的相关视频,然后进行整理出能让我们在最短的时间中掌握该技术的整套视频专辑,分享给各位想学习Hadoop的朋友们,只希望大家学习Hadoop更容易更高效一些。   1. 炼数成金 hadoop 视频教程 (此专辑更注重于理论) 2.Hadoop实战视频专辑 (此专辑更注重于实战)   以 ...
lk557 评论(8) 有4598人浏览 2013-12-16 10:24

大数据来袭-Hadoop实战视频专辑带你快速入门到精通!

简介:本视频从网络上整理而来,是传智播客开办Hadoop培训以来的第一部视频教程,内容讲解精细,实战实例,分享到这里大家共同学习。 1  Hadoop实战_1 2013-12-15 10:27 | 播放(2) | 评论(0) | 时长:50:17
lk557 评论(0) 有1652人浏览 2013-12-16 10:10

推测执行的不适应场景

  在HADOOP里,如果一个任务运行比预期的慢,就会尽快检测和启动另一个相同的任务作为备份来执行相同的工作,虽然它会降低执行慢的任务执行失败带来的损失,但也会消耗更多的资源,执行重复的工作。有利有弊,可以选择使用。 自己写MR代码时就遇到了推测执行会产生错误的情况。 当我使用MultipleOutputFormat来把不同数据写到不同目录里时就报错了,错误信息为: org.ap ...
hugh.wangp 评论(0) 有2159人浏览 2012-05-25 16:13

HIVE UDF/UDAF/UDTF的Map Reduce代码框架模板

  自己写代码时候的利用到的模板 UDF步骤: 1.必须继承org.apache.hadoop.hive.ql.exec.UDF 2.必须实现evaluate函数,evaluate函数支持重载 package com.alibaba.hive.udf; import org.apache.hadoop.hive.ql.exec.UDF public cla ...
hugh.wangp 评论(0) 有5943人浏览 2012-04-01 10:09

最近博客热门TAG

Java(141747) C(73651) C++(68608) SQL(64571) C#(59609) XML(59133) HTML(59043) JavaScript(54918) .net(54785) Web(54513) 工作(54116) Linux(50906) Oracle(49876) 应用服务器(43288) Spring(40812) 编程(39454) Windows(39381) JSP(37542) MySQL(37268) 数据结构(36423)

博客人气排行榜

    博客电子书下载排行

      >>浏览更多下载

      相关资讯

      相关讨论

      Global site tag (gtag.js) - Google Analytics