最新文章列表

[转] Hive 基础(1):分区、桶、Sort Merge Bucket Join

Hive 已是目前业界最为通用、廉价的构建大数据时代数据仓库的解决方案了,虽然也有 Impala 等后起之秀,但目前从功能、稳定性等方面来说,Hive 的地位尚不可撼动。 其实这篇博文主要是想聊聊 SMB join 的,Join 是整个 MR/Hive 最为核心的部分之一,是每个 Hadoop/Hive/DW RD 必须掌握的部分,之前也有几篇文章聊到过 MR/Hive 中的 join,其 ...
107x 评论(0) 有1312人浏览 2015-09-14 15:34

算法排序之最简单最快的排序--桶排序(Bucket Sort)

桶排序(Bucket Sort):主要原理是将数组分到有限数量的桶子里,每个桶子再按个别排序(有可能再使用别的排序算法或是以递归方式继续使用桶排序进行排序)。 桶排序相对于同样的N,桶数量M越大,其效率越高,最好的时间复杂度能达到O(N)。当然桶排序的空间复杂度为O(N+M),如果输入数据非常庞大,而桶的数量也会非常多,则空间代价无疑是昂贵的。 PS:此次我分享的并不是真正的桶排序算法,而是 ...
zhijun156 评论(0) 有1436人浏览 2014-08-17 17:09

百度云存储空间使用问题

1. bcs中的bucket当我们覆盖上传文件的话,是按照多版本存储的。    所以会存在文件虽然是一个,实际大小却比一个文件多的情况    目前如果上传的话只能先删除原来的版本。或者控制文件名唯一。
DLFSEEIT 评论(0) 有638人浏览 2013-12-17 10:34

hive--Sort Merge Bucket Map Join

Bucket Map Join   1. 测试1:两个1亿多记录的表,不存在数据倾斜与笛卡尔积,测试下来与普通的join差不多;   2. 测试2:一个4000万和一个5000多万的表join,关联键数据倾斜,并且笛卡尔积,效果明显;   create table lxw_test(imei string,sndaid string,data_time string) CL ...
superlxw1234 评论(1) 有8755人浏览 2012-05-30 19:31

最近博客热门TAG

Java(141747) C(73651) C++(68608) SQL(64571) C#(59609) XML(59133) HTML(59043) JavaScript(54918) .net(54785) Web(54513) 工作(54116) Linux(50906) Oracle(49876) 应用服务器(43288) Spring(40812) 编程(39454) Windows(39381) JSP(37542) MySQL(37268) 数据结构(36423)

博客人气排行榜

    博客电子书下载排行

      >>浏览更多下载

      相关资讯

      相关讨论

      Global site tag (gtag.js) - Google Analytics