本月博客排行
年度博客排行
-
第1名
宏天软件 -
第2名
青否云后端云 -
第3名
龙儿筝 - gashero
- wallimn
- vipbooks
- wy_19921005
- benladeng5225
- fantaxy025025
- e_e
- zysnba
- ssydxa219
- sam123456gz
- javashop
- arpenker
- tanling8334
- kaizi1992
- xpenxpen
- xiangjie88
- wiseboyloves
- ranbuijj
- ganxueyun
- xyuma
- sichunli_030
- wangchen.ily
- lemonhandsome
- jh108020
- zxq_2017
- jbosscn
- Xeden
- luxurioust
- zhanjia
- lzyfn123
- forestqqqq
- ajinn
- nychen2000
- wjianwei666
- daizj
- hanbaohong
- 喧嚣求静
- johnsmith9th
- silverend
- kingwell.leng
- lchb139128
- kristy_yy
- lich0079
- jveqi
- java-007
- sunj
- yeluowuhen
最新文章列表
Hive – 基于HADOOP的数据仓库
wget http://mirror.bit.edu.cn/apache/hive/hive-0.11.0/hive-0.11.0-bin.tar.gz
tar -xzvf hive-0.11.0-bin.tar.gz
cd hive-0.11.0-bin
sudo vi /etc/profile
增加:
export HIVE_HOME=/home/ysc/hive-0.10 ...
HBase Thrift 接口的一些使用问题及相关注意事项
HBase对于非Java语言提供了Thrift接口支持,这里结合对HBase Thrift接口(HBase版本为0.92.1)的使用经验,总结其中遇到的一些问题及其相关注意事项。
1. 字节的存放顺序
HBase中,由于row(row key和column family、column qualifier、time stamp)是按照字典序进行排序的,因此,对于short、int、long等类 ...
Hive 数据倾斜总结
转载:http://www.tbdata.org/archives/2109
几个比较特殊的点都提到了,大家可以作为参考。
在做Shuffle阶段的优化过程中,遇到了数据倾斜的问题,造成了对一些情况下优化效果不明显。主要是因为在Job完成后的所得到的Counters是整个Job的总和,优化是基于这些Counters得出的平均值,而由于数据倾斜的原因造成map处理数据量的差异过大,使得这些 ...
Hive - hive.groupby.skewindata环境变量与负载均衡
HiveQL 去重操作
和SQL一样,HiveQL中同样支持DISTINCT操作,如下示例:
(1) SELECT count(DISTINCT uid) FROM log
(2) SELECT ip, count(DISTINCT uid) FROM log GROUP BY ip
(3) SELECT ip, count(DISTINCT uid, uname) FROM log GR ...
Hive优化2
Hive是将符合SQL语法的字符串解析生成可以在Hadoop上执行的MapReduce的工具。
使用Hive尽量按照分布式计算的一些特点来设计sql,和传统关系型数据库有区别,
所以需要去掉原有关系型数据库下开发的一些固有思维。
基本原则:
1:尽量尽早地过滤数据,减少每个阶段的数据量,对于分区表要加分区,同时只选择需要使用到的字段
select ... from A
join ...
Hive优化总结(转)
优化时,把hive sql当做map reduce程序来读,会有意想不到的惊喜。
理解hadoop的核心能力,是hive优化的根本。这是这一年来,项目组所有成员宝贵的经验总结。
长期观察hadoop处理数据的过程,有几个显著的特征:
1.不怕数据多,就怕数据倾斜。
2.对jobs数比较多的作业运行效率相对比较低,比如即使有几百行的表,如果多次关联多次汇总,产生十几个jobs,没半小时 ...
Hive/Impala/集算器性能对比测试报告(下)——关联计算
上篇进行过Hive/Impala/集算器的分组计算的性能测试,本篇进行关联计算的性能测试及结果说明。
窄表的关联计算测试
数据样本
被关联表p_narrow。
列数:11
行数:5亿
文本状态下所占空间:120.6G。
数据结构: personid int,name string,sex int, ...
大数据潮流已经来临 ---- ITSoku带你一周快速掌握Hadoop开发与实战!
大数据的潮流已经来临,未来也将是数据的时代,Hadoop正是为大数据而来,为此ITSoku搜集了目前最好的相关视频,然后进行整理出能让我们在最短的时间中掌握该技术的整套视频专辑,分享给各位想学习Hadoop的朋友们,只希望大家学习Hadoop更容易更高效一些。
1. 炼数成金 hadoop 视频教程 (此专辑更注重于理论)
2.Hadoop实战视频专辑 (此专辑更注重于实战)
以 ...
大数据来袭-Hadoop实战视频专辑带你快速入门到精通!
简介:本视频从网络上整理而来,是传智播客开办Hadoop培训以来的第一部视频教程,内容讲解精细,实战实例,分享到这里大家共同学习。
1 Hadoop实战_1
2013-12-15 10:27 | 播放(2) | 评论(0) | 时长:50:17
GitHub项目Storm-HBase介绍
Storm-HBase,该项目是Twitter Storm和Apache HBase的结合,它使用HBase cluster作为Storm的Spout数据源,目前只是初步实现,后续会进一步完善。HBaseSpout根据时间戳范围[start_timestamp, stop_timestamp],持续不间断地从HBase cluster读取流数据:
如果start_timestamp = 0 ...
[半转]遇到Map-side Aggregation OOM 异常
原文来自:http://blog.csdn.net/macyang/article/details/9260777
通读了一下,进行翻译:
在MapReduce job下面,有个Combiner,工作机制是将Reducer的工作分担一部分给Map阶段来做。
在Hive的执行计划优化中也是如此,默认情况下会开启Map-side Aggregation优化的功能。
select ...
[转]Hive实现Oracle wm_concat函数
工作中遇到将Hive数据组装同步到MongoDB的需求。
于是乎,传统的DB设计结构就遇到了难题,因此需要有个向WM_CONCAT的函数来将列转行。
还好有现成的解决方案,否则又要自己码一个UDAF处理函数。
hive> desc t;
OK
id string
str string
Time taken: 0 ...