hbase rowkey设计

博客分类：

hbase

hbase的设计:1.每一行数据必定是给某一个应用所使用的.即有一个appkey 如 942382.rowkey 就应该是这样了 concat_ws('\u0004' --使用 \u0004 作为每个字段分隔符 ,concat(substr(md5(concat('app_name','94238')),1,4),':md5') --使用md5打散不同app的存放位� ...

2015-11-26 16:29
浏览 1817
评论(0)
分类:数据库

写HQL语句的时候常常会遇到表Join的情况，一个简单的Join会被Hive解释成一个MapReduce任务，Map端分别读取两个表的数据，Reduce做真正的Join操作。如果执行的过程中，如果发现有些Reduce任务比其他的Reduce任务慢很多，往往是发生了倾斜问题。问题分析 select a.*, b.cat_name from dim_auction a join dim_category b on a.cat_id=b.cat_id Join会被Hive解释成一个MapReduce任务时，Map端输出的记录是以Jo ...

2015-05-25 10:24
浏览 2004
评论(0)
分类:数据库

hbase 扫盲和 kv 设计

博客分类：

hbase

hbase 不像传统数据库.区别主要是 orcl 里面建表要指定多少列,数据类型等.hbase 里面也有建表的概念,但是只不过定义了一个表名,里面的列是不定义的.任何数据都可以往表里面塞,换句话,如果我忘记了塞了什么,都没地方去查.这 ...

2014-12-15 10:55
浏览 2219
评论(0)
分类:互联网

Hive 压缩比较

博客分类：

hadoop sqoop hive

set hive.exec.compress.intermediate=false; set mapred.output.compress=false; create table a as select * from dimdate; Table default.a stats: [numFiles=1, numRows=1188, totalSize=90068, rawDataSize=88880] Job 0: Map: 1 Cumulative CPU: 1.88 sec HDFS Read: 6083 HDFS Write: 90138 SUCCESS ...

2014-05-21 11:10
浏览 1550
评论(0)
分类:数据库

Enhanced Aggregation, Cube, Grouping and Rollup 优化聚合函数

博客分类：

hadoop sqoop hive

翻译自 https://cwiki.apache.org/confluence/display/Hive/Enhanced+Aggregation%2C+Cube%2C+Grouping+and+Rollup这篇文章是用来描述优化集合函数 group by 的，这些函数是0.10版本以后才被添加进hive的，并且在0.11中做了优化。GROUPING SETS clause （Grouping的用法）GROUPING SETS子句中的GROUP BY允许我们在同一个记录集指定多个group by。所有的分组集子句在逻辑上可以表现为多个GROUP BY的UNION连接查询。Tab ...

2014-05-16 11:08
浏览 1564
评论(0)
分类:数据库

Statistics in Hive （hive的统计信息搜集）翻译

博客分类：

hadoop sqoop hive

原文 https://cwiki.apache.org/confluence/display/Hive/StatsDev hive的统计信息搜集动机范围执行用法变量配置全新的表现有的表例子 Motivation 动机统计信息，例如一个表有多少行，多少个分区，列的直方图等重要的信息。统计信息的关键作用是查询优化。把统计信息作为输入，通过成本优化函数，可以方便的比较不同的查询方案，并且从中进行选择。统计数据有时可以直接满足用户的查询目的。比如他们只是查询一些基础数据，而不需要通过运行执行计划.举几个例子，得到用户的年龄分布，人们使用的top1 ...

2014-05-13 21:49
浏览 5459
评论(0)
分类:数据库

ORC File 翻译

博客分类：

hadoop sqoop hive

转帖翻译 http://www.iteblog.com/archives/1014 原文 https://cwiki.apache.org/confluence/display/Hive/LanguageManual+ORC 一、定义　　ORC File，它的全名是Optimized Row Columnar (ORC) file，其实就是对RCFile做了一些优化。据官方文档介绍，这种文件格式可以提供一种高效的方法来存储Hive数据。它的设计目标是来克服Hive其他格式的缺陷。运用ORC File可以提高Hive的读、写以及处理数据的性能。和RCFile格式相比，ORC File格式 ...

2014-04-22 16:30
浏览 1533
评论(0)
分类:数据库

sqoop 1.4.4 使用3

博客分类：

hadoop sqoop hive

这次使用压缩，因为压不压相差10倍呢，但是不使用 sequencefile ，因为打算在hive 中使用 RCFIle来存数据， --compress --compression-codec org.apache.hadoop.io.compress.BZip2Codec 使用的Bzip 当然hive的表也自动存为Bzip的. 但是如果hive 使用RCFile 存储， create table table_rcfile STORED AS RCFile as select * from table_bzip; 会报错 Failed with excep ...

2014-04-03 08:50
浏览 1137
评论(0)
分类:数据库

Hive Join 优化翻译

博客分类：

hadoop sqoop hive

翻译自 https://cwiki.apache.org/confluence/display/Hive/LanguageManual+JoinOptimization#LanguageManualJoinOptimization-AutoConversiontoSMBMapJoin目录结构 Join Optimization ----Join 调优 Improvements to the Hive Optimizer ----Hive的优化 Star Join Optimization ----星型结构的优 ...

2014-04-02 22:10
浏览 2485
评论(0)
分类:数据库

Hive 的join

博客分类：

hadoop sqoop hive

直接就总结了 1. join 中不能包含不等的操作( 大于，小于，不等) select * from a inner join b on a.a>b.a 2.Join 中也不能有 OR 这种谓词 3.小表在前，大表在后 4.但是也可以颠倒，但是要用 STREAMTABLE来指定那个是大表 SELECT /*+ STREAMTABLE(a) */ a.val, b.val, c.val FROM a JOIN b ON (a.key = b.key1) JOIN c ON (c.key = b.key1) 5.join比where的优 ...

2014-04-01 16:02
浏览 2410
评论(0)
分类:数据库

sqoop 1.4.4 使用2

博客分类：

hadoop sqoop hive

如果数据库类型是 date类型的就比较麻烦了，直接搞进hive 不行，因为hive只有timestamp，而去format还是 yyyy-mm-dd hh:mm:ss的有2个办法，先导入临时表，临时表是string的类型（String的format是 yyyy-mm-dd），然后再往正式表里插 insert ...

2014-03-26 15:19
浏览 1068
评论(0)
分类:数据库

sqoop 1.4.4 使用1

博客分类：

hadoop sqoop hive

1.修改配置 /home/sqoop-1.4.4/conf/sqoop-env.sh export HADOOP_COMMON_HOME=/home/hadoop-2.3.0 export HADOOP_MAPRED_HOME=/home/hadoop-2.3.0 #export HBASE_HOME=/usr/local/hbase export HIVE_HOME=/home/hive-0.10.0 #export ZOOCFGDIR=/usr/local/zookeeper 2.加入配置 /etc/profile export J ...

2014-03-26 14:48
浏览 1210
评论(0)
分类:数据库

Sqoop 1.99.3 with hadoop-2.3.0 使用 3

博客分类：

hadoop sqoop hive

使用压缩来看看 sqoop:000> update job --jid 1 Compression format: 0 : NONE 1 : DEFAULT 2 : DEFLATE 3 : GZIP 4 : BZIP2 5 : LZO 6 : LZ4 7 : SNAPPY Choose: 3 Output directory: /home/dimDateGZip Job was successfully updated with status FINE 使用Gzip 同样的job 跑出来的不一样 [roo ...

2014-03-20 16:46
浏览 935
评论(0)
分类:数据库

Sqoop 1.99.3 with hadoop-2.3.0 使用 2

博客分类：

hadoop sqoop hive

连接建好就开始建Job了 sqoop:000> create job --xid 1 --type import Creating job for connection with id 1 Please fill following values to create new job object Name: dimDate Database configuration Schema name: dbo Table name: dimDate Table SQL statement: Table column names: Partition colum ...

2014-03-20 15:33
浏览 3388
评论(1)
分类:数据库

Sqoop 1.99.3 with hadoop-2.3.0 使用1

博客分类：

hadoop sqoop hive

使用 sqoop-1.99.3-bin-hadoop200 配置如下1.解压tar -xvf sqoop--bin-hadoop.tar.gz 2.加入配置文件 server/conf/catalina.properties 中的common.loader 属性加入hadoop2的lib因为hadoop_home 下的lib是空的所以指向 /home/hadoop-2.3.0/share/hadoop/common/*.jar/home/hadoop-2.3.0/share/hadoop/common/lib/*.jar/home/hadoop-2.3.0/share/hadoop/yar ...

2014-03-19 16:54
浏览 3850
评论(0)
分类:数据库

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

hbase rowkey设计

转:hive表Join的倾斜问题以及解决方法

hbase 扫盲和 kv 设计

Hive 压缩比较

Enhanced Aggregation, Cube, Grouping and Rollup 优化聚合函数

Statistics in Hive （hive的统计信息搜集）翻译

ORC File 翻译

sqoop 1.4.4 使用3

Hive Join 优化翻译

Hive 的join

sqoop 1.4.4 使用2

sqoop 1.4.4 使用1

Sqoop 1.99.3 with hadoop-2.3.0 使用 3

Sqoop 1.99.3 with hadoop-2.3.0 使用 2

Sqoop 1.99.3 with hadoop-2.3.0 使用1

最近访客 更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

最近访客更多访客>>