- 浏览: 40204 次
- 性别:
- 来自: 上海
最新评论
-
xjl456852:
你好,我在执行job时出错了,不知道什么原因,请问这是什么情况 ...
Sqoop 1.99.3 with hadoop-2.3.0 使用 2
文章列表
hbase rowkey设计
- 博客分类:
- hbase
hbase的设计:1.每一行数据必定是给某一个应用所使用的.即有一个appkey 如 942382.rowkey 就应该是这样了
concat_ws('\u0004' --使用 \u0004 作为每个字段分隔符
,concat(substr(md5(concat('app_name','94238')),1,4),':md5') --使用md5打散不同app的存放位 ...
写HQL语句的时候常常会遇到表Join的情况,一个简单的Join会被Hive解释成一个MapReduce任务,Map端分别读取两个表的数据,Reduce做真正的Join操作。
如果执行的过程中,如果发现有些Reduce任务比其他的Reduce任务慢很多,往往是发生了倾斜问题。
问题分析
select
a.*,
b.cat_name
from
dim_auction a
join
dim_category b
on a.cat_id=b.cat_id
Join会被Hive解释成一个MapReduce任务时,Map端输出的记录是以Jo ...
hbase 扫盲和 kv 设计
- 博客分类:
- hbase
hbase 不像传统数据库.区别主要是 orcl 里面 建表 要指定多少列,数据类型 等.hbase 里面 也有建表的概念,但是只不过定义了一个表名,里面的列是不定义的.任何数据都可以往表里面塞,换句话,如果我忘记了 塞了什么,都没地方去查.这 ...
Hive 压缩比较
- 博客分类:
- hadoop sqoop hive
set hive.exec.compress.intermediate=false;
set mapred.output.compress=false;
create table a as select * from dimdate;
Table default.a stats: [numFiles=1, numRows=1188, totalSize=90068, rawDataSize=88880]
Job 0: Map: 1 Cumulative CPU: 1.88 sec HDFS Read: 6083 HDFS Write: 90138 SUCCESS
...
翻译自 https://cwiki.apache.org/confluence/display/Hive/Enhanced+Aggregation%2C+Cube%2C+Grouping+and+Rollup这篇文章是用来描述优化集合函数 group by 的, 这些函数是0.10版本以后才被添加进hive的,并且在0.11中做了优化。GROUPING SETS clause (Grouping的用法)GROUPING SETS子句中的GROUP BY允许我们在同一个记录集指定多个group by。所有的分组集子句在逻辑上可以表现为多个GROUP BY的UNION连接查询。Tab ...
原文 https://cwiki.apache.org/confluence/display/Hive/StatsDev
hive的统计信息搜集
动机
范围
执行
用法
变量配置
全新的表
现有的表
例子
Motivation 动机
统计信息,例如一个表有多少行,多少个分区,列的直方图等重要的信息。统计信息的关键作用是查询优化。把统计信息作为输入,通过成本优化函数,可以方便的比较不同的查询方案,并且从中进行选择。统计数据有时可以直接满足用户的查询目的。比如他们只是查询一些基础数据,而不需要通过运行执行计划.举几个例子,得到用户的年龄分布,人们使用的top1 ...
ORC File 翻译
- 博客分类:
- hadoop sqoop hive
转帖翻译 http://www.iteblog.com/archives/1014
原文 https://cwiki.apache.org/confluence/display/Hive/LanguageManual+ORC
一、定义
ORC File,它的全名是Optimized Row Columnar (ORC) file,其实就是对RCFile做了一些优化。据官方文档介绍,这种文件格式可以提供一种高效的方法来存储Hive数据。它的设计目标是来克服Hive其他格式的缺陷。运用ORC File可以提高Hive的读、写以及处理数据的性能。和RCFile格式相比,ORC File格式 ...
这次使用 压缩,因为压不压相差10倍呢,但是不使用 sequencefile ,因为打算在hive 中使用 RCFIle来存数据,
--compress
--compression-codec
org.apache.hadoop.io.compress.BZip2Codec
使用的Bzip
当然hive的表也自动存为Bzip的.
但是 如果hive 使用RCFile 存储,
create table table_rcfile STORED AS RCFile as
select * from table_bzip;
会报错
Failed with excep ...
翻译自 https://cwiki.apache.org/confluence/display/Hive/LanguageManual+JoinOptimization#LanguageManualJoinOptimization-AutoConversiontoSMBMapJoin目录结构
Join Optimization ----Join 调优
Improvements to the Hive Optimizer ----Hive的优化
Star Join Optimization ----星型结构的优 ...
Hive 的join
- 博客分类:
- hadoop sqoop hive
直接就总结了
1. join 中不能包含不等的操作( 大于,小于,不等)
select * from a
inner join b
on a.a>b.a
2.Join 中也不能有 OR 这种谓词
3.小表在前,大表在后
4.但是也可以颠倒,但是要用 STREAMTABLE来指定那个是大表
SELECT /*+ STREAMTABLE(a) */ a.val, b.val, c.val
FROM a
JOIN b ON (a.key = b.key1)
JOIN c ON (c.key = b.key1)
5.join比where的优 ...
如果数据库类型是 date类型的就比较麻烦了,直接搞进hive 不行,因为hive只有timestamp,而去format还是 yyyy-mm-dd hh:mm:ss的
有2个办法,先导入临时表 ,临时表是string的类型(String的format是 yyyy-mm-dd),然后再往正式表里插
insert ...
1.修改配置 /home/sqoop-1.4.4/conf/sqoop-env.sh
export HADOOP_COMMON_HOME=/home/hadoop-2.3.0
export HADOOP_MAPRED_HOME=/home/hadoop-2.3.0
#export HBASE_HOME=/usr/local/hbase
export HIVE_HOME=/home/hive-0.10.0
#export ZOOCFGDIR=/usr/local/zookeeper
2.加入配置 /etc/profile
export J ...
使用压缩来看看
sqoop:000> update job --jid 1
Compression format:
0 : NONE
1 : DEFAULT
2 : DEFLATE
3 : GZIP
4 : BZIP2
5 : LZO
6 : LZ4
7 : SNAPPY
Choose: 3
Output directory: /home/dimDateGZip
Job was successfully updated with status FINE
使用Gzip
同样的job 跑出来的不一样
[roo ...
连接建好 就开始建Job了
sqoop:000> create job --xid 1 --type import
Creating job for connection with id 1
Please fill following values to create new job object
Name: dimDate
Database configuration
Schema name: dbo
Table name: dimDate
Table SQL statement:
Table column names:
Partition colum ...
使用 sqoop-1.99.3-bin-hadoop200 配置如下1.解压tar -xvf sqoop--bin-hadoop.tar.gz 2.加入配置文件 server/conf/catalina.properties 中的common.loader 属性加入hadoop2的lib因为hadoop_home 下的lib是空的 所以指向 /home/hadoop-2.3.0/share/hadoop/common/*.jar/home/hadoop-2.3.0/share/hadoop/common/lib/*.jar/home/hadoop-2.3.0/share/hadoop/yar ...