- 浏览: 256282 次
- 性别:
- 来自: 南京
最新评论
-
icecloudsky:
...
hive学习总结(5)—分区、分桶和索引 -
dyg540:
这篇文章不错,值得借鉴参考!
Web前端开发和JS面向对象编程分享 -
吴晓莹1989:
如果集群有独立的zookeeper集群,那么配置zookeep ...
sqoop1.4.5的安装 -
cumtheima:
大家有没有遇到“修改文件$HOME/.hiverc文件”这个啊 ...
hive学习总结(6)—hive参数设置方法 -
cumtheima:
文章不错,有待进步!
hive学习总结(5)—分区、分桶和索引
文章列表
(1)定义:
HBase : Hadoop Database,是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统。
利用HBase技术可在廉价PC Server上搭建起大规模结构化存储集群。
(2)HBase是Google Bigtable的开源实现
第一,用户思维
“独孤九剑”第一招是总诀式,意思是第一招学不会,后面的招数就很难领悟。互联网思维也一样。互联网思维,第一个,也是最重要的,就是用户思维。用户思维,是互联网思维的核心。其他思维都是围绕用户思维在不同层面的展开。没有用户思维,也就谈不上其他思维。
用户思维,是指在价值链各个环节中都要“以用户为中心”去考虑问题。
以用户为中心,不是刚刚冒出来的概念,很多传统品牌厂商都在叫嚷着“以用户为中心”、“以客户为中心”,或者“以消费者为中心”,为什么在互联网蓬勃发展的今天,用户思维是格外的重要?
因为,互联网消除了信息不对称,使得消费者掌握了更多的产品、价格、品牌方面的信息,互联网的存 ...
1.下载安装包及解压
sqoop-1.4.5.bin__hadoop-1.0.0.tar.gz
2.配置环境变量和配置文件
cd %SQOOP_HOME%
cp conf/sqoop-env-template.sh /conf/sqoop-env.sh
在sqoop-env.sh中添加如下代码:
export HADOOP_COMMON_HOME=/home/hadoop/hadoop
export HADOOP_MAPRED_HOME
hive学习总结(1)—Hive几种数据导入方式
hive学习总结(2)—Hive几种导出数据方式
hive学习总结(3)—从文件中加载执行语句
hive学习总结(4)—hive中所有join
hive学习总结(5)—分区、分桶和索引
hive学习总结(6)—hive参数设置方法
hive学习总结(7)—hive性能调优
hive学习总结(8)—hive注意点
hive学习总结(9)—数据库创建、表创建、加载数据
--创建数据库
create database if not exists sopdm
comment ‘this is test database’
with dbproperties(‘creator’=’gxw’,’date’=’2014-11-12’) --数据库键值对属性信息
location ‘/my/preferred/directory’;
--查看数据库的描述信息和文件目录位置路径信息
describe database sopdm;
--查看数据库的描述信息和文件目录位置路径信息(加上数据库键值对的属性信息)
describe data ...
--自动补全功能:tab键
--可以把“设置系统属性变量,增加hadoop分布式内存,自定义hive扩展的jar包”放在“$HOME/.hiverc”文件中
--在hive的CLI中执行bash shell命令
limit限制调整
--因为使用limit语句时候,是先执行整个查询语句,然后再返回部分结果的
set hive.limit.optimize.enable=true;
set hive.limit.row.max.size=10000;
set hive.limit.optimize.limit.file=10;
2.JOIN优化
。。。
1. 参数声明:在hive的CTL环境中设置(临时)
比如:set hive.fetch.task.conversion=more;
2.命令行设置:使用hadoop命令设置(临时)
hive --hiveconf hive.fetch.task.conversion=more;
3.配置文件:--${HIVE_HOME}/conf/hive-site.xml里面加入以下配置(长期)
<property>
<name>hive.fetch.task.conversion</name>
<value>more</v ...
1.分区
分区是以字段的形式在表结构中存在,通过describe table命令可以查看到字段存在, 但是该字段不存放实际的数据内容,仅仅是分区的表示(伪列)。
(1)静态分区
create table if not exists sopdm.wyp2(id int,name string,tel string)
partitioned by(age int)
row format delimited
fields terminated by ','
stored as textfile;
--overwrite是覆盖,into是追加
insert int ...
1. 内连接:inner join
--join优化:在进行join的时候,大表放在最后面
--但是使用 /*+streamtable(大表名称)*/ 来标记大表,那么大表放在什么位置都行了
select /*+streamtable(s)*/ s.ymd,d.dividend
from stocks s inner join dividends d on s.ymd=d.ymd and s.symbol=d.symbol
where s.symbol=’aapl’
2. 外连接:left outer join,right outer jo ...
1. 从文件中执行hql语句
hive -f test.hql;
2. 在hive shell中使用source执行脚本
source test.hql;
注:hive执行语句的文件通常使用.hql或.q为后缀名,但不是必须的。
1.拷贝文件
如果数据文件恰好是用户需要的格式,那么只需要拷贝文件或文件夹就可以。
hadoop fs –cp source_path target_path
2.导出到本地文件系统
--不能使用insert into local directory来导出数据,会报错
--只能使用insert overwrite local directory来导出数据
--hive0.11版本之前,只能使用默认分隔符^A(ascii码是\00001)
1.从本地文件系统中导入数据到hive表
(1)数据准备(/home/sopdm/test.dat):
1,wyp,25,13188888888
2,test,30,13899999999
3,zs,34,89931412
(2)首先创建表
use sopdm;
drop table if exists sopdm.wyp;
create table if not exists sopdm.wyp(id int,name string,age int,tel string)
row format delimited
StringUtils工具类的常用方法
StringUtils 方法的操作对象是 java.lang.String 类型的对象,是 JDK 提供的 String 类型操作方法的补充,并且是 null 安全的(即如果输入参数 String为 null 则不会抛出 NullPointerException ,而是做了相应处理,例如,如果输入为 null 则返回也是 null 等,具体可以查看源代码)。除了构造器,StringUtils 中一共有130多个方法,并且都
1、create CREATE SEQUENCE <sequence-name> AS data-type 默认 As Integer START WITH <numeric-constant>