最新文章列表

hive函数

用pig的时候,超不爱用pig带的函数,一般都自己写 但是用hive,就越来越懒,变成了能不写就不写自己的udf,哈哈   https://cwiki.apache.org/confluence/display/ ...
blackproof 评论(0) 有1761人浏览 2014-12-08 13:25

hive gateway(client) configuration

配置hive gateway机器 Caused by: MetaException(message:Could not connect to meta store using any of the URIs provided. Most recent failure: org.apache.thrift.transport.TTransportException: GSS initiate fail ...
lookqlp 评论(0) 有8117人浏览 2014-12-02 14:32

hive实例讲解实现in和not in子句

本文转自:http://www.cnblogs.com/ggjucheng/archive/2013/01/03/2842855.html 当前hive不支持 in或not in 中包含查询子句的语法,所以只能通过left join实现。 假设有一个登陆表login(当天登陆记录,只有一个uid),和一个用户注册表regusers(当天注册用户,字段只有一个uid),这两个表都包含一个字段,u ...
daizj 评论(0) 有1405人浏览 2014-12-01 13:26

hive学习总结系列—目录导航

hive学习总结(1)—Hive几种数据导入方式 hive学习总结(2)—Hive几种导出数据方式 hive学习总结(3)—从文件中加载执行语句 hive学习总结(4)—hive中所有join hive学习总结(5)—分区、分桶和索引 hive学习总结(6)—hive参数设置方法 hive学习总结(7)—hive性能调优 hive学习总结(8)—hive注意点 hive学习总结( ...
cumtheima 评论(0) 有2190人浏览 2014-11-25 23:06

hive学习总结(9)—数据库创建、表创建、加载数据

--创建数据库 create database if not exists sopdm comment ‘this is test database’ with dbproperties(‘creator’=’gxw’,’date’=’2014-11-12’)     --数据库键值对属性信息 location ‘/my/preferred/directory’;     --查看 ...
cumtheima 评论(0) 有56257人浏览 2014-11-25 23:00

hive学习总结(8)—hive注意点

--自动补全功能:tab键     --可以把“设置系统属性变量,增加hadoop分布式内存,自定义hive扩展的jar包”放在“$HOME/.hiverc”文件中     --在hive的CLI中执行bash shell命令
cumtheima 评论(0) 有4417人浏览 2014-11-24 19:41

hive学习总结(7)—hive性能调优

limit限制调整 --因为使用limit语句时候,是先执行整个查询语句,然后再返回部分结果的 set hive.limit.optimize.enable=true; set hive.limit.row.max.size=10000; set hive.limit.optimize.limit.file=10;   2.JOIN优化 。。。  
cumtheima 评论(0) 有12583人浏览 2014-11-24 19:35

hive学习总结(6)—hive参数设置方法

1. 参数声明:在hive的CTL环境中设置(临时) 比如:set hive.fetch.task.conversion=more;   2.命令行设置:使用hadoop命令设置(临时) hive --hiveconf hive.fetch.task.conversion=more;   3.配置文件:--${HIVE_HOME}/conf/hive-site.xml里面加入以下配置 ...
cumtheima 评论(1) 有3631人浏览 2014-11-23 00:29

hive学习总结(5)—分区、分桶和索引

1.分区   分区是以字段的形式在表结构中存在,通过describe table命令可以查看到字段存在, 但是该字段不存放实际的数据内容,仅仅是分区的表示(伪列)。   (1)静态分区 create table if not exists sopdm.wyp2(id int,name string,tel string) partitioned by(age int) row for ...
cumtheima 评论(2) 有11622人浏览 2014-11-23 00:27

过早优化是万恶之源

Don’t Cut Yourself: Code Optimization as a Double-Edged Sword。中文翻译:过早优化是万恶之源。   代码优化的好处多多,但是这并不意味着所有的代码都 ...
jiezhu2007 评论(0) 有2455人浏览 2014-11-22 15:23

HiveServer2 JDBC GUI客户端

做了这么多年JAVA没有做过一个开源软件,最近一直在做hadoop的东西,也在使用hive发现,现在市面上没有见到关于hive server2 gui 的客户端,由于自己使用较多所以自己就写了一个,方便自己,现在开源出来也方便一下其他人吧。下载地址:https://github.com/tinycalf/HiveTools 如果你也正需要就下载试用一下吧。 如果您觉得在使用过程中遇到了一些问题 ...
lcyrAtve 评论(0) 有786人浏览 2014-11-21 21:22

hive学习总结(4)—hive中所有join

1.  内连接:inner join   --join优化:在进行join的时候,大表放在最后面   --但是使用 /*+streamtable(大表名称)*/ 来标记大表,那么大表放在什么位置都行了   select /*+streamtable(s)*/ s.ymd,d.dividend   from stocks s inner join dividends d on s. ...
cumtheima 评论(1) 有16799人浏览 2014-11-21 11:26

hive学习总结(3)—从文件中加载执行语句

1. 从文件中执行hql语句          hive -f test.hql;   2. 在hive shell中使用source执行脚本         source test.hql;   注:hive执行语句的文件通常使用.hql或.q为后缀名,但不是必须的。
cumtheima 评论(2) 有2825人浏览 2014-11-21 11:18

Hadoop HBase Hive伪分布式环境搭建

Hadoop HBase Hive 启动: $HADOOP_HOME/bin/start-all.sh $HBASE_HOME/bin/start-hbase.sh $HIVE_HOME/bin/hive start 环境配置 1、JDK安装 2、SSH配置 3、环境变量 /etc/profile     export JAVA_HOME=/usr/lib/jvm/jdk1. ...
fally 评论(0) 有2342人浏览 2014-11-20 16:15

hive学习总结(2)—Hive几种导出数据方式

1.拷贝文件   如果数据文件恰好是用户需要的格式,那么只需要拷贝文件或文件夹就可以。 hadoop fs –cp source_path target_path   2.导出到本地文件系统   --不能使用insert into local directory来导出数据,会报错 --只能使用insert overwrite local directory来导出数据   ...
cumtheima 评论(1) 有8862人浏览 2014-11-20 15:04

hive学习总结(1)—Hive几种数据导入方式

1.从本地文件系统中导入数据到hive表   (1)数据准备(/home/sopdm/test.dat):     1,wyp,25,13188888888   2,test,30,13899999999   3,zs,34,89931412   (2)首先创建表 use sopdm; drop table if exists sopdm.wyp; create table ...
cumtheima 评论(1) 有18903人浏览 2014-11-20 14:56

一套数据,多种引擎续---两种数据格式(Parquet/ORCfile)浅析

最近主要在研究大数典型应用adhoc query,要实现秒级的adhoc query,通常有3种思路: 1、用搜索技术,将查询都建立索引,然后用搜索技术来实现。这种技术目前主要限制是索引建立和存储成本高,索引建立不及时,例如支付宝的higo。 2、实时计算,对不能指定维度的查询,理论上认为是实时计算,每个列上建立函数索引,这种典型的代表是mesa。关于mesa,前面我有篇简单的介绍性文章《
jiezhu2007 评论(0) 有10952人浏览 2014-11-15 19:30

hive join

hive(0.9.0):1.支持equality joins, outer joins, and left semi joins2.只支持等值条件3.支持多表join原理hive执行引擎会将HQL“翻译”成为map-reduce任务,如果多张表使用同一列做join则将被翻译成一个reduce,否则将被翻译成多个map-reduce任务。eg:SELECT a.val, b.val, c.val F ...
blackproof 评论(0) 有1287人浏览 2014-11-13 16:49

Hive并行排序

set hive.optimize.sampling.orderby=true;set hive.optimize.sampling.orderby.number=10000;set hive.optimize.sampling.orderby.percent=0.1f;     记录一下,Hive中并行排序参数;   hive.optimize.sampling.orderby    ...
superlxw1234 评论(0) 有1590人浏览 2014-11-13 14:31

最近博客热门TAG

Java(141747) C(73651) C++(68608) SQL(64571) C#(59609) XML(59133) HTML(59043) JavaScript(54918) .net(54785) Web(54513) 工作(54116) Linux(50906) Oracle(49876) 应用服务器(43288) Spring(40812) 编程(39454) Windows(39381) JSP(37542) MySQL(37268) 数据结构(36423)

博客人气排行榜

    博客电子书下载排行

      >>浏览更多下载

      相关资讯

      相关讨论

      Global site tag (gtag.js) - Google Analytics