最新文章列表

hive修改已经存在的表

修改已经存在的表:alter tableAlter table 语句允许用户改变现有表的结构。用户可以增加列/分区,表本身重命名。1) 增加分区
超人学院 评论(0) 有167人浏览 2015-05-12 17:53

Hive几种导出数据方式

Hive几种导出数据方式   1.拷贝文件   如果数据文件恰好是用户需要的格式,那么只需要拷贝文件或文件夹就可以。 hadoop fs –cp source_path target_path   2.导出到本地文件系统   --不能使用insert into local directory来导出数据,会报错 --只能使用insert overwrite lo ...
daizj 评论(0) 有2250人浏览 2015-05-11 21:31

hive入门

什么是Hive Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供简单的sql查询功能,可以将sql语句转换为MapReduce任务进行运行。同时,这个语言也允许熟悉 MapReduce  开发者的开发自定义的 mapper  和 reducer  来处理内建的 mapper 和 reducer  无法完成的复杂的分析工作。 为什么 ...
超人学院 评论(0) 有302人浏览 2015-05-11 14:53

hive schema详解

schema设计 hive pattern && hiveanti-pattern1.Table by day 按照天分割数据,在relation中,这个参数不推荐,在hive中使用create table supply(id int,partstring,quantity int) partitioned by (int day)alter table supply ad ...
超人学院 评论(0) 有24人浏览 2015-05-08 16:13

Hive索引原理机制与使用

  文章来自:http://lxw1234.com/archives/2015/05/207.htm   Hive是支持索引的,但基本没用过,只做了下试验。 为什么大家都不用,肯定有它的弊端。   Hive ...
superlxw1234 评论(0) 有5118人浏览 2015-05-08 08:55

基于hive的日志数据统计实战

基于 hive 的日志数据统计实战 一、           hive 简介         hive 是一个基于 hadoop 的开源数据仓库工具,用于存储和处理海量结构化数据。    它把海量数据存储于 hadoop 文件系统,而不是数据库,但提供了一套类数据库的数据存储和处理机制,并采用 
ych0108 评论(0) 有3543人浏览 2015-05-04 13:38

Hive分析窗口函数(一) SUM,AVG,MIN,MAX

Hive中提供了越来越多的分析函数,用于完成负责的统计分析。抽时间将所有的分析窗口函数理一遍,将陆续发布。 今天先看几个基础的,SUM、AVG、MIN、MAX。 用于实现分组内所有和连续累积的统计。 Hive版本为 apache-hive-0.13.1   数据准备:     CREATE EXTERNAL TABLE lxw1234 ( cookieid st ...
superlxw1234 评论(0) 有2232人浏览 2015-04-24 14:18

Hive JDBC运行连接注意事项

通过jdbc方式连接hive,能让你非常方便、简单地去使用hadoop挖掘数据,门槛大大降低。其实连接方式很简单,但是第一次使用,总会有些莫名奇妙的错误,下面给出一些注意事项,希望对初学者有帮助。 首先我的环境:hadoop2.4.0+hive0.14.0。   所需jar包:       <classpathentry kind="lib" path=&quo ...
leobasic 评论(0) 有1318人浏览 2015-04-02 15:28

hive udaf入门

介绍 hive的用户自定义聚合函数(UDAF)是一个很好的功能,集成了先进的数据处理。hive有两种UDAF:简单和通用。顾名思义,简单的UDAF,写的相当简单的,但因为使用Java反射导致性能损失,而且有些特性不能使用,如可变长度参数列表。通用UDAF可以使用​​所有功能,但是UDAF就写的比较复杂,不直观。 本文只介绍通用UDAF。 UDAF是需要在hive的sql语句和group by ...
zhangxiong0301 评论(0) 有899人浏览 2015-03-30 16:18

hive DDL语法汇总

hive DDL语法汇总 1、对表重命名 hive> ALTER TABLE table_name RENAME TO new_table_name;   2、修改表备注 hive> ALTER TABLE table_name 
daizj 评论(0) 有4600人浏览 2015-03-25 20:30

记一次数据处理效率优化过程

  我们最原始的产品使用hive来进行数据分析和处理,由于我们的业务模型所限制,往往需要经过多轮的MR来完成任务,经过多轮的优化,虽然取得了一定的成果,但是执行速度还是不能满足产品的要求。   其实,当时考虑使用hive,是由于其基于SQL良好的扩展性为前提的,也就是说,以后我们在增加功能的时候,修改的部分很少,只需增加一些where,group by条件,就可以达成目的,hive也确实能够 ...
brandNewUser 评论(0) 有1231人浏览 2015-03-25 14:19

Hive去重复数据

Hive数据去重 insert overwrite table store select t.p_key,t.sort_word from ( select p_key, sort_word , row_number() over(distribute by p_key sort by sort_word) as rn ...
jack_boy 评论(0) 有7722人浏览 2015-03-23 15:33

hive 数据插入DML语法汇总

Hive的数据插入DML语法汇总1、Loading files into tables语法:1) LOAD DATA [LOCAL] INPATH 'filepath' [OVERWRITE] INTO TABLE tablename [PARTITION (partcol1=val1, partcol2=val2 ...)]解释:1)、上面命令执行环境为hive客户端环境下: hive> ...
daizj 评论(0) 有2322人浏览 2015-03-17 21:28

Hive中的排序语法

Hive中的排序语法 2014.06.22 ORDER BY hive中的ORDER BY语句和关系数据库中的sql语法相似。他会对查询结果做全局排序,这意味着所有的数据会传送到一个Reduce任务上,这样会导致在大数量的情况下,花费大量时间。 与数据库中 ORDER BY 的区别在于在hive.mapred.mode = strict模式下,必须指定 limit 否则执行会报错。 ...
daizj 评论(0) 有3156人浏览 2015-03-17 10:16

Yarn临时目录不足导致Hive任务失败

从一张已有的Hive Table中创建新表及Partition出现如下问题 原有Hive Table中有160g数据(为三个月中所有应用和服务器的用户访问记录) 新表选取需要字段,并按照应用/服务器Ip/访问时间创建Partition //创建table set hive.exec.dynamic.partition=true; set hive.exec.dynamic.par ...
philip_kissme 评论(0) 有6018人浏览 2015-03-16 12:19

hadoop hive hbase 入门学习 (三)

  //////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////// hadoop 自学系列 hadoop hive hbase 入门学习 (一 ...
knight_black_bob 评论(0) 有1896人浏览 2015-03-12 11:50

Hive Hbase integration (整合) 出现zk始终连接 localhost:2181

前提是 hive客户端和zk没在一台机器,hive只是作为客户端使用,没有和hadoop集群在一起。 hive 和 hbase 整合(integration) 的时候,在创建hive关联Hbase表的时候出现如下 zk始终连接localhost:2181,   建表语句如下: --------------------------------------------------------- ...
lucky_xingxing 评论(0) 有8673人浏览 2015-03-11 18:35

最近博客热门TAG

Java(141747) C(73651) C++(68608) SQL(64571) C#(59609) XML(59133) HTML(59043) JavaScript(54918) .net(54785) Web(54513) 工作(54116) Linux(50906) Oracle(49876) 应用服务器(43288) Spring(40812) 编程(39454) Windows(39381) JSP(37542) MySQL(37268) 数据结构(36423)

博客人气排行榜

    博客电子书下载排行

      >>浏览更多下载

      相关资讯

      相关讨论

      Global site tag (gtag.js) - Google Analytics