本月博客排行
-
第1名
龙儿筝 -
第2名
johnsmith9th -
第3名
wy_19921005 - zysnba
- sgqt
- lemonhandsome
- sichunli_030
年度博客排行
-
第1名
宏天软件 -
第2名
青否云后端云 -
第3名
龙儿筝 - gashero
- wallimn
- vipbooks
- benladeng5225
- wy_19921005
- fantaxy025025
- e_e
- zysnba
- ssydxa219
- sam123456gz
- javashop
- arpenker
- tanling8334
- kaizi1992
- xpenxpen
- wiseboyloves
- xiangjie88
- ranbuijj
- ganxueyun
- sichunli_030
- xyuma
- wangchen.ily
- jh108020
- lemonhandsome
- zxq_2017
- jbosscn
- johnsmith9th
- Xeden
- luxurioust
- lzyfn123
- zhanjia
- forestqqqq
- ajinn
- nychen2000
- wjianwei666
- hanbaohong
- daizj
- 喧嚣求静
- silverend
- mwhgJava
- kingwell.leng
- lchb139128
- lich0079
- kristy_yy
- jveqi
- java-007
- sunj
最新文章列表
Hive几种导出数据方式
Hive几种导出数据方式
1.拷贝文件
如果数据文件恰好是用户需要的格式,那么只需要拷贝文件或文件夹就可以。
hadoop fs –cp source_path target_path
2.导出到本地文件系统
--不能使用insert into local directory来导出数据,会报错
--只能使用insert overwrite lo ...
hive schema详解
schema设计
hive pattern && hiveanti-pattern1.Table by day 按照天分割数据,在relation中,这个参数不推荐,在hive中使用create table supply(id int,partstring,quantity int) partitioned by (int day)alter table supply ad ...
Hive索引原理机制与使用
文章来自:http://lxw1234.com/archives/2015/05/207.htm
Hive是支持索引的,但基本没用过,只做了下试验。 为什么大家都不用,肯定有它的弊端。
Hive ...
Hive分析窗口函数(一) SUM,AVG,MIN,MAX
Hive中提供了越来越多的分析函数,用于完成负责的统计分析。抽时间将所有的分析窗口函数理一遍,将陆续发布。
今天先看几个基础的,SUM、AVG、MIN、MAX。
用于实现分组内所有和连续累积的统计。
Hive版本为 apache-hive-0.13.1
数据准备:
CREATE EXTERNAL TABLE lxw1234 (
cookieid st ...
Hive JDBC运行连接注意事项
通过jdbc方式连接hive,能让你非常方便、简单地去使用hadoop挖掘数据,门槛大大降低。其实连接方式很简单,但是第一次使用,总会有些莫名奇妙的错误,下面给出一些注意事项,希望对初学者有帮助。
首先我的环境:hadoop2.4.0+hive0.14.0。
所需jar包:
<classpathentry kind="lib" path=&quo ...
hive udaf入门
介绍
hive的用户自定义聚合函数(UDAF)是一个很好的功能,集成了先进的数据处理。hive有两种UDAF:简单和通用。顾名思义,简单的UDAF,写的相当简单的,但因为使用Java反射导致性能损失,而且有些特性不能使用,如可变长度参数列表。通用UDAF可以使用所有功能,但是UDAF就写的比较复杂,不直观。
本文只介绍通用UDAF。
UDAF是需要在hive的sql语句和group by ...
记一次数据处理效率优化过程
我们最原始的产品使用hive来进行数据分析和处理,由于我们的业务模型所限制,往往需要经过多轮的MR来完成任务,经过多轮的优化,虽然取得了一定的成果,但是执行速度还是不能满足产品的要求。
其实,当时考虑使用hive,是由于其基于SQL良好的扩展性为前提的,也就是说,以后我们在增加功能的时候,修改的部分很少,只需增加一些where,group by条件,就可以达成目的,hive也确实能够 ...
Hive中的排序语法
Hive中的排序语法 2014.06.22
ORDER BY
hive中的ORDER BY语句和关系数据库中的sql语法相似。他会对查询结果做全局排序,这意味着所有的数据会传送到一个Reduce任务上,这样会导致在大数量的情况下,花费大量时间。
与数据库中 ORDER BY 的区别在于在hive.mapred.mode = strict模式下,必须指定 limit 否则执行会报错。
...
Yarn临时目录不足导致Hive任务失败
从一张已有的Hive Table中创建新表及Partition出现如下问题
原有Hive Table中有160g数据(为三个月中所有应用和服务器的用户访问记录)
新表选取需要字段,并按照应用/服务器Ip/访问时间创建Partition
//创建table
set hive.exec.dynamic.partition=true;
set hive.exec.dynamic.par ...
hadoop hive hbase 入门学习 (三)
////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////////
hadoop 自学系列
hadoop hive hbase 入门学习 (一 ...
Hive Hbase integration (整合) 出现zk始终连接 localhost:2181
前提是 hive客户端和zk没在一台机器,hive只是作为客户端使用,没有和hadoop集群在一起。
hive 和 hbase 整合(integration) 的时候,在创建hive关联Hbase表的时候出现如下 zk始终连接localhost:2181,
建表语句如下:
--------------------------------------------------------- ...