最新文章列表

hive导出查询结果到本地文件

bin/hive -e "select * from test" >> res.csv      或者是:      bin/hive -f sql.q >> res.csv      其中文件sql.q写入你想要执行的查询语句  
lixuguang 评论(0) 有143人浏览 2015-06-05 10:11

[一起学Hive]之四-Hive的安装配置

其实Hive的安装配置应该放在第二章来介绍,晚了些,希望对Hive初学者有用。 三、Hive的安装配置 3.1 环境需求 Hadoop Client Mysql 3.2 下载并解压Hive0.13.1安装包 下载地址:http://archive.apache.org/dist/hive/hive-0.13.1/apache-hive-0.13.1-bin.tar.gz cp ...
superlxw1234 评论(1) 有2867人浏览 2015-06-05 09:19

[一起学Hive]之三—Hive中的数据库(Database)和表(Table)

在前面的文章中,介绍了可以把Hive当成一个“数据库”,它也具备传统数据库的数据单元,数据库(Database/Schema)和表(Table)。   本文介绍一下Hive中的数据库(Database/Schema)和表(Table)的基础知识,由于篇幅原因,这里只是一些常用的、基础的。   二、Hive的数据库和表   先看一张草图:   Hive结构   从图上可以 ...
superlxw1234 评论(1) 有2448人浏览 2015-06-03 16:06

HIVE和HBASE区别(转载)

1. 两者分别是什么?    Apache Hive是一个构建在Hadoop基础设施之上的数据仓库。通过Hive可以使用HQL语言查询存放在HDFS上的数据。HQL是一种类SQL语言,这种语言最终被转化为Map/Reduce. 虽然Hive提供了SQL查询功能,但是Hive不能够进行交互查询--因为它只能够在Haoop上批量的执行Hadoop。     Apache HBase是一种Key/V ...
18901888895 评论(0) 有552人浏览 2015-06-03 11:05

hive 小记

hive 小记   hive hadoop hdfs   测试环境 centos6.5 64bit hadoop-2.5.2 hive-0.14 udf引入第三方lib包 将第三方的jar统一存放到一个目录中:/usr/local/hivelib/ 并设置变量:
duguyiren3476 评论(0) 有1091人浏览 2015-06-02 11:41

[一起学Hive]之一—Hive概述,Hive是什么

1. Hive是什么 Hive是基于Hadoop的数据仓库解决方案。由于Hadoop本身在数据存储和计算方面有很好的可扩展性和高容错性,因此使用Hive构建的数据仓库也 ...
superlxw1234 评论(1) 有2424人浏览 2015-06-02 09:14

hive怎样决定reducer个数

Hadoop MapReduce程序中,reducer个数的设定极大影响执行效率,这使得Hive怎样决定reducer个数成为一个关键问题。遗憾的是Hive的估计机制很弱,不指定reducer个数的情况下,Hive会猜测确定一个reducer个数,基于以下两个设定: 1. hive.exec.reducers.bytes.per.reducer(默认为1000^3) 2. hive.exec. ...
lixuguang 评论(0) 有170人浏览 2015-05-28 10:07

hive修改 表/分区语句

这里主要列一些常用操作。   添加分区 ALTER TABLE table_name ADD PARTITION (partCol = 'value1') location 'loc1'; //示例 ALTER TABLE table_name ADD IF NOT EXISTS PARTITION (dt='20130101') LOCATION '/user/hadoop/ware ...
lixuguang 评论(0) 有129人浏览 2015-05-28 10:05

hive常用函数

字符串函数 字符串长度函数:length   Java代码   语法: length(string A)   返回值: int   说明:返回字符串A的长度  
MNTMs 评论(0) 有1918人浏览 2015-05-28 10:00

Hive查询进阶

通过Hive提供的order by子句可以让最终的输出结果整体有序。但是因为Hive是基于Hadoop之上的,要生成这种整体有序的结果,就必须强迫Hadoop只利用一个Reduce来完成处理。这种方式的副作用就是回降低效率。 如果你不需要最终结果整体有序,你就可以使用sort by子句来进行排序。这种排序操作只保证每个Reduce的输出是有序的。如果你希望某些特定行被同一个Reduce处理,则 ...
lixuguang 评论(0) 有96人浏览 2015-05-26 09:36

hive基本操作

阅读本文章可以带着下面问题: 1.与传统数据库对比,找出他们的区别 2.熟练写出增删改查(面试必备)创建表:hive> CREATE TABLE pokes (foo INT, bar STRING); ...
lixuguang 评论(0) 有110人浏览 2015-05-26 09:32

Skew Join与Left Semi Join相关

Skew Join 真实数据中数据倾斜是一定的, hadoop 中默认是使用 hive.exec.reducers.bytes.per.reducer = 1000000000 也就是每个节点的reduce 默认是处理1G大小的数据,如果你的join 操作也产生了数据倾斜,那么你可以在hive 中设定 set hive.optimize.skewjoin = true;  set hive.skew ...
lixuguang 评论(0) 有103人浏览 2015-05-25 12:25

hive 排序特性研究

1.  排序定义 所谓排序就是使一串记录,按照其中的某个或某些关键字,递增或是递减的排列。 2. hive 中排序相关内容  2.1 order by  order by 会对输入做全局排序,故只有一个reducer,若数据的规模比较大时,需要较长的计算时间。hive中order by 也是对一个结果集进行排序,不同于关系型数据库是底层架构。hive的hive-site.xml配置文件中的参数h ...
lixuguang 评论(0) 有224人浏览 2015-05-25 12:14

hive 子查询特别分析

Hive只支持在FROM子句中使用子查询,子查询必须有名字,并且列必须唯一:SELECT ... FROM(subquery) name ... 确认下是否一定要求列必须唯一?      建 ...
lixuguang 评论(0) 有128人浏览 2015-05-25 12:11

Hive分析窗口函数 LAG,LEAD,FIRST_VALUE,LAST_VALUE

问题导读1.LAG功能是什么?2.LEAD与LAG功能有什么相似的地方那个?3.FIRST_VALUE与LAST_VALUE分别完成什么功能?接上篇Hive分析窗口函数(二、三) NTILE,ROW_NUMBER,RANK,DENSE_RANK继续学习这四个分析函数。 注意: 这几个函数不支持WINDOW子句。(什么是WINDOW子句,Hive分析窗口函数(一)SUM,AVG,MIN,MA ...
daizj 评论(0) 有10058人浏览 2015-05-25 10:37

order by,sort by,distribute by,Cluster By

order by order by 会对输入做全局排序,因此只有一个reducer(多个reducer无法保证全局有序)只有一个reducer,会导致当输入规模较大时,需要较长的计算时间。 set hive.mapred.mode=nonstrict; (default value / 默认值) set hive.mapred.mode=strict; order by 和数据库中的 ...
lixuguang 评论(0) 有128人浏览 2015-05-22 11:15

hive数学运算详解

数学运算:1. 加法操作: + 语法: A + B 操作类型:所有数值类型 说明:返回A与B相加的结果。结果的数值类型等于A的类型和B的类型的最小父类型(详见数据类型的继承关系)。比如,int + int 一般结果为int类型,而int + double 一般结果为double类型 举例: hive> select1 + 9 from lxw_dual; 10 hive> ...
超人学院 评论(0) 有27人浏览 2015-05-21 14:14

hive窗口函数

rank()、dense_rank(): rank() over(partition by col0 order by col1) dense_rank() over(partition by col0 order by col1) 根据col0分组,col1正序排序 例子:假设排序后的值为1,3,3,8,10       rank返回的值为1,2,2,4,5       dense_ra ...
lilylilili 评论(0) 有653人浏览 2015-05-20 18:15

HiveServer2 入门使用

Beeline – 一个新的命令行Shell HiveServer2 supports a new command shell Beeline that works with HiveServer2. It's a JDBC client that is based on the SQLLine CLI (http://sqlline.sourceforge.net/). There’s det ...
Stark_Summer 评论(0) 有17615人浏览 2015-05-20 14:40

Hadoop可视化分析利器之Hue

先来看下hue的架构图: (1)Hue是什么? Hue是一个可快速开发和调试Hadoop生态系统各种应用的一个基于浏览器的图形化用户接口。 (2)Hue能干什么 ...
qindongliang1922 评论(0) 有8433人浏览 2015-05-19 20:17

最近博客热门TAG

Java(141747) C(73651) C++(68608) SQL(64571) C#(59609) XML(59133) HTML(59043) JavaScript(54918) .net(54785) Web(54513) 工作(54116) Linux(50906) Oracle(49876) 应用服务器(43288) Spring(40812) 编程(39454) Windows(39381) JSP(37542) MySQL(37268) 数据结构(36423)

博客人气排行榜

    博客电子书下载排行

      >>浏览更多下载

      相关资讯

      相关讨论

      Global site tag (gtag.js) - Google Analytics