原文地址:http://www.jiacheo.org/blog/126
一、概述
hive是一个基于hadoop的数据仓库基础设施, 提供数据的提取转换加载和查询, 不适于少数据量(比如几亿)的数据查询, 也不适于实时或者在线数据的查询, 是一个非实时的, 离线的数据查询工具. hive没有自己的文件格式, 只需要普通的文件格式或者用户自定义的格式就可以了.
二、环境搭建
hive不需要神马集群配置, 只是需要编译一个环境就好了, 编译的过程, 国人表示很蛋疼, 因为他的ant脚本中, 使用的镜像居然是facebook的, 墙了都没用表示很纠结. 所以需要把facebook的镜像改为可用的(最好是国内的, 诸如 人人网, 北京交通大学等等镜像), 镜像的选择可以根据个人喜好和地理位置自由选取, 当然是不能被GFW墙了的.(参考http://www.apache.org/dyn/closer.cgi/hadoop/core/)
1. 下载源代码: svn co http://svn.apache.org/repos/asf/hive/trunk hive
2. 安装ant, 过程简单, 略去 (只要解压就行了)
3. 修改 hive/build.properties 文件, 将
a). hadoop.mirror的值修改为人人网镜像 : hadoop.mirror=http://labs.renren.com/apache-mirror
b). hadoop.security.url的值修改为可用的地址, 在网上找了个: hadoop.security.url=http://people.apache.org/~todd/snapshot-for-hive-build/hadoop-0.20.3-CDH3-SNAPSHOT.tar.gz
(这个东东不是一般的镜像能有的,囧)
c). 将hadoop的版本修改为0.20.2, (貌似0.20.0的地址都不可用了, 难道有大bug?): hadoop.version=0.20.2
4. 修改hive/shims/ 下的ivy.xml 和 build.xml
将对应的hadoop的版本修改为 0.20.2
a) ivy.xml
b) build.xml
(line 61)
1
|
< param name = "hadoop.version.ant-internal" value = "0.20.2" />
|
5. 编译
进入源代码的根目录hive, 敲下命令: $ant_home/bin/ant package
等待完成… (下载时间可能会有点久, 给点耐心吧).
6. 启动hive, 只需要启动前将 $HADOOP_HOME设置为hadoop的安装目录即可.
三、用法和例子
1, 创建表
1
2
3
4
5
6
|
CREATE TABLE page_view(viewTime INT , userid BIGINT ,
page_url STRING, referrer_url STRING,
ip STRING COMMENT 'IP Address of the User' )
COMMENT 'This is the page view table'
PARTITIONED BY (dt STRING, country STRING)
STORED AS SEQUENCEFILE;
|
partitioned by 是创建分区(什么是分区?下边说明)
没有指定字段分隔符的话, 默认是使用^A(ctrl-A)为字段分隔符, 换行为记录分隔符. 指定分隔符用ROW FORMAT row_format 语句
分区: partitioned by , 其实就是在数据的目录下, 用不同目录来区分, 比如, dt, 就是按日期(date)来区分, country 国家, hour 小时等等.对应的会在数据的目录下有分区目录. 可以建双分区, 就是子目录下再分区(其实就是一棵目录树).
参考: http://blog.csdn.net/dajuezhao/archive/2010/07/21/5753055.aspx
高级用法:
分享到:
相关推荐
在“Hive搭建”部分,你将了解到如何在本地或集群环境中设置Hive。这通常包括安装Java环境、配置Hadoop、下载和安装Hive、创建Hive metastore服务,以及配置Hive-site.xml等步骤。确保所有依赖服务如HDFS、YARN和...
用于HIVE入门的介绍,包括hive是什么,hive的安装部署详细步骤,hive的数据类型及常用的操作
该手册首先会介绍Hive的基础知识,包括Hive的安装、配置和环境搭建。读者将了解到如何在不同的操作系统上安装Hadoop和Hive,以及如何设置相关的环境变量。这部分还会涵盖Hive的架构,包括元数据存储、执行引擎和查询...
大数据 Hive 入门例子和代码 第1章:Hive 简介 Hive 是一个数据仓库软件项目,用于对存储在分布式存储系统(如Hadoop)中的大数据进行查询和管理。Hive 定义了一种类似于 SQL 的查询语言,称为 HiveQL,它允许用户...
### Hive 初始入门知识点 #### 一、Hive 概述 - **Hive 的起源与定位** - **起源**:Hive 是由 Facebook 开发的一款数据仓库工具,最初是为了应对海量结构化日志数据的统计分析需求而设计的。 - **定位**:作为 ...
HADOOP快速入门及搭建集群环境 HADOOP是一种分布式计算技术,旨在处理大规模数据集,能够将大规模数据处理工作分配到多个计算机节点上,从而提高数据处理速度和效率。本资源旨在指导读者快速入门HADOOP,并搭建集群...
大数据分析架构师顶级培训课程\-大数据仓库Hive-大数据开发核心技术 - 大数据仓库Hive精讲 第1课 初识入门 第2课 深入使用 第3课 高级进阶————————————————课程大纲1、Hive体系结构2、Hive环境搭建3...
【大数据基础入门培训课程——基于Hadoop的数据仓库Hive】模块11主要涵盖了Hive的基础知识,包括其系统架构、工作原理、高可用性(HA)原理,以及相关的数据分析工具Impala,还有Hive的编程实践。以下是这些知识点的...
在提供的文件列表中,`start-journalnodes.txt`可能是启动JournalNodes的脚本,`hbase分布式环境搭建.docx`提供了HBase环境搭建的详细指南,`hbase环境搭建脚本`包含自动化部署HBase的脚本,`hadoop环境搭建`文件...
Hadoop 单机伪集群环境搭建 Hadoop 集群环境搭建 HDFS 常用 Shell 命令 HDFS Java API 的使用 基于 Zookeeper 搭建 Hadoop 高可用集群 二、Hive Hive 简介及核心概念 Linux 环境下 Hive 的安装部署 Hive CLI 和 ...
2.Spark编译与部署(上)--基础环境搭建.pdf 2.Spark编译与部署(下)--Spark编译安装.pdf 2.Spark编译与部署(中)--Hadoop编译安装.pdf 3.Spark编程模型(上)--概念及SparkShell实战.pdf 3.Spark编程模型(下)--...
Hadoop单机伪集群环境搭建 Hadoop 云服务环境搭建 HDFS使用Shell命令 HDFS Java API的使用 基于Zookeeper搭建Hadoop高可用服务 二、蜂巢 Hive简介及核心概念 Linux环境下Hive的安装配置 Hive CLI 和 Beeline 命令行...
根据提供的文件信息,以下是有关Hadoop入门进阶课程中Hive介绍和安装部署的知识点: 1. Hive介绍: - Hive是Facebook开发的数据仓库工具,运行于Hadoop集群之上。 - 提供类SQL的HQL(Hive Query Language)查询...
HVIE 基础入门培训,深入浅出讲解了HIVE搭建,自定义函数等等开发方案
包含大数据学习路线、大数据技术栈思维导图、大数据常用软件安装指南、Hadoop、hive、spark等技术的环境搭建、命令实用、集群资源管理、分区、试图、数据查询等详细讲解和说明。具体详细目录与技术请看README.md
清华大学出品的大数据实战课程PPT学习课件,非常适合大学生和职场人士学习,也适合老鸟复习回顾,完全可用于自学入门,很经典好用的PPT课件哦~