hive应用示例

sxyqhyt

浏览: 80126 次
性别:
来自: 北京

最近访客更多访客>>

mzyp

czbkjava

feige1990

繁星水

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

博客分类：

hive

简单示例
我们以以下数据作为测试数据，结构为（班级号，学号，成绩）。
C01,N0101,82
C01,N0102,59
C01,N0103,65
C02,N0201,81
C02,N0202,82
C02,N0203,79
C03,N0301,56
C03,N0302,92
C03,N0306,72
执行以下命令：

create table student(classNostring, stuNo string, score int) row format delimited fields terminated by ',';

其中，定义表结构和SQL类似.。其它设置表示字段间以逗号分隔，一行为一个记录。

load data local inpath '/home/user/input/student.txt'overwrite into table student;

输出结果如下：

Copying data fromfile:/home/user/input/student.txt

Copying file:file:/home/user/input/student.txt

Loading data to tabledefault.student

rmr: DEPRECATED: Please use 'rm-r' instead.

Deleted/user/hive/warehouse/student

Table default.student stats:[num_partitions: 0, num_files: 1, num_rows: 0, total_size: 117, raw_data_size:0]

这个命令将student.txt文件内容加载到表student中。这个加载操作将直接把student.txt文件复制到hive的warehouse目录中，这个目录由hive.metastore.warehouse.dir配置项设置，默认值为/user/hive/warehouse。Overwrite选项将导致Hive事先删除student目录下所有的文件。

Hive不会对student.txt做任何格式处理，因为Hive本身并不强调数据的存储格式。

此例中，Hive将数据存储于HDFS系统中。当然，Hive也可以将数据存储于本地。

如果不加overwrite选项，且加载的文件在Hive中已经存在，则Hive会为文件重新命名。比如不加overwrite选项将以上命令执行两次，则第二次加载后，hive中新产生的文件名将会是“student_copy_1.txt”。（和Hadoop权威教程中描述的不一致，读者请慎重验证）

接下来，我们执行以下命令：

select * from student;

输出如下：

C01 N0101      82
C01 N0102      59
C01 N0103      65
C02 N0201      81
C02 N0202      82
C02 N0203      79
C03 N0301      56
C03 N0302      92
C03 N0306      72

执行以下命令：

Select classNo,count(score) fromstudent where score>=60 group by classNo;

输出如下：

C01 2
C02 3
C03 2

由此看见，HiveQL的使用和SQL及其类似。我们用到了group和count，其实在后台Hive将这些操作都转换成了MapReduce操作提交给Hadoop执行，并最终输出结果。

分享到：