转:http://blog.sina.com.cn/s/blog_61c463090100rt4h.html
数据
afan@ubuntu:/usr/local/hadoop/hive$ cat test.txt
12,23,23,34
what,are,this
34,45,34,23,12
who,am,i,are
afan@ubuntu:/usr/local/hadoop/hive$ hive
Hive history
file=/tmp/afan/hive_job_log_afan_201105240353_929616223.txt
hive> drop table t_afan_test;
OK
Time taken: 3.288 seconds
hive> create table t_afan_test
> (
> info1
array<int>,
> info2
array<string>
> )
> ROW FORMAT DELIMITED
> FIELDS TERMINATED BY '\t'
> COLLECTION ITEMS TERMINATED BY ','
> ;
OK
Time taken: 0.58 seconds
hive> LOAD DATA LOCAL INPATH 'test.txt' OVERWRITE
INTO TABLE t_afan_test;
Copying data from file:/usr/local/hadoop/hive/test.txt
Copying file: file:/usr/local/hadoop/hive/test.txt
Loading data to table default.t_afan_test
Deleted hdfs://localhost:9000/user/hive/warehouse/t_afan_test
OK
Time taken: 0.742 seconds
hive> select * from t_afan_test;
OK
[12,23,23,34]
["what","are","this"]
[34,45,34,23,12]
["who","am","i","are"]
Time taken: 0.429 seconds
hive> select size(info1), size(info2) from
t_afan_test;
Total MapReduce jobs = 1
Launching Job 1 out of 1
Number of reduce tasks is set to 0 since there's no reduce
operator
Starting Job = job_201105240347_0001, Tracking URL =
http://localhost:50030/jobdetails.jsp?jobid=job_201105240347_0001
Kill Command = /usr/local/hadoop/bin/../bin/hadoop
job -Dmapred.job.tracker=localhost:9001 -kill
job_201105240347_0001
2011-05-24 03:55:49,564 Stage-1 map = 0%, reduce
= 0%
2011-05-24 03:55:52,597 Stage-1 map = 50%, reduce
= 0%
2011-05-24 03:55:55,653 Stage-1 map = 100%,
reduce = 0%
Ended Job = job_201105240347_0001
OK
4 3
5 4
Time taken: 20.171 seconds
hive> select info1[2], info2[0] from
t_afan_test;
Total MapReduce jobs = 1
Launching Job 1 out of 1
Number of reduce tasks is set to 0 since there's no reduce
operator
Starting Job = job_201105240347_0002, Tracking URL =
http://localhost:50030/jobdetails.jsp?jobid=job_201105240347_0002
Kill Command = /usr/local/hadoop/bin/../bin/hadoop
job -Dmapred.job.tracker=localhost:9001 -kill
job_201105240347_0002
2011-05-24 03:56:37,513 Stage-1 map = 0%, reduce
= 0%
2011-05-24 03:56:40,543 Stage-1 map = 100%,
reduce = 0%
2011-05-24 03:56:43,611 Stage-1 map = 100%,
reduce = 100%
Ended Job = job_201105240347_0002
OK
23 what
34 who
Time taken: 10.88 seconds
分享到:
相关推荐
面试中,了解如何高效地使用Hive进行级联求和是展示你大数据分析技能的重要方面。"面试用神sql--套路--累计报表.txt"可能包含了更多关于如何编写高效的Hive SQL来解决这类问题的实例和技巧,这将帮助你在面试中...
然而,有时候在使用ORC格式读取数据时,可能会遇到“数组越界”错误,这通常是由于软件bug或者不兼容性导致的。 “数组越界”错误是Java编程语言中常见的异常类型,表明程序试图访问数组的一个不存在的元素,即下标...
数据库函数,获得数组中某一值的索引值
本文将深入探讨如何有效地复制数组以及如何从数组中抽取特定元素来组成新的数组,这将帮助我们更好地理解和掌握JavaScript中的数组操作技巧。 ### 复制数组 复制数组通常指的是创建一个与原数组具有相同元素的新...
解释:用于和 split, explode 等 UDTF 一起使用,它能够将一列数据拆成多行数据,在此 基础上可以对拆分后的数据进行聚合。 2.数据准备 move_name category 《疑犯追踪》 悬疑,动作,科幻,剧情 《Lie to me...
cdh-hive2.1.1版本orc文件读取数据报错替换包: Caused by: java.lang.ArrayIndexOutOfBoundsException: 7 at org.apache.orc.OrcFile$WriterVersion.from(OrcFile.java:145) at org.apache.orc.impl.OrcTail....
### Hive用户指南中文版知识点概览 #### 一、Hive结构 **1.1 Hive架构** ...以上是Hive用户指南中文版的主要内容概述,通过对这些知识点的学习和理解,可以帮助用户更好地使用Hive进行大数据处理和分析。
在大数据处理领域,HiveSQL是一种广泛使用的查询语言,它基于SQL语法,为Apache Hadoop提供了数据仓库工具,使得分析大规模分布式数据集变得更加便捷。这个名为"HiveSQL使用考核题"的压缩包文件很可能是为了测试或...
hive_udf_处理JSON数组
Hive基本命令整理 作为大数据处理的重要工具,Hive 提供了许多实用的...Hive 不支持 in 查询,但是可以使用左半连接来实现: ``` hive> SELECT * FROM things LEFT SEMI JOIN sales ON (things.id = sales.id); ```
`LATERAL VIEW`与`EXPLODE`函数一起使用,可以将数组或映射中的元素展开成多行,使得每个元素都能在单独的行中展示。比如,在处理`hive_wordcount`表时,将`context`列中的文本按制表符拆分成单词,并计算每个单词...
Hive UDF(User-Defined Functions,用户定义函数)是Hive中强大的功能,允许用户在Hive查询中使用自定义的函数来进行更复杂的操作。Hive是一个建立在Hadoop基础上的高级数据仓库工具,它允许用户使用类似SQL的语言...
### Hive简明教程知识点概述 #### 一、Hive简介 - **定义**: Hive是一种基于Hadoop的数据仓库工具,它可以将结构化的数据文件映射成一张数据库表,并提供类SQL查询... - 使用Hive CLI执行简单查询以验证安装成功。
Hive是一个基于Hadoop的数据仓库工具,可以使用SQL语言来查询和管理大规模数据。本文档将详细介绍Hive的基本操作命令,从创建表、加载数据、查询数据到数据管理等方面进行整理。 创建表 Hive提供了多种方式创建表...
在IT行业中,尤其是在大数据处理领域,Hive是一个广泛使用的数据仓库工具,它允许用户通过SQL-like语法查询和管理大规模的数据集。"一些有用的自定义配置单元udf函数、特殊数组、json、数学、字符串函数。___下载....
在大数据处理领域,Hive是一个广泛使用的开源工具,它提供了SQL-like接口来处理存储在分布式存储系统(如HDFS)中的大规模数据集。Hive Parser是Hive中的一个关键组件,用于解析用户输入的SQL语句,将其转化为Hive...
Hive复杂数据类型使用介绍 Hive作为一个大数据分析工具,提供了多种数据类型,其中包括了复杂数据类型如Array、Map和Struct。这些复杂数据类型可以满足各种复杂的数据存储需求。 一、Array类型 Array类型是Hive中...
在检查数组是否包含特定元素时,Hive使用`array_contains()`,Presto则使用`contains()`。 6. **字符串操作**: Hive和Presto都提供了字符串拼接函数,但在Hive中可以接受任意类型的字符,而在Presto中必须是字符...
5. **加载到Hive**:通过Hive的ADD JAR命令将JAR包添加到Hadoop集群,然后使用CREATE FUNCTION语句使函数在Hive会话中可用。 在实际开发过程中,开发者还需要关注性能优化,如使用Hive的vectorization功能提高执行...