`
085567
  • 浏览: 217469 次
  • 性别: Icon_minigender_1
  • 来自: 北京
社区版块
存档分类
最新评论

hive数组使用

    博客分类:
  • hive
阅读更多

转:http://blog.sina.com.cn/s/blog_61c463090100rt4h.html

 

数据
afan@ubuntu:/usr/local/hadoop/hive$ cat test.txt
12,23,23,34 

   what,are,this
34,45,34,23,12    who,am,i,are

afan@ubuntu:/usr/local/hadoop/hive$ hive
Hive history file=/tmp/afan/hive_job_log_afan_201105240353_929616223.txt
hive> drop table t_afan_test;
OK
Time taken: 3.288 seconds
hive> create table t_afan_test
    > (
    > info1 array<int>,
    > info2 array<string>
    > )
    > ROW FORMAT DELIMITED
    > FIELDS TERMINATED BY '\t'
    > COLLECTION ITEMS TERMINATED BY ','
    > ;
OK
Time taken: 0.58 seconds
hive> LOAD DATA LOCAL INPATH 'test.txt' OVERWRITE INTO TABLE t_afan_test;
Copying data from file:/usr/local/hadoop/hive/test.txt
Copying file: file:/usr/local/hadoop/hive/test.txt
Loading data to table default.t_afan_test
Deleted hdfs://localhost:9000/user/hive/warehouse/t_afan_test
OK
Time taken: 0.742 seconds
hive> select * from t_afan_test;
OK
[12,23,23,34]    ["what","are","this"]
[34,45,34,23,12]    ["who","am","i","are"]
Time taken: 0.429 seconds
hive> select size(info1), size(info2) from t_afan_test;
Total MapReduce jobs = 1
Launching Job 1 out of 1
Number of reduce tasks is set to 0 since there's no reduce operator
Starting Job = job_201105240347_0001, Tracking URL = http://localhost:50030/jobdetails.jsp?jobid=job_201105240347_0001
Kill Command = /usr/local/hadoop/bin/../bin/hadoop job  -Dmapred.job.tracker=localhost:9001 -kill job_201105240347_0001
2011-05-24 03:55:49,564 Stage-1 map = 0%,  reduce = 0%
2011-05-24 03:55:52,597 Stage-1 map = 50%,  reduce = 0%
2011-05-24 03:55:55,653 Stage-1 map = 100%,  reduce = 0%
Ended Job = job_201105240347_0001
OK
4    3
5    4
Time taken: 20.171 seconds
hive> select info1[2], info2[0] from t_afan_test;
Total MapReduce jobs = 1
Launching Job 1 out of 1
Number of reduce tasks is set to 0 since there's no reduce operator
Starting Job = job_201105240347_0002, Tracking URL = http://localhost:50030/jobdetails.jsp?jobid=job_201105240347_0002
Kill Command = /usr/local/hadoop/bin/../bin/hadoop job  -Dmapred.job.tracker=localhost:9001 -kill job_201105240347_0002
2011-05-24 03:56:37,513 Stage-1 map = 0%,  reduce = 0%
2011-05-24 03:56:40,543 Stage-1 map = 100%,  reduce = 0%
2011-05-24 03:56:43,611 Stage-1 map = 100%,  reduce = 100%
Ended Job = job_201105240347_0002
OK
23    what
34    who
Time taken: 10.88 seconds
分享到:
评论

相关推荐

    hive2.1.1中orc格式读取报数组越界错误解决方法

    然而,有时候在使用ORC格式读取数据时,可能会遇到“数组越界”错误,这通常是由于软件bug或者不兼容性导致的。 “数组越界”错误是Java编程语言中常见的异常类型,表明程序试图访问数组的一个不存在的元素,即下标...

    hive级联求和

    面试中,了解如何高效地使用Hive进行级联求和是展示你大数据分析技能的重要方面。"面试用神sql--套路--累计报表.txt"可能包含了更多关于如何编写高效的Hive SQL来解决这类问题的实例和技巧,这将帮助你在面试中...

    数据库函数,获得数组中值的索引值

    数据库函数,获得数组中某一值的索引值

    复制数组或从数组中抽取特定元素组成新数组

    本文将深入探讨如何有效地复制数组以及如何从数组中抽取特定元素来组成新的数组,这将帮助我们更好地理解和掌握JavaScript中的数组操作技巧。 ### 复制数组 复制数组通常指的是创建一个与原数组具有相同元素的新...

    hive列转行案例

    解释:用于和 split, explode 等 UDTF 一起使用,它能够将一列数据拆成多行数据,在此 基础上可以对拆分后的数据进行聚合。 2.数据准备 move_name category 《疑犯追踪》 悬疑,动作,科幻,剧情 《Lie to me...

    cdh-hive2.1.1版本orc格式表读取包数组越界替换包

    cdh-hive2.1.1版本orc文件读取数据报错替换包: Caused by: java.lang.ArrayIndexOutOfBoundsException: 7 at org.apache.orc.OrcFile$WriterVersion.from(OrcFile.java:145) at org.apache.orc.impl.OrcTail....

    HiveSQL使用考核题.zip

    在大数据处理领域,HiveSQL是一种广泛使用的查询语言,它基于SQL语法,为Apache Hadoop提供了数据仓库工具,使得分析大规模分布式数据集变得更加便捷。这个名为"HiveSQL使用考核题"的压缩包文件很可能是为了测试或...

    hive-udf-处理JSON数组

    hive_udf_处理JSON数组

    Hive基本命令整理

    Hive基本命令整理 作为大数据处理的重要工具,Hive 提供了许多实用的...Hive 不支持 in 查询,但是可以使用左半连接来实现: ``` hive&gt; SELECT * FROM things LEFT SEMI JOIN sales ON (things.id = sales.id); ```

    hive环境搭建和建表加载数据

    `LATERAL VIEW`与`EXPLODE`函数一起使用,可以将数组或映射中的元素展开成多行,使得每个元素都能在单独的行中展示。比如,在处理`hive_wordcount`表时,将`context`列中的文本按制表符拆分成单词,并计算每个单词...

    HIve UDF 说明书

    Hive UDF(User-Defined Functions,用户定义函数)是Hive中强大的功能,允许用户在Hive查询中使用自定义的函数来进行更复杂的操作。Hive是一个建立在Hadoop基础上的高级数据仓库工具,它允许用户使用类似SQL的语言...

    Hive教程.pdf

    ### Hive简明教程知识点概述 #### 一、Hive简介 - **定义**: Hive是一种基于Hadoop的数据仓库工具,它可以将结构化的数据文件映射成一张数据库表,并提供类SQL查询... - 使用Hive CLI执行简单查询以验证安装成功。

    Hive基本操作命令大全

    Hive是一个基于Hadoop的数据仓库工具,可以使用SQL语言来查询和管理大规模数据。本文档将详细介绍Hive的基本操作命令,从创建表、加载数据、查询数据到数据管理等方面进行整理。 创建表 Hive提供了多种方式创建表...

    Hive复杂数据类型使用介绍

    Hive复杂数据类型使用介绍 Hive作为一个大数据分析工具,提供了多种数据类型,其中包括了复杂数据类型如Array、Map和Struct。这些复杂数据类型可以满足各种复杂的数据存储需求。 一、Array类型 Array类型是Hive中...

    hive parser工具类

    在大数据处理领域,Hive是一个广泛使用的开源工具,它提供了SQL-like接口来处理存储在分布式存储系统(如HDFS)中的大规模数据集。Hive Parser是Hive中的一个关键组件,用于解析用户输入的SQL语句,将其转化为Hive...

    hive 和 presto sql的对比

    在检查数组是否包含特定元素时,Hive使用`array_contains()`,Presto则使用`contains()`。 6. **字符串操作**: Hive和Presto都提供了字符串拼接函数,但在Hive中可以接受任意类型的字符,而在Presto中必须是字符...

    dataiku hive udf

    5. **加载到Hive**:通过Hive的ADD JAR命令将JAR包添加到Hadoop集群,然后使用CREATE FUNCTION语句使函数在Hive会话中可用。 在实际开发过程中,开发者还需要关注性能优化,如使用Hive的vectorization功能提高执行...

    一些有用的自定义配置单元udf函数、特殊数组、json、数学、字符串函数。___下载.zip

    在IT行业中,尤其是在大数据处理领域,Hive是一个广泛使用的数据仓库工具,它允许用户通过SQL-like语法查询和管理大规模的数据集。"一些有用的自定义配置单元udf函数、特殊数组、json、数学、字符串函数。___下载....

Global site tag (gtag.js) - Google Analytics