HIVE中join、semi join、outer join举例详解 - 后知后觉的it路 - ITeye博客

`

chengjianxiaoxue

浏览: 1324381 次
性别:
来自: 北京

最近访客更多访客>>

liu_shui8

happy2012

nddht

yhtppp

博主相关

博客

微博

相册

收藏

留言

关于我

文章分类

社区版块

存档分类

最新评论

jaingbei：可以通过继承FileOutputFormat来简化相关代码
自定义OutputFormat
star12396：楼主，那hbase结合hive使用，这种架构稳定不？机器的内存 ...
hbase+hive结合使用
atMe0804： ...
kafka集群搭建和使用Java写kafka生产者消费者
ztao2333： thanks
eclipse 设置自动补全快捷键
Will_forme：你好最近在使用kylin的时候有点疑问，我安装这些都没问题 ...
kylin 搭建和简单测试结果

HIVE中join、semi join、outer join举例详解

博客分类：

hive

阅读更多

HIVE中join、semi join、outer join举例详解

举例子：

hive> select * from zz0;
111111
222222
888888
hive> select * from zz1;
111111
333333
444444
888888

hive> select * from zz0 join zz1 on zz0.uid = zz1.uid;
111111 111111
888888 888888
hive> select * from zz0 left outer join zz1 on zz0.uid = zz1.uid;
111111 111111
222222 NULL
888888 888888
hive> select * from zz0 right outer join zz1 on zz0.uid = zz1.uid;
NULL
111111 111111
NULL    333333
NULL    444444
888888 888888
hive> select * from zz0 full outer join zz1 on zz0.uid = zz1.uid;
NULL
111111 111111
222222 NULL
NULL    333333
NULL    444444
888888 888888
hive> select * from zz0 left semi join zz1 on zz0.uid = zz1.uid;
111111
888888

所谓的左半连接：左连接就是展示左边表的东西半就是展示半拉,就是只展示左表的东西

那么展示左表的那些东西呢？ ---> 只展示左表中能根据条件匹配到右表的左表数值，

上面例子中根据 zz0.uid = zz1.uid 那么左表中只有 11111 88888能符合条件在右侧表zz1中找到

因此就只展示左侧表的 11111 88888，

如果在 select 左表字段, 右侧表.字段 left semi join

那么会报错，

这个报错是以前做的案例, Invalid table alias or column reference 'b': (possible column names are: id, name)

就是说只能展示左侧表的字段。

细节见：

HIVE中Join的专题---Join详解 http://www.aboutyun.com/thread-7392-1-1.html

分享到：

hfile通过bulkload拷贝到hbase方式---TOD ... | maven classifier含义

2015-07-16 13:44
浏览 3569
评论(0)
分类:编程语言
查看更多

评论

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

hive sql + left join 数据缺失: 随着Hive版本的不断更新，部分用户在升级至Hive 3之后遇到了数据处理中的一个常见问题——在执行Left Join操作时出现数据缺失。 #### 二、问题复现问题发生在如下的SQL语句中： ```sql SELECT a.* FROM ( SELECT ...

SQL left join: SQL Left Join也称为左外连接，它可以将左表中的所有记录与右表中的记录进行组合，返回左表中的所有记录和右表中符合条件的记录。如果右表中没有符合条件的记录，将返回NULL。 Left Join的基本语法为： ```sql ...

Hive Summit 2011-join: Hive Summit 2011-join介绍了Facebook中Hive实现的多种join策略。Hive作为一个数据仓库工具，主要用于处理大规模数据集的分析和查询，而join操作是数据仓库中常见且关键的操作之一。在大数据的背景下，如何高效地...

Hive-Summit-2011-join.zip_hive: 【标题】：“Hive-Summit-2011-join.zip_hive”指的是一个关于HiveJoin策略的讨论，源自2011年Facebook峰会上的分享。【描述】：“Hive: Join Strategies. Facebook summit-2011”说明了这个主题集中在Hive的连接...

Hive中SQL详解: Hive中SQL详解 Hive是一个基于Hadoop构建的数据仓库分析系统，它提供了丰富的SQL查询方式来分析存储在Hadoop分布式文件系统中的数据。 Hive SQL支持绝大多数的语句，如DDL、DML、聚合函数、连接查询、条件查询等。 ...

使用Hive进行join查询的时报错: NULL 博文链接：https://weigang-gao.iteye.com/blog/2260663

HIVE安装及详解: "HIVE安装及详解" HIVE是一种基于Hadoop的数据仓库工具，主要用于处理和分析大规模数据。下面是关于HIVE的安装及详解。 HIVE基本概念 HIVE是什么？HIVE是一种数据仓库工具，主要用于处理和分析大规模数据。它将...

Hive查询sql left join exists: 总的来说，理解和熟练运用LEFT JOIN、LEFT SEMI JOIN以及EXISTS子句是Hive SQL查询中的关键技能，它们在大数据分析中扮演着重要角色，帮助用户从海量数据中提取有价值的信息。根据实际需求选择合适的连接类型，能够...

部分普通sql查询在hive中的实现方式: - **背景**：Hive不支持标准SQL中的`IN`和`EXISTS`关键字，但可以通过`LEFT SEMI JOIN`来模拟这些功能。 - **示例**：标准SQL中的`IN`关键字查询如下： ```sql SELECT a.key, a.value FROM a WHERE a.key IN ...

hive 中join和Group的优化: set hive.map.aggr = true; //是否在 Map 端进行聚合，默认为 True ；该设置会消耗更多的内存。 set hive.groupby.mapaggr.checkinterval = 100000000; //在 Map 端进行聚合操作的条目数目 set hive.groupby....

【63课时完整版】大数据实践HIVE详解及实战: 50.Hive中的数据倾斜及解决方案-三种join方式 51.Hive中的数据倾斜及解决方案-group by 52.Hive中使用正则加载数据 53. Hive中使用Python脚本进行预处理第5章：Zeus任务资源调度工具 54.资源任务调度框架介绍 55....

hive sql详解经典: Hive SQL详解经典在大数据处理领域，Hive是一个基于Hadoop的数据仓库工具，它允许用户使用SQL（称为HiveQL）查询存储在Hadoop分布式文件系统(HDFS)中的大型数据集。这篇博客深入探讨了Hive SQL的使用，帮助用户...

hadoop Join代码（map join 和reduce join）: Hive和Pig都支持多种JOIN类型，如LEFT JOIN、RIGHT JOIN、FULL OUTER JOIN等，并且能够自动优化JOIN策略。 Hive示例： ```sql SELECT a.*, b.* FROM table_a JOIN table_b ON (a.join_field = b.join_field); `...

HIVE函数详解大全: 本篇文章将详细解析Hive中的各种函数，帮助你更好地理解和应用这些功能。一、关系运算关系运算用于比较两个或多个表达式，确定它们之间的逻辑关系。以下是Hive支持的关系运算符： 1. 等值比较：`=` - 用于判断...

Hive SQL 编译过程详解: - **Join的实现原理**：在Hive中，Join操作通常通过MapReduce来实现。例如，在一个内连接中，Map阶段将不同表的数据分别标记，然后在Reduce阶段，依据标记判断并合并来自不同表的记录。这种方法确保了JOIN操作的...

Hive基础，详解介绍HIVESQL中的语法: Hive基础，详解介绍HIVESQL中的语法

hive入门级详解: Hive 入门级详解 Hive 是一个基于 Hadoop 的数据仓库系统，它提供了一个类似于关系型数据库的查询语言 HQL，并且可以将查询转换为 MapReduce 任务来执行。Hive 的存储结构主要包括三个层面：数据存储层、计算资源层...

Apache Hive 中文手册_hive_: Apache Hive 是基于Hadoop的一个数据仓库工具，用来进行数据提取、转化、加载，这是一种可以存储、查询和分析存储在Hadoop中的大规模数据的机制。hive数据仓库工具能将结构化的数据文件映射为一张数据库表，并提供...

hive练习数据和练习题及答案: hive练习数据和hive练习题包含了hive练习数据，hive数据的建表ddl和hive练习题，非常适合做hive练习，新手培训，快速...LEFT SEMI JOIN Hive当前没有实现 IN/EXISTS 子查询，可以用 LEFT SEMI JOIN 重写子查询语句。

Global site tag (gtag.js) - Google Analytics