Hive左连接 - 畅游数据海洋 - ITeye博客

`

雨一直下

浏览: 50019 次
性别:
来自: 北京

最近访客更多访客>>

weicy7600

艾伦蓝

itnull

zhangly2011

博主相关

博客

微博

相册

收藏

留言

关于我

文章分类

社区版块

存档分类

最新评论

dk101：不错，与君共勉。
你和你自己聊过天吗？

Hive左连接

博客分类：

hive

阅读更多

CREATE EXTERNAL TABLE IF NOT EXISTS a(
telno STRING,
other STRING
)
PARTITIONED BY(day String)
ROW FORMAT DELIMITED FIELDS TERMINATED BY '|';

CREATE EXTERNAL TABLE IF NOT EXISTS b(
telno STRING,
other STRING
)
PARTITIONED BY(day String)
ROW FORMAT DELIMITED FIELDS TERMINATED BY '|';

测试表a中数据如下：
hive> select * from a;
OK
130 a 01
131 b 01
132 c 01
133 d 01
134 e 01
135 f 01
Time taken: 0.215 seconds

测试表btable中数据如下：
hive> select * from b;
OK
130 a 01
131 b 01
132 c 01
133 02
134 02
135 02
Time taken: 0.281 seconds

测试表btable中分区数据如下：
hive> select * from b where day='01';
OK
130 a 01
131 b 01
132 c 01
Time taken: 0.359 seconds

测试表btable中分区数据如下：
hive> select * from b where day='02';
OK
133 02
134 02
135 02
Time taken: 0.187 seconds

测试语句如下：
1.左连接不指定条件
hive> select a.telno,b.other,a.day,b.day from a left outer join b on(a.telno=b.telno) ;
OK
130 a 01 01
131 b 01 01
132 c 01 01
133 01 02
134 01 02
135 01 02
Time taken: 8.935 seconds

2.左连接指定连接条件(on中)
hive> select a.telno,b.telno,b.other,a.day,b.day from a left outer join b on(a.telno=b.telno and b.day='02');
OK
130 NULL NULL 01 NULL
131 NULL NULL 01 NULL
132 NULL NULL 01 NULL
133 133 01 02
134 134 01 02
135 135 01 02
Time taken: 12.624 seconds

3.左连接指定连接条件(on外)
hive> select a.telno,b.telno,b.other,a.day,b.day from a left outer join b on(a.telno=b.telno ) where b.day='02';
OK
133 133 01 02
134 134 01 02
135 135 01 02
Time taken: 8.88 seconds

分享到：

Hadoop添加节点datanode | shell脚本定时器

2014-05-05 10:32
浏览 883
评论(0)
分类:编程语言
查看更多

评论

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

连接hive依赖的jar包_hive连接方式: 当我们在DataGrip中连接Hive时，需要确保正确配置了依赖的JAR包，以便驱动程序能够识别并连接到Hive服务器。下面我们将详细介绍这个过程。 1. **Hive驱动介绍** Hive提供了JDBC驱动，使得我们可以通过Java应用程序...

Hive优化方法整理: Hive 优化方法整理 Hive 优化方法整理是 Hive 数据处理过程中的重要步骤，涉及到 Hive 的类 SQL 语句本身进行调优、参数调优、Hadoop 的 HDFS 参数调优和 Map/Reduce 调优等多个方面。 Hive 类 SQL 语句优化 1. ...

Hive基本命令整理: Hive 提供了多种方式来实现外连接，例如，实现 sales 和 things 表的左外连接： ``` hive> SELECT sales.*, things.* FROM sales LEFT OUTER JOIN things ON (sales.id = things.id); ``` 实现 sales 和 things 表的...

SQuirrel SQL Client配置hive驱动: SQuirrel SQL Client是一款流行的开源SQL查询工具，它允许用户通过一个图形用户界面（GUI）来连接到各种类型的数据库，包括Hive。Hive是一个基于Hadoop的数据仓库系统，常用于大数据处理和分析。本篇文章将详细讲解...

Hive教程.pdf: - Hive支持内连接（INNER JOIN）、左连接（LEFT JOIN）、右连接（RIGHT JOIN）以及全连接（FULL OUTER JOIN），但在某些情况下可能需要特殊处理以避免数据倾斜。 - **Inner Join**: - `SELECT t1.*, t2.* FROM ...

部分普通sql查询在hive中的实现方式: - **背景**：Hive只支持等值连接，即连接条件必须是相等关系。 - **示例**：等值连接的查询如下： ```sql SELECT a.* FROM a JOIN b ON (a.id = b.id) ``` 而非等值连接则会执行失败： ```sql SELECT a.* ...

HIVE可视化工具DbVisualizer12.1.1的安装配置与使用文档.docx: 1. **连接HIVE**: 双击刚刚创建的连接名，会出现连接面板。点击“Connect”按钮，建立与Hive服务器的连接。 2. **创建查询面板**: 在左侧的“Database Navigator”窗格中，展开你的Hive连接，可以看到数据库和表的...

hive优化(ppt): 因此，进行Hive优化变得尤为重要，本文将深入探讨Hive优化中的几个关键知识点，包括分区裁剪、列裁剪、多表关联、多表插入以及左半连接等策略，并探讨如何通过改变存储格式和启用压缩来进一步提升性能。 ### 分区...

Hive-Summit-2011-join.zip_hive: 1. **Hive Join操作**：Hive支持多种类型的Join，包括内连接（Inner Join）、左连接（Left Outer Join）、右连接（Right Outer Join）、全连接（Full Outer Join）以及自连接（Self Join）。在处理大数据时，选择...

Hive优化.docx: - **多Join合并**：如果多个Join操作的连接键相同，Hive会尝试合并这些Join为一个MapReduce任务，从而减少Job的数量，提高效率。 2. **理解Hadoop核心能力**： - **数据倾斜问题**：Hadoop处理大量数据时，数据...

HIVE语法.docx: 根据给定文件的信息，我们可以总结出Hive中的关键知识点，主要涵盖Hive的常用函数以及基本的运算操作。Hive是一种基于Hadoop的数据仓库工具，它提供了类SQL的查询语言"HiveQL"来处理存储在Hadoop文件系统中的大规模...

hive操作实战: 右外连接与左外连接相反，返回的是右表中的所有记录以及左表中匹配的记录。如果左表没有匹配项，则使用NULL值填充。在这个例子中，即使某些课程没有对应的学生信息，也会显示这些课程的信息。 **左半连接（`LEFT ...

工作总结hive优化: - 方法2：使用左连接，并对空值进行特殊处理。 ```sql Select * from loga left outer join bmw_users b on case when a.user_id is null then concat('dp_hive', rand()) else a.user_id end = b.user_id; ...

Hive自學手冊: - **外连接**: 包括左外连接 (`LEFT OUTER JOIN`)、右外连接 (`RIGHT OUTER JOIN`) 和全外连接 (`FULL OUTER JOIN`)。 - **Map连接**: 当连接的一个表非常小时，可以将其加载到内存中，然后进行连接操作。 **5.3 子...

Hive语法详解.docx (排版清晰,覆盖全面,含目录): - **运行HiveServer2和Beeline**：通过`hiveserver2`启动服务端，并使用`beeline`客户端连接。 - **运行HCatalog**：HCatalog作为Hive的一个扩展，提供了一个更面向服务的接口。 - **运行WebHCat（Templeton）**：...

Hive性能优化: 如果一个查询涉及到多次连接（join）和汇总（group by），可能会产生很多Map/Reduce作业，这不仅增加了作业分配和初始化的时间，而且也增加了数据输出的时间。所以，减少Map/Reduce作业的数量也是提高性能的途径。 ...

1_hive函数大全.pdf: Hive提供了测量字符串长度的length函数、字符串反转的reverse函数、字符串连接concat函数、带分隔符连接concat_ws函数、字符串截取substr和substring函数、转换大小写的upper/ucase和lower/lcase函数、去除或保留...

hive函数大全（中文版）: 19. 左补足函数：lpad 28 20. 右补足函数：rpad 28 21. 分割字符串函数: split 28 22. 集合查找函数: find_in_set 29 八、集合统计函数 29 1. 个数统计函数: count 29 2. 总和统计函数: sum 29 3. 平均值统计函数: ...

hive50题作业.txt: - 在实际使用中，`LOAD DATA LOCAL INPATH`用于从本地文件系统加载数据到Hive表中。在生产环境中通常会使用`LOAD DATA INPATH`命令来从Hadoop分布式文件系统中加载数据。 - 上述示例中的路径`/root/data.txt`应替换...

Global site tag (gtag.js) - Google Analytics