`
superlxw1234
  • 浏览: 551338 次
  • 性别: Icon_minigender_1
  • 来自: 西安
博客专栏
Bd1c0a0c-379a-31a8-a3b1-e6401e2f1523
Hive入门
浏览量:44445
社区版块
存档分类
最新评论

hive的不等值关联

    博客分类:
  • hive
阅读更多

hive中不支持不等值关联,诸如:

 

select a.app_name,
b.app_name 
from a 
left outer join b 
on (b.app_name like a.app_name) 

 

select a.app_name,
b.app_name 
from a 
left outer join b 
on (b.num < a.num) 

 

其实,不支持指的是在on后面的连接条件中不支持费等值连接,

在业务场景以及数据量允许的条件下,可做如下变通:

 

select a.app_name,
b.app_name 
from a 
left outer join b 
where instr(b.app_name,a.app_name) > 0 

 

select a.app_name,
b.app_name 
from a 
left outer join b 
where b.num < a.num 

 

即:先让两个表做笛卡尔积,再从结果中过滤所需要的。

hive中很多地方还是需要变通的。

别忘了验证记录数和结果集的正确性。

 

 

0
0
分享到:
评论

相关推荐

    大数据工具之HIVE外键及多表关联的介绍.zip

    大数据工具之HIVE外键及多表关联的介绍.zip

    pyflink实现hive关联mysql

    pyflink将mysql数据直接插入hive,由此可以延伸出pyflink实现hive关联mysql

    hive关联MongoDB

    工作场景中,我们往往需要从Hive中读取数据写入MongoDB,或反之,这就涉及到Hive和MongoDB之间的关联操作。 首先,要实现Hive与MongoDB的关联,需要借助于相应的jar包,这些jar包能够帮助Hive访问MongoDB中的数据。...

    01.hive查询语法--基本查询--条件查询--关联查询.mp4

    01.hive查询语法--基本查询--条件查询--关联查询.mp4

    HIVE安装及详解

    "HIVE安装及详解" HIVE是一种基于Hadoop的数据仓库工具,主要用于处理和分析大规模数据。下面是关于HIVE的安装及详解。 HIVE基本概念 HIVE是什么?HIVE是一种数据仓库工具,主要用于处理和分析大规模数据。它将...

    hive客户端安装_hive客户端安装_hive_

    在大数据处理领域,Hive是一个非常重要的工具,它提供了一个基于Hadoop的数据仓库基础设施,用于数据查询、分析和管理大规模数据集。本教程将详细讲解如何在Linux环境下安装Hive客户端,以便进行数据操作和分析。 ...

    Hive优化方法整理

    3. 解决方法 2:赋与空值分新的 key 值,使用 left outer join 语句进行关联。 处理不同数据类型关联产生的数据倾斜 1. 对于用户表中 user_id 字段为 int,log 表中 user_id 字段既有 string 类型也有 int 类型。 ...

    hive sql + left join 数据缺失

    - 升级到 Hive 3 后,新的版本改变了Hash算法,这导致在相同的JOIN操作中,原本应该被正确关联的数据因为Hash值的不同而未能成功匹配。 2. **Bucketing Version的影响**: - Bucketing Version 是Hive表的一个...

    如何在python中写hive脚本

    这里提到了TensorFlow的显存占用,虽然与Hive操作直接关联不大,但值得注意的是,在使用TensorFlow时,可以通过`tf.enable_eager_execution()`启用即时执行模式来更有效地管理内存。例如: ```python import ...

    Hive驱动1.1.0.zip

    在大数据处理领域,Hive是一个基于Hadoop的数据仓库工具,它允许用户使用SQL(HQL,Hive Query Language)查询和管理存储在Hadoop分布式文件系统(HDFS)中的大量结构化数据。Hive 1.1.0是Hive的一个版本,提供了...

    Hive3.1.2编译源码

    使用hive3.1.2和spark3.0.0配置hive on spark的时候,发现官方下载的hive3.1.2和spark3.0.0不兼容,hive3.1.2对应的版本是spark2.3.0,而spark3.0.0对应的hadoop版本是hadoop2.6或hadoop2.7。 所以,如果想要使用高...

    Hive_JDBC.zip_hive java_hive jdbc_hive jdbc pom_java hive_maven连

    在大数据处理领域,Apache Hive是一个基于Hadoop的数据仓库工具,它允许用户使用SQL(HQL,Hive Query Language)查询存储在Hadoop集群中的大型数据集。Hive JDBC(Java Database Connectivity)是Hive提供的一种...

    hive

    Hive 是一个基于 Hadoop 的数据仓库工具,它允许用户使用 SQL 类似的查询语言(称为 HiveQL)来处理和分析存储在 Hadoop 分布式文件系统(HDFS)中的大数据集。Hive 提供了一个数据层,使得非编程背景的用户也能方便...

    hive-jdbc hive jdbc驱动

    hive-jdbc

    Ambari下Hive3.0升级到Hive4.0

    在大数据领域,Apache Ambari 是一个用于 Hadoop 集群管理和监控的开源工具,而 Hive 是一个基于 Hadoop 的数据仓库系统,用于处理和分析大规模数据集。本话题聚焦于如何在 Ambari 环境下将 Hive 3.0 升级到 Hive ...

    hive-site.xml

    hive+hadoop配置文件hive+hadoop配置文件hive+hadoop配置文件hive+hadoop配置文件hive+hadoop配置文件hive+hadoop配置文件hive+hadoop配置文件hive+hadoop配置文件hive+hadoop配置文件hive+hadoop配置文件hive+...

    hive jdbc依赖的jar包

    需要注意的是,由于Hive与Hadoop紧密关联,所以Hive JDBC的性能和稳定性会受到Hadoop集群状态的影响。此外,由于Hive SQL与标准SQL存在差异,开发人员在编写查询时需要了解Hive SQL的特性和限制。 总结来说,Hive ...

    Hive表生成工具,Hive表生成工具Hive表生成工具

    Hive表生成工具,Hive表生成工具Hive表生成工具

    hive jdbc 连接所需要的jar包

    Hive JDBC连接是Java应用程序与Hive数据仓库进行交互的一种方式。它允许程序通过标准的JDBC接口查询和操作Hive中的数据。在使用Hive JDBC进行连接时,需要依赖一系列的jar包来确保所有必要的功能得以实现。下面将...

    hive参数配置说明大全

    该参数决定了是否根据输入小表的大小,自动将Reduce端的Common Join转化为Map Join,从而加快大表关联小表的Join速度。如果设置为true,则Hive将自动将Reduce端的Common Join转化为Map Join,默认值为false。 5. ...

Global site tag (gtag.js) - Google Analytics