`
samuschen
  • 浏览: 405967 次
  • 性别: Icon_minigender_2
  • 来自: 北京
社区版块
存档分类
最新评论

hive mapjoin

    博客分类:
  • hive
阅读更多

 

insert overwrite table crosstest
select  /*+MAPJOIN(a)*/ a.ra,a.dec,b.ra,b.dec
from  rosat2rc  a  join  tycho2rc  b
on (a.dec>83 and a.dec<93 and b.dec>83 and b.dec<93)
where 3.5*3.5/1200/1200>((a.ra-b.ra)*cos((a.dec+b.dec)*3.14/180/2))*((a.ra-b.ra)*cos((a.dec+b.dec)*3.14/180/2))+(a.dec-b.dec)*(a.dec-b.dec)

 

 

当要连接的两个表其中一个表非常小的时候,可以考虑使用mapjoin。mapjoin会将小表拷贝到每个运行map的节点上,并将其cache到内存 中,然后在map阶段连接大表。由于省去了reduce过程,效率会提高不少。使用mapjoin之后,join会执行两个map-reduce Job,不用mapjoin则只有一个。问了下少杰,原来hive.merge.mapfiles这个参数设置为true了。因为只有map而没有 reduce,map的数量又不好控制,可能导致大量的map任务,这样会生成许多文件。hive.merge.mapfiles为true时,会启动另 外一个map-reduce Job来合并小文件。

 

 

common join 则只有一个mapreduce任务,map扫描排序表数据,reduce进行join操作。

分享到:
评论

相关推荐

    hive sql + left join 数据缺失

    这是因为TEZ引擎在转换多个MapJoin为单个操作时,可能会限制输入数据的最大大小,从而导致数据的丢失。 #### 四、解决方案 针对上述问题,可以通过以下几种方式进行解决: 1. **调整bucketing_version**: - 通过...

    Hive Summit 2011-join

    在这一讨论中,将详细介绍Hive中的六种join策略,这些策略包括Common Join、Map Join、AutoMap Join、Bucket Map Join、Bucket Sort Merge Map Join和Skew Join。 ***mon Join(普通Join) 普通join是最基本的join...

    Hive on Spark EXPLAIN statement

    Hive on Spark EXPLAIN statement : 讲述了 Common Join / Map join / Bucket Map Join / Sorted Merge Bucket Map Join / skew join 在explain 中的 树结构 。In Hive, command EXPLAIN can be used to show the ...

    hive 中join和Group的优化

    set hive.map.aggr = true; //是否在 Map 端进行聚合,默认为 True ;该设置会消耗更多的内存。 set hive.groupby.mapaggr.checkinterval = 100000000; //在 Map 端进行聚合操作的条目数目 set hive.groupby....

    Hive sql优化

    - `hive.mapjoin.size.key`:用于MapJoin操作的键的最大数量,默认为10000。 - `hive.mapjoin.cache.numrows`:缓存中小表的最大行数,默认为10000。 2. **GROUP BY 数据倾斜** - **Map端部分聚合**:为了减轻...

    Hive-Summit-2011-join.zip_hive

    3. **Map-side Join**:为了解决大规模数据集的Join问题,Hive引入了Map-side Join。这种方法适用于小表与大表的连接,小表可以被完全加载到内存中,从而避免了在Reduce阶段的昂贵数据交换。 4. **Bucketing与...

    Hive原理与实现

    Hive提供了多种Join类型,包括Common Join、Map Join、Bucket Map Join等,每种Join都有其适用场景: - **Common Join**:标准的Join操作,适用于大多数情况。 - **Map Join**:适用于小表参与Join的情况,可以将小...

    hadoop Join代码(map join 和reduce join)

    本文将深入探讨Map JOIN和Reduce JOIN两种在Hadoop中实现JOIN的方法,并通过代码示例来阐述它们的工作原理。 1. Map JOIN: Map JOIN在Hadoop中主要应用于小表与大表的连接。小表的数据可以完全加载到内存中,而大...

    hive性能优化

    Hive中,Map任务的数量由`mapred.min.split.size`和`mapred.max.split.size`这两个参数决定。默认情况下,`mapred.min.split.size`为1B,`mapred.max.split.size`为256MB,这意味着一个Map任务处理的数据量上限为256...

    hive参数配置说明大全

    如果设置为true,则Hive将自动将Reduce端的Common Join转化为Map Join,默认值为false。 5. hive.mapred.local.mem 该参数决定了Mapper/Reducer在本地模式的最大内存量,以字节为单位,0为不限制。如果设置为0,则...

    Hive优化方法整理

    3. 慎重使用 mapjoin,小表要注意放在 join 的左边,否则会引起磁盘和内存的大量消耗。 4. 写 SQL 要先了解数据本身的特点,如果有 join、group 操作的话,要注意是否会有数据倾斜。 解决数据倾斜问题 1. 对于 ...

    Hive_优化——深入浅出学Hive

    2. **笛卡尔积**:在严格模式下,Hive 不允许笛卡尔积,可以通过添加 Join Key 或使用 MapJoin 避免。 3. **控制 Map 数**:合理设置 Map 数量,避免过多小文件导致的任务开销。 4. **JOIN**:优化 JOIN 操作,...

    分布式数据仓库Hive大全

    7. HIVE 的MAP/REDUCE 41 7.1 JOIN 41 7.2 GROUP BY 42 7.3 DISTINCT 42 8. 使用HIVE注意点 43 8.1 字符集 43 8.2 压缩 43 8.3 count(distinct) 43 8.4 JOIN 43 8.5 DML操作 44 8.6 HAVING 44 8.7 子查询 44 8.8 ...

    hive优化总结

    同时,应该使用MAPJOIN操作,以提高 JOIN 的效率。 4. 列裁剪和分区裁剪 列裁剪和分区裁剪是Hive性能优化的重要手段。列裁剪可以减少读取的列数,提高查询效率。分区裁剪可以减少读取的分区数目,提高查询效率。 ...

    hive参数优化总结

    Join、MapJoin、Group by 是 Hive 中三个非常重要的语法,影响着数据处理的速度和效率。Join-used to combine rows from two or more tables, based on a related column between them。MapJoin-used to combine ...

    hive on tez 常见报错问题收集

    当遇到此运行时异常时,可以尝试禁用向量化执行或者混合Grace Hash Join,设置`hive.vectorized.execution.enabled`为false,以及`hive.mapjoin.hybridgrace.hashtable`和`hive.vectorized.execution.reduce....

    hive数仓、hive SQL 、 hive自定义函数 、hive参数深入浅出

    - 内存参数:如mapreduce.map.memory.mb、hive.server2.executor.memory.overhead等,合理设置可避免内存溢出。 - 执行引擎与优化器:可以选择Tez或Spark作为执行引擎,优化查询计划以提高性能。 - 其他参数:如...

    apache-hive-1.2.1源码包(已编译)(含Hive的使用全解)

    Hive提供了许多优化策略,如 cbo (Cost-Based Optimization)、动态分区插入、mapjoin等,以提升查询性能。用户可以通过配置参数调整这些策略。 8. **Hive的扩展性** Hive可以通过编写自定义函数(UDF, User ...

    Hive用户手册中文版.pdf

    对于Hive的Map/Reduce操作,Hive支持Map Join操作,这种操作适用于小表与大表进行join时的数据处理。同时,Hive支持Bucket和Sampling操作,以帮助用户更有效地处理数据。 Hive的设计目标是简化Hadoop上数据仓库的...

    hive on spark mr 数据开发常见问题解决

    对于Map阶段的内存溢出,尤其是由于MapJoin引起的,应设置`hive.auto.convert.join = false`,将MapJoin转换为Reduce端的Common Join。此外,可以调整以下参数以减少内存压力: - `hive.exec.reducers.bytes.per....

Global site tag (gtag.js) - Google Analytics