Hive Map Side Join解析 - - ITeye博客

`

x10232

浏览: 58348 次
来自: 北京

最近访客更多访客>>

grylls

suixiang2017

chengzhang2017

商人shang

博主相关

博客

微博

相册

收藏

留言

关于我

文章分类

社区版块

存档分类

最新评论

x10232： 3+3+4+4
impala学习总结
x10232：一个房子里有椅子，椅子有腿和背，房子与椅子是什么关系，椅子与腿 ...
关联、组合、聚合、依赖关系比较

Hive Map Side Join解析

博客分类：

hive

阅读更多

通常Hadoop在做join策略的时候会有两种方式map-side join（也叫replication join）和reduce-side join（也叫repartition join或者common join）

1. reduce side join

利用了mapreduce框架的sort-merge机制来使得相同key的数据聚合在一起，在map阶段会分别读取输入dataset，然后根据join key来分发每条记录（其他值包装在value中），在reduce阶段读取所有同一个join key对应的所有记录后，就可以做笛卡尔积，然后将结果再emit出去。

2. map side join

如果一部分输入dataset size比较小的话，可以将这部分数据replicate到所有的map端(利用DistributedCache拷贝到各个map host上)，在map task执行的时候，会先将这部分数据（小表）读入memory中，每次在map函数遍历大表的时候，会查找memory中对应相同join key的记录集，然后做join。

Hive执行map side join的策略

Hive在Compile阶段的时候对每一个common join会生成一个conditional task，并且对于每一个join table，会假设这个table是大表，生成一个mapjoin task，然后把这些mapjoin tasks装进conditional task（List<Task<? extends Serializable>> resTasks），同时会映射大表的alias和对应的mapjoin task。在runtime运行时，resolver会读取每个table alias对应的input file size，如果小表的file size比设定的threshold要低 (hive.mapjoin.smalltable.filesize,默认值为25M)，那么就会执行converted mapjoin task。对于每一个mapjoin task同时会设置一个backup task，就是先前的common join task，一旦mapjoin task执行失败了，则会启用backup task

流程图：

原文链接：http://blog.csdn.net/lalaguozhe/article/details/9082921

分享到：

Hive中小表与大表关联(join)的性能分析 | hive in/not in替换以及hive join优化

2016-10-26 14:08
浏览 1245
评论(0)
分类:开源软件
查看更多

评论

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

Hive-Summit-2011-join.zip_hive: 3. **Map-side Join**：为了解决大规模数据集的Join问题，Hive引入了Map-side Join。这种方法适用于小表与大表的连接，小表可以被完全加载到内存中，从而避免了在Reduce阶段的昂贵数据交换。 4. **Bucketing与...

Hive_优化——深入浅出学Hive: 2. **笛卡尔积**：在严格模式下，Hive 不允许笛卡尔积，可以通过添加 Join Key 或使用 MapJoin 避免。 3. **控制 Map 数**：合理设置 Map 数量，避免过多小文件导致的任务开销。 4. **JOIN**：优化 JOIN 操作，...

Hive用户指南.zip: 使用Joins的优化策略，如Map-side Join和Bucket Map Join；以及使用EXPLAIN查看查询计划，调整查询语句。六、Hive与其他系统集成 Hive可以与多种大数据生态系统的组件无缝集成，如Pig、HBase、Spark等。例如，Hive...

hive sql详解经典: 这有助于优化Join操作，特别是当两个表可以按相同的列进行桶化时，可以实现快速的Map-Side Join。 6. **外部表**：外部表仅保存表的元数据，数据存储在HDFS的指定位置。如果删除外部表，元数据被移除，但数据不会...

Hive & Performance 学习笔记: Map-side join适用于小表可以完全加载到内存的情况，所有节点都会保存小表，从而实现一次遍历大表完成Join。SMB（Sort-Merge-Bucket）Join则是在两个表都过大无法全部放入内存时使用的策略，通过对Join键进行排序和...

apache-hive-1.2.1-bin.tar.gz: 2. **索引**：虽然Hive不支持传统数据库的B树索引，但可以使用SkewJoin优化、Map-side Join和ORCFile等格式来提升性能。 3. **查询优化**：避免全表扫描，合理使用JOIN、GROUP BY和WHERE子句，以及使用EXPLAIN预览...

hive简介共5页.pdf.zip: 5. **性能优化**：Hive提供了多种优化策略，如Joins优化（Map-side Join, Reduce-side Join）、Bucketing和Sorting，以及使用Tez或Spark作为执行引擎以提高性能。 6. **Hive与Hadoop的关系**：Hive是建立在Hadoop之...

大公司大数据量hive调优实践: 对于小表，可以考虑将其全量加载到内存，使用MapSide Join提高查询速度。而对于大数据表，采用上述的分区、格式优化等策略。总结，Hive调优是一个综合性的工程，涉及到SQL优化、数据组织、硬件配置、并行度控制等...

Hive小表的测试数据: 5. **优化查询**：在执行小表与大表的JOIN操作时，可以利用Hive的`map-side join`或`broadcast join`策略。对于小表，如果能在内存中完全容纳，广播join可以显著提高查询效率，因为它只在map阶段完成join操作。 6. ...

hive常用优化方法大全共2页.pdf.zip: 优化JOIN包括使用Broadcast JOIN（小表广播）、Map-Side JOIN（如果可能的话）、和使用分区JOIN避免全表JOIN。 7. **使用Bucketing和Sorting**：Bucketing按照特定列的哈希值将数据分桶，Sorting则按列排序，能提高...

深入浅出数据仓库中SQL性能优化: - **Join操作优化**：尽可能使用Map-side join代替Reduce-side join，以减少数据传输量。 - **分区优化**：合理利用分区表，减少不必要的数据扫描。 - **索引优化**：对于频繁查询的字段创建索引，加速查询过程。 - ...

03-2022年深圳大数据面试题汇总.pdf: - **Hive Map Side Join：**适用于小表关联大表的场景，减少数据传输量。 #### 项目经验 - **离线数仓项目难点：**例如数据延迟、数据质量控制等问题及其解决方案。 - **BI系统架构设计：**包括数据收集、清洗、...

6.Hadoop入门进阶课程_第6周_MapReduce应用案例.pdf: 通过一个求各个部门的总工资的测试例子，探讨了MapReduce的join操作，包括reduce-side join、map-side join和semi join。Reduce-side join在shuffle阶段会进行大量数据传输，导致网络IO效率低下，而map-side join...

For_the_hive: - **Hive的Join优化**：使用Map-side Join和Bucket Map Join等方式减少数据传输。 - **ORCFile和Parquet格式**：这些列式存储格式相比传统文本格式，能显著减少数据存储空间并提高查询速度。 - **Tez和Spark执行...

大数据相关面试题.rar: 4. **Hive优化**：面试者可能需要了解如何进行Hive查询优化，比如使用Bucketing和Sorting来提升查询性能，或者理解Join操作的优化策略，如Broadcast Join和Map-side Join。 5. **Spark**：虽然题目未明确提及Spark...

CompositeInputFormat:了解 MapReduce 中的数据连接: 复合输入格式了解 MapReduce 中的数据连接摘要：该项目演示了如何使用 CompositeInputFomat 实现 Map side join。为什么要花时间学习如何连接数据，而使用在更高抽象级别工作的工具（如 Hive 或 Pig）可以更好地...

Hadoop开发第四期: - **Map-Side Join**：在Map阶段完成Join操作，适用于小表连接大表的情况。 - **Reduce-Side Join**：在Reduce阶段完成Join操作，适用于两个表大小相当的情况。 - **Broadcast Join**：将一个小表广播到所有节点...

北大数据库原理与应用课程设计: 例如，可以使用Bucket JOIN或者Map-Side JOIN技术，通过预处理数据，减少跨节点的数据传输。此外，为了优化查询效率，还需要考虑数据分区和索引的建立。数据分区可以将大规模数据划分为更小、更易管理的部分，使得...

在Hadoop Map-Reduce中实施联接: 4. **Map-Side Join**：如果小表能够完全装入内存，可以在Map阶段就完成联接。将小表作为缓存加载到每个Mapper，然后在Map阶段进行联接，减少Reduce阶段的负担。 5. **Bucket Join或Block Join**：当数据已经按照...

spark性能调优: 针对数据倾斜，可以采取多种策略，包括使用HiveETL预处理数据、过滤倾斜key、提高shuffle操作并行度、两阶段聚合、将reduce join转为map join，以及采用随机前缀和扩容RDD进行join。 Shuffle调优是Spark性能调优中...

Global site tag (gtag.js) - Google Analytics