HIVE调优的两个好用参数 - valder fields - ITeye博客

`

yugouai

浏览: 500153 次
性别:
来自: 深圳

最近访客更多访客>>

淡定情绪

spaceandroid

fengbin2005

hundun

博主相关

博客

微博

相册

收藏

留言

关于我

文章分类

社区版块

存档分类

最新评论

IT_LDB：哥们你帮我大忙了，谢啦。一直在尝试使用内嵌的disco ...
FaceBook PrestoDB 安装文档
wxcking： yugouai 写道wxcking 写道请问，Windows下 ...
阿里DataX编译与案例
yugouai： wxcking 写道请问，Windows下怎么配置呢？Data ...
阿里DataX编译与案例
wxcking：请问，Windows下怎么配置呢？
阿里DataX编译与案例
developerinit：总结的非常好，每次都来看
HIVE中的排序细谈

HIVE调优的两个好用参数

博客分类：

Hive分享

阅读更多

HIVE调优有两点是很好用的

摘：https://speakerdeck.com/philiptromans/hive-optimisation-tips-tricks

1.MapJoin

旧版本HIVE需要自行在查询/子查询的SELECT关键字后面添加/*+ MAPJOIN(tablelist) */提示优化器转化为MapJoin。高版本只需设置：

set hive.auto.convert.join=true;

HIVE自行选择小表作为LEFT的左表。

2.parallel

设置该参数是控制在同一个sql中的不同的job是否可以同时运行，默认是false，设置如下

set hive.exec.parallel=true;

详细见：http://yugouai.iteye.com/blog/1851151

分享到：

短期规划 | Shell递归遍历目录下文件

2013-05-10 16:36
浏览 3691
评论(0)
分类:开源软件
查看更多

评论

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

hive参数优化总结: Map 数和 Reduce 数是 Hive 中两个非常重要的参数，直接影响着 Hive 的性能和效率。 1.1、Map 数 Map 数是 Hive 中一个非常重要的参数，影响着数据处理的速度和效率。Map 数太大将导致 Map 阶段输出文件太小，产生...

Hive及Hadoop作业调优: 文档内容围绕Hadoop生态系统中的两个主要组件Hive和Hadoop进行展开，对它们的工作原理、性能调优策略等方面进行了深入讨论。首先，Hive是建立在Hadoop上的一个数据仓库工具，可以将结构化的数据文件映射为一张...

Hive优化方法整理: 2. 解决方法 1：user_id 为空的不参与关联，使用 union all 语句将两个结果合并。 3. 解决方法 2：赋与空值分新的 key 值，使用 left outer join 语句进行关联。处理不同数据类型关联产生的数据倾斜 1. 对于用户...

hive优化经典.pdf: 关键是要遵循两个原则：一是保证大数据量能够通过合适的Map数量来充分利用计算资源；二是使Map任务能够平衡地处理数据，避免由于单个Map任务处理的数据量过大而导致的性能瓶颈。通过合理地控制Map数量，可以有效提高...

hive的安装与配置头歌.zip: 3. **配置 Hive 配置文件**：主要涉及到两个文件 `hadoop-config.sh` 和 `hive-site.xml`。 - 在 `hadoop-config.sh` 文件中，设置 Hadoop 相关的路径，如 HADOOP_HOME、HIVE_HOME 等。 - 在 `hive-site.xml` 文件...

Hive学习笔记: - Hive 提供了两种模式：静态分区和动态分区。静态分区在建表时指定分区值，动态分区则在插入数据时根据查询动态生成分区。 7. **Hive 元数据**： - Hive 的元数据（如表结构、分区信息等）存储在 metastore，...

8、NIFI综合应用场景-NiFi监控MySQL binlog进行实时同步到hive: 4. **性能调优**：根据实际性能监控结果，调整处理器的并发度、线程数、队列大小等参数，优化数据流速度。 5. **错误处理与容错**：确保有适当的错误处理机制，如重试策略、死信队列或数据备份，以应对可能出现的...

电商数仓项目(十) Hive安装与配置.rar: 下面将对这两个主题进行深入解析。首先，我们来了解Hive的核心概念。Hive是由Facebook开发的一个数据仓库工具，它允许用户使用SQL（HQL，Hive Query Language）对存储在Hadoop分布式文件系统（HDFS）上的大型数据...

大数据离线分析系统，基于hadoop的hive以及sqoop的安装和配置: 在`hadoop HA集群安装文档1.0.docx`中，应详细介绍了如何配置两个NameNode节点，设置JournalNodes和Zookeeper，以及如何启用和测试HA模式。这些步骤是确保Hadoop集群稳定性和容错性的基础。接下来是Hive的安装。...

hive和HBASE.zip: 【描述】：本压缩包包含Apache Hive 1.2.2和HBase 1.2.6的安装包，旨在介绍如何在大数据处理环境中将这两个组件结合使用，实现高效的数据存储和查询。【标签】：Hive、HBase、大数据、数据仓库、NoSQL数据库、集成...

Hadoop分布式搭建配置/Hive/HBase: 其核心由两个主要部分组成：HDFS（Hadoop Distributed File System）和MapReduce。HDFS为数据提供高容错性和高吞吐量的分布式存储，而MapReduce则用于并行处理这些数据。《Hadoop权威指南(第2版)》是Hadoop学习者...

FAQ.rar_9315_hive: 标题中的"FAQ.rar_9315_hive"暗示了这是一个关于使用EDB9315 BSP（板级支持包）进行Hive操作的常见问题解答...通过阅读这两个文件，你可以全面了解在9315平台上实现Hive，处理固件更新，以及使用IDE进行开发的全过程。

hive配置说明: - **含义**：这两个参数分别定义了中间map/reduce job的压缩编解码器类名和压缩类型。 - **默认值**：根据实际配置确定 - **建议设置**：根据需求选择合适的编解码器和压缩类型。 22. **hive.exec.reducers....

spark性能调优: 针对数据倾斜，可以采取多种策略，包括使用HiveETL预处理数据、过滤倾斜key、提高shuffle操作并行度、两阶段聚合、将reduce join转为map join，以及采用随机前缀和扩容RDD进行join。 Shuffle调优是Spark性能调优中...

CDH参数优化.doc: 通过以上两个步骤，不仅确保了通过JDBC方式连接时使用Spark作为计算引擎，同时也确保了HiveServer2服务端的配置也同步进行了更新，从而实现了全面的计算引擎切换。 #### 二、YARN优化为了进一步提升Hadoop集群的...

Hive Hadoop Spark优化: Hadoop是分布式存储和计算的基石，其优化主要关注MapReduce和HDFS两个层面： 1. **Block Size调整**：适当增大HDFS的Block Size可以减少磁盘I/O，提高数据读取效率。 2. **Task并行度**：合理设置Map和Reduce任务...

hive优化 PDF 下载: Hive 是一个基于 Hadoop 的数据仓库工具，它允许用户使用 SQL 类似的查询语言（HQL）来访问存储在分布式文件系统中的大规模数据集。Hive 的主要优势在于其易用性和对大数据处理的高可扩展性。然而，随着数据量的增长...

hive综合应用案例-用户搜索日志分析.docx: - **性能调优**：根据实际的数据量和计算需求，可能需要调整Hive的配置参数来优化查询性能。 - **查询优化**：在执行复杂查询时，要注意查询的性能和效率，避免因数据倾斜或资源消耗过高而导致的问题。通过上述...

基于Hadoop的电商大数据平台性能调优.zip: 在电商大数据平台中，这两个组件的优化至关重要。 1. HDFS调优： - **数据块大小调整**：默认情况下，HDFS的数据块大小为128MB，但根据业务需求，可以适当调整。例如，如果文件较小，设置小的数据块可以减少寻道...

学习Hadoop开发运维和调优实战考试.pdf: Hadoop 是一种基于 Java 的分布式计算框架，它主要由 HDFS（Hadoop Distributed File System）和 MapReduce 两个部分组成。HDFS 是一种分布式文件系统，负责存储数据，而 MapReduce 是一种分布式计算模型，负责处理...

Global site tag (gtag.js) - Google Analytics