`
hugh.wangp
  • 浏览: 293523 次
  • 性别: Icon_minigender_1
  • 来自: 杭州
社区版块
存档分类
最新评论

配置HIVE执行的本地模式

    博客分类:
  • HIVE
阅读更多

自0.7版本后Hive开始支持任务执行选择本地模式(local mode),如此一来,对数据量比较小的操作,就可以在本地执行,这样要比提交任务到集群执行效率要快很多。

配置如下参数,可以开启Hive的本地模式:
hive> set hive.exec.mode.local.auto=true;(默认为false)

当一个job满足如下条件才能真正使用本地模式:
1.job的输入数据大小必须小于参数:hive.exec.mode.local.auto.inputbytes.max(默认128MB)
2.job的map数必须小于参数:hive.exec.mode.local.auto.tasks.max(默认4)
3.job的reduce数必须为0或者1

可用参数hive.mapred.local.mem(默认0)控制child jvm使用的最大内存数
0
6
分享到:
评论

相关推荐

    hive 配置文件

    - **`hive.exec.local.scratchdir`**: 本地临时目录,用于存储Hive执行过程中的中间结果。确保该路径对所有Hive用户可写。 - **`hive.server2.authentication`**: 指定Hive Server2的认证方式,可以是`NONE`(无...

    hive_windows可执行文件

    - **derbyserver.cmd**:Derby是一个嵌入式数据库,Hive在本地模式下可能会用到。此脚本可能用于启动Derby服务。 - **hive-config.cmd**:这个脚本可能是用于设置Hive的环境变量或配置的,如HADOOP_HOME、HIVE_...

    hive参数配置说明大全

    如果输入文件大小小于该阈值,则Hive将自动在本地模式运行,默认值为134217728L(128MB)。 3. hive.exec.mode.local.auto.tasks.max 该参数决定了如果hive.exec.mode.local.auto为true时,默认的Hive Tasks...

    hive配置文件信息修改

    在这个文件中,你可以设置如`spark.master`来指定Spark运行模式(如本地模式、YARN或Mesos),`spark.executor.instances`定义执行器的数量,`spark.driver.memory`控制驱动程序的内存分配,以及`spark.storage....

    Hive优化(提高hive运行速度)

    一、Hive 使用本地模式执行操作 在默认情况下,当 Hive 作业的资源需求超过20MB 时,它会将任务提交到 YARN(Hadoop 的资源管理系统)进行分布式处理。然而,对于小型任务来说,这种分布式处理方式可能会引入不必要...

    Hive安装配套资源.zip

    比如,你可以在这里配置元数据存储的位置(如MySQL的URL、用户名和密码)、Hive的临时目录、HDFS的路径、是否启用Hive的本地模式等。正确配置这些参数对于优化Hive的性能和确保其稳定运行至关重要。 在运维层面,...

    hive Windows 可执行文件

    描述中指出,这个压缩包包含的是一个可以在Windows上运行的Hive bin目录,这意味着它包含了所有必要的脚本和可执行文件,使得用户可以在本地Windows环境中执行Hive命令。通常,Hive的bin目录包含`hive`、`hiveserver...

    Hadoop和Hive的安装配置

    4. **配置Hive的MySQL依赖**(可选):如果使用外部元存储,需要配置MySQL连接参数,并在MySQL中创建对应的Hive元数据表。 5. **启动Hive**:启动Hive的服务,包括Metastore Server(默认端口9083)和Hive CLI,...

    hive相关jar包

    在大数据处理领域,Hive是一个基于Hadoop的数据仓库工具,它允许用户使用SQL(HQL,...通过正确配置和使用这些jar包,开发者可以在Java应用程序、脚本或者Web服务中轻松地集成Hive的功能,实现大数据的高效分析和处理。

    hive的安装与配置.zip

    1. `hive-site.xml`:这是Hive的主要配置文件,用于设置Hive的各种属性,如Metastore的数据库连接信息、HDFS路径、Hive执行模式(本地模式或分布式模式)等。 2. `metastore_db`:这是Hive元数据存储的地方,可以是...

    windows hive cmd 下载

    3. **Windows环境下安装Hive**: 在Windows系统上安装Hive通常需要先安装Hadoop的本地模式或者伪分布式模式,因为Hive依赖于Hadoop的HDFS(Hadoop Distributed File System)和YARN(Yet Another Resource Negotiator...

    hive实验报告.docx

    - 虽然实验报告中没有详细列出遇到的问题和解决方案,但在实际使用中,Hive的调优可能涉及到优化查询计划、调整Metastore性能、设置合适的执行引擎(MapReduce或Tez或Spark)、合理设计表分区等。 通过这次实验,...

    Hive教程.pdf

    - 使用本地模式执行MapReduce。 - 启用JVM重用。 - 并行化处理。 - **Hive底层MapReduce优化**: - 设置合理的Map数。 - 设置合理的Reduce数。 #### 第三部分:Hive高级知识 - **Hive文件格式**: - **常见...

    Hive用户指南(Hive_user_guide)_中文版pdf

    同时,还需要配置Hive的metastore服务,可以选择本地模式或远程模式。 4. **Hive数据模型**:Hive的数据模型包括数据库、表、分区和桶。数据库是逻辑上的组织单位,表是数据的存储容器,分区是表的逻辑划分,用于...

    hive配置说明

    ### Hive配置参数详解 #### 一、概述 Hive 是一款基于 Hadoop 的数据仓库工具,可以帮助对在存储在 Hadoop 文件系统中的数据集进行数据整理、...在实际应用中,合理配置Hive参数是提高数据分析能力的关键步骤之一。

    hive 三种启动方式及用途

    在独立模式下,Hive运行在本地模式,不与任何Hadoop集群交互。这种模式主要用于开发和测试环境,因为它快速且易于设置。在此模式下,所有的Hive服务(如MetaStore、HiveServer2等)都运行在同一个Java进程中,不...

    04-Hive安装部署及运维使用.pdf

    Hive执行MapReduce任务有两种模式:本地模式和分布式模式。 Hive的安装部署涉及对Hive组件的配置和高可用部署。Hive组件包括HiveServer2,它支持通过Thrift API进行远程访问。为了保证HiveServer2的高可用性,通常...

    spark2.0编译版-适用于hive2.3的hive on spark

    这是因为Hive on Spark模式下,Spark作为Hive的执行引擎,但为了避免版本冲突和依赖问题,需要独立编译Spark,不包含Hive的内置库。 首先,Hive on Spark的目的是利用Spark的分布式计算能力来加速HQL(Hive查询语言...

    Hive_Hadoop_Spark优化.pdf

    此外,通过设置hive.exec.mode.local.auto.inputbytes.max和hive.exec.mode.local.auto.input.files.max,可以控制在什么条件下Hive会采用本地模式来执行任务。例如,当输入数据的大小或文件数量小于设定的阈值时,...

    apache-hive-2.0.0-bin.tar.gz.zip

    3. **Hive Executor**:执行实际的计算任务,可以是本地模式(适用于小规模测试),也可以是MapReduce(Hadoop的早期计算框架)或Tez(更高效的任务调度框架)。 4. **Hive CLI**:命令行接口,用户通过它提交查询。...

Global site tag (gtag.js) - Google Analytics