`

hive本地模式

    博客分类:
  • hive
 
阅读更多

 

 

看hive资料会看到hive本地模式这个介绍, 下面是查询网上资料后的一些整理:

 

大多数的Hadoop job是需要hadoop集群来处理大数据的,

不过,有时hive的输入数据量是非常小的。在这种情况下,为查询执行任务的时间消耗可能会比实际job的执行时间要多的多,因此hive0.7版本后Hive开始支持任务执行选择本地模式(local mode),即任务提交到本地机器处理,数据不从集群中获取。

 

 

使用本地模式需要满足的条件:

 

配置如下参数,可以开启Hive的本地模式:
hive> set hive.exec.mode.local.auto=true;(默认为false)


当一个job满足如下条件才能真正使用本地模式:
1.job的输入数据大小必须小于参数:hive.exec.mode.local.auto.inputbytes.max(默认128MB)
2.job的map数必须小于参数:hive.exec.mode.local.auto.tasks.max(默认4)

3.job的reduce数必须为0或者1

 

 

参考链接:

http://blog.csdn.net/wisgood/article/details/17383247

 

分享到:
评论

相关推荐

    Hive优化(提高hive运行速度)

    本文将主要讨论如何通过启用 Hive 的本地模式来提高其运行速度。 一、Hive 使用本地模式执行操作 在默认情况下,当 Hive 作业的资源需求超过20MB 时,它会将任务提交到 YARN(Hadoop 的资源管理系统)进行分布式...

    hive实验报告.docx

    【Hive实验报告】 实验报告主要涵盖了Hive的安装、配置以及基本操作,包括DDL(Data Definition Language)和DML(Data Manipulation Language)的使用,Hive与MySQL的交互,UDF(User Defined Function)的开发,...

    Hive on Spark源码分析DOC

    当用户把 SPARK MASTER URL 设置为 LOCAL 时,采用本地模式;其余情况采用远程模式。在本地模式下,SparkContext 与客户端运行在同一个 JVM 中;在远程模式下,SparkContext 运行在独立的 JVM 中。本地模式通常用于...

    hive参数配置说明大全

    如果Hive Tasks小于该阈值,则Hive将自动在本地模式运行,默认值为4。 4. hive.auto.convert.join 该参数决定了是否根据输入小表的大小,自动将Reduce端的Common Join转化为Map Join,从而加快大表关联小表的Join...

    hive相关jar包

    在Hive on Spark模式下,还需要包含Spark的相关jar包。此外,如果涉及到数据集成,可能还需要与Hive连接的其他数据源(如Kafka、HBase等)的驱动jar包。 总之,"hive相关jar包"是实现与Hive数据仓库交互的基础,...

    3.2实验hive的安装与配置PDF

    Hive 的安装模式分为三种,分别是嵌入模式、本地模式和远程模式。 1、嵌入模式:使用内嵌Derby数据库存储元数据,这是Hive的默认安装方式,配置简单,但是一次只能连接一个客户端,适合用来测试,不适合生产环境。 2...

    如何在python中写hive脚本

    这里提到了TensorFlow的显存占用,虽然与Hive操作直接关联不大,但值得注意的是,在使用TensorFlow时,可以通过`tf.enable_eager_execution()`启用即时执行模式来更有效地管理内存。例如: ```python import ...

    大数据Hive.pdf

    Hive有内嵌模式、本地模式和远程模式。内嵌模式中,Hive元数据存储在本地,适合开发和测试;本地模式使用独立的元数据服务,适合小型部署;远程模式则使用远程元数据服务,适用于大型分布式环境。 综上所述,Hive...

    Hive简明教程-大数据技术系列

    Hive基于Hadoop生态系统,其运行模式包括本地模式、伪分布式模式和完全分布式模式。Hive将SQL语句转化为MapReduce任务,执行在Hadoop集群上。理解这种转换过程对于优化查询性能至关重要。例如,通过合理设计表分区...

    Hive开发规范及要点

    2. 使用Hive命令行模式导出数据:使用`hive -e "select day_id,user,count from user_table where day_id in ('2014-03-06','2014-03-07','2014-03-08','2014-03-09','2014-03-10');"> /home/test/test.dat;`语句...

    hive_windows可执行文件

    - **derbyserver.cmd**:Derby是一个嵌入式数据库,Hive在本地模式下可能会用到。此脚本可能用于启动Derby服务。 - **hive-config.cmd**:这个脚本可能是用于设置Hive的环境变量或配置的,如HADOOP_HOME、HIVE_...

    大数据之Hive官方文档简要翻译(中文文档)

    如果`hive.metastore.uris`为空,则假设为本地模式,否则为远程模式。 值得注意的是,Hive的元存储服务是无状态的,因此可以部署多个实例以提高系统的可用性和容错性。通过设置`hive.metastore.uris`,可以指定多个...

    Hive安装配套资源.zip

    比如,你可以在这里配置元数据存储的位置(如MySQL的URL、用户名和密码)、Hive的临时目录、HDFS的路径、是否启用Hive的本地模式等。正确配置这些参数对于优化Hive的性能和确保其稳定运行至关重要。 在运维层面,...

    Hive2.3.4安装文档

    -- 开启本地模式,默认是false --> <name>hive.exec.mode.local.auto <value>true <!-- URL用于连接远程元数据 --> <name>hive.metastore.uris <value>thrift://bigdata01:9083 <description>Thrift URI...

    windows hive cmd 下载

    3. **Windows环境下安装Hive**: 在Windows系统上安装Hive通常需要先安装Hadoop的本地模式或者伪分布式模式,因为Hive依赖于Hadoop的HDFS(Hadoop Distributed File System)和YARN(Yet Another Resource Negotiator...

    Hive使用手册Hive使用手册

    数据可以使用LOAD DATA命令从本地文件系统或HDFS加载到Hive表中,例如:`LOAD DATA LOCAL INPATH '/path/to/file' INTO TABLE my_table;` 8. **表连接、子查询和UNION ALL** - 表连接允许合并来自两个或更多表的...

    hive 配置文件

    - **`hive.exec.mode.local.auto`**: 如果设置为`true`,Hive将自动判断是否在本地模式下运行小任务。 - **`hive.optimize.sort动态分区`**: 如果设置为`true`,Hive将在插入数据时对动态分区进行排序,提高查询...

    flink1.12.0集成或者连接hive3.1.2的依赖包

    4. `hive.exec.mode.local`: 是否开启本地模式,默认为 false,但在测试环境中可设置为 true。 Flink 提供了两种方式与 Hive 集成:Table API 和 SQL。Table API 是一种声明式编程模型,适用于 Java 和 Scala;SQL ...

    hive 三种启动方式及用途

    在独立模式下,Hive运行在本地模式,不与任何Hadoop集群交互。这种模式主要用于开发和测试环境,因为它快速且易于设置。在此模式下,所有的Hive服务(如MetaStore、HiveServer2等)都运行在同一个Java进程中,不...

    hive配置文件信息修改

    例如,你可以修改`metastore.uris`来设置Hive元数据存储的位置,`hive.exec.local.scratchdir`定义本地临时文件目录,`hive.exec.mode.local.auto`控制是否自动切换到本地模式等。修改这些配置可以影响Hive的性能和...

Global site tag (gtag.js) - Google Analytics