`
superlxw1234
  • 浏览: 552269 次
  • 性别: Icon_minigender_1
  • 来自: 西安
博客专栏
Bd1c0a0c-379a-31a8-a3b1-e6401e2f1523
Hive入门
浏览量:44539
社区版块
存档分类
最新评论

hive本地mr

阅读更多

如果在hive中运行的sql本身数据量很小,那么使用本地mr的效率要比分布式的快很多。。

 

比如: 

 

hive> select 1 from dual;
Total MapReduce jobs = 1
Launching Job 1 out of 1
Number of reduce tasks is set to 0 since there's no reduce operator
Starting Job = job_201208151631_2040444, Tracking URL = http://jt.dc.sh-wgq.sdo.com:50030/jobdetails.jsp?jobid=job_201208151631_2040444
Kill Command = /home/hdfs/hadoop-current/bin/hadoop job  -Dmapred.job.tracker=10.133.10.103:50020 -kill job_201208151631_2040444
2012-10-23 10:55:17,646 Stage-1 map = 0%,  reduce = 0%
2012-10-23 10:55:27,807 Stage-1 map = 100%,  reduce = 0%
Ended Job = job_201208151631_2040444
OK
1
Time taken: 17.853 seconds

 

 

 

set hive.exec.mode.local.auto=true;  //开启本地mr

 

//设置local mr的最大输入数据量,当输入数据量小于这个值的时候会采用local  mr的方式

set hive.exec.mode.local.auto.inputbytes.max=50000000;

 

//设置local mr的最大输入文件个数,当输入文件个数小于这个值的时候会采用local mr的方式

set hive.exec.mode.local.auto.tasks.max=10;

 

当这三个参数同时成立时候,才会采用本地mr

 

hive> select 1 from dual;             
Total MapReduce jobs = 1
Launching Job 1 out of 1
Number of reduce tasks is set to 0 since there's no reduce operator
Execution log at: /tmp/liuxiaowen/liuxiaowen_20121023105757_31c966be-ee79-4c23-a467-648290b338ac.log
Job running in-process (local Hadoop)
2012-10-23 10:58:03,728 null map = 100%,  reduce = 0%
Ended Job = job_local_0001
OK
1
Time taken: 4.842 seconds

 

更多大数据Hadoop、Spark、Hive的文章,请关注 我的博客

 

 

2
2
分享到:
评论

相关推荐

    Hive用户指南(Hive_user_guide)_中文版.pdf

    查询计划被转化为 MapReduce 任务,在 Hadoop 中执行(有些查询没有 MR 任 务,如: select * from table ) Hadoop和 Hive 都是用 UTF-8 编码的 7 1.3Hive 和普通关系数据库的异同 Hive RDBMS 查询语言 HQL ...

    apache-hive-1.2.1-bin.tar.gz.zip

    Apache Hive 是一个基于 Hadoop 的数据仓库工具,用于查询、管理和处理存储在..."apache-hive-1.2.1-bin.tar.gz.zip" 文件提供了在本地环境中运行 Hive 的必要组件,而 "Mr.zhou_Zxy.txt" 可能是学习 Hive 的辅助资料。

    Hive常见异常处理.docx

    在Hive中,常见的报错信息为“Execution Error, return code 2 from org.apache.hadoop.hive.ql.exec.mr.MapRedTase”。这个错误信息通常不能直接解决问题,需要查看日志来确定问题的原因。日志存放目录为/shbigdata...

    hive操作.docx

    9. **保存Hive查询结果到本地**: - 方法1:使用重定向`>`将Hive命令行输出保存到文件,如`hive -e "select user, login_timestamp from user_login" > /tmp/out.txt`。 - 方法2:使用`INSERT OVERWRITE LOCAL ...

    大数据技术之Hive.zip

    此外,Hive 0.13引入了Hive-on-MR的优化,允许部分MapReduce任务在本地执行,减少网络传输。 **8. 兼容性与集成** Hive可以与多种数据源集成,如HBase、Impala、Pig等。同时,Hive提供了ODBC和JDBC驱动,使得它...

    Hive脚本任务参数优化配置.doc

    #### 二、Hive MR参数调优 1. **谓词下推(Predicate Push Down)**: - `set hive.optimize.ppd=true;` 开启谓词下推功能。谓词下推是一种优化技术,它将查询条件尽可能地推送到数据源层进行过滤,从而减少不必要...

    Apache Hive面试题

    #### 六、Hive SQL解析为MR Job的过程 1. **语法解析**: - **工具**:使用Antlr完成SQL语句的词法和语法解析,生成抽象语法树(AST)。 2. **生成查询单元(QueryBlock)**: - **内容**:遍历AST,生成基本...

    站在hadoop上看hive

    2. **数据存储**:Hive依赖于Hadoop的分布式文件系统(HDFS),而RDBMS则通常使用本地存储设备。 3. **事务处理**:Hive不支持事务处理,而RDBMS支持ACID事务。 4. **索引支持**:Hive虽然支持索引,但其功能相对有限...

    hiveIDEAjar.zip

    Hive API是Hive项目的一部分,提供了用于构建数据处理应用的Java接口,开发者可以利用这些API创建自定义操作,如MR任务、UDF(用户定义函数)等。 在标签“idea hive”中,"idea"指的是IDEA,而"hive"则表示Hive。...

    Apriori_java_MR.zip

    (6) 将数据集从本地传输到HDFS上,使用hadoop jar命令,输入驱动类规定参数,使用Apriori.jar包,运行AprioriDriver驱动类,实现算法效果。 (7) 运行结束使用hadoop fs -cat /output命令查看结果。

    hadoop编写MR和运行测试共12页.pdf.zip

    这一步可能涉及性能调优,如调整并行度、优化数据本地性等。 此外,文档可能还涵盖了Hadoop的其他相关工具,如Hadoop Streaming,它允许使用非Java语言(如Python或Perl)编写MapReduce作业;或者是Pig和Hive,它们...

    impala单机部署手册

    2. 摈弃了 MR 的计算,改用 C++ 来实现,有针对性的硬件优化。 3. 具有数据仓库的特性,对 Hive 的原有数据做数据分析。 4. 支持 ODBC、JDBC 远程访问。 Impala 的缺点: 1. 基于内存计算,对内存依赖性较大。 2. ...

    新版Hadoop视频教程 段海涛老师Hadoop八天完全攻克Hadoop视频教程 Hadoop开发

    05-mr程序的本地运行模式.avi 06-job提交的逻辑及YARN框架的技术机制.avi 07-MR程序的几种提交运行模式.avi 08-YARN的通用性意义.avi 09-yarn的job提交流程.avi 第四天 常见mr算法实现和shuffle的机制 01-...

    Hadoop日志分析、单词统计等功能

    - Hive简单操作 运行环境 ------- - java 1.8 - hadoop 1.1.2 - zookeeper 3.4.5 项目使用伪分布模式,在eclipse工具下开发的java project。 org.conan.myhadoop.hdfs ----------------------- 该包包含了HDFS类...

    hadoop-mini-clusters

    HiveMetaStore-Derby支持的HiveMetaStore 风暴-Storm LocalCluster Kafka-本地Kafka经纪人 Oozie-本地Oozie服务器-再次感谢弗拉基米尔 MongoDB-我知道...不是Hadoop ActiveMQ-感谢弗拉基米尔·兹拉特金(Vladimir...

    2021最新最全大数据面试宝典-有答案

    写入数据时客户端首先在本地缓存数据,然后分块写入DataNode,并通过NameNode更新元数据。 HDFS读取文件损坏处理:当HDFS读取文件时遇到某个块损坏,HDFS会尝试从其他副本读取数据,如果副本足够,系统会自动修复...

    parqeuet-mr:Parqeuet先生

    8. **测试和调试**:在实际开发中,开发者需要编写测试用例来验证MapReduce作业的正确性,这可能涉及到Hadoop的MiniCluster或者模拟环境,以便在本地进行测试。 综上所述,"parqeuet-mr:Parqeuet先生"很可能是一个...

    Hadoop大数据开发基础课件汇总整本书电子讲义全套课件完整版ppt最新教学教程.pptx

    HDFS可以提供备份和容错的功能,基于操作系统的本地文件系统,管理的物理资源不一定直接连接在本地节点上,而是通过计算机网络与节点相连。 四、Hadoop生态系统 Hadoop生态系统包括很多其他的软件,如Hive、Pig、...

    2023最新最强大数据面试题汇总

    9. **Map Task**:Map阶段将输入数据分割成键值对,进行本地处理,并生成中间键值对。 10. **Reduce Task**:Reduce阶段接收Map阶段输出的中间键值对,按照键进行排序,然后分组,由同一个Reducer处理同一组数据。 ...

    2023大数据面试题,很全

    Combiner是可选的本地reduce过程,可在Map阶段对数据进行局部聚合,减少网络传输量,提高效率。 ### YARN YARN是Hadoop的资源管理和调度系统,主要包括ResourceManager、ApplicationMaster和NodeManager。 - **...

Global site tag (gtag.js) - Google Analytics