`
乡里伢崽
  • 浏览: 111949 次
  • 性别: Icon_minigender_1
  • 来自: 深圳
社区版块
存档分类
最新评论

explain hive index

    博客分类:
  • hive
 
阅读更多
设置索引:
使用聚合索引优化groupby操作
hive> set hive.optimize.index.groupby=false;

自动使用索引
hive> set hive.optimize.index.filter=true;                     

设置自动使用索引的最小输入字节数
hive>set hive.optimize.index.filter.compact.minsize=64

注意 hive.optimize.index.groupby必须设置生false,不然 hive.optimize.index.filter不起作用。



hive> explain select count(1) from ctest where dp_id='10275499';
[java] view plaincopy
STAGE PLANS: 
  Stage: Stage-3 
    Map Reduce 
      Alias -> Map Operator Tree: 
        taobao_db__aatest_aatestindex__  
          TableScan 
            alias: taobao_db__aatest_aatestindex__ 
            filterExpr: 
                expr: (tid = '57301233') 
                type: boolean 
            Filter Operator 
可以发现会执行索引。
分享到:
评论

相关推荐

    Hive on Spark EXPLAIN statement

    Hive on Spark EXPLAIN statement : 讲述了 Common Join / Map join / Bucket Map Join / Sorted Merge Bucket Map Join / skew join 在explain 中的 树结构 。In Hive, command EXPLAIN can be used to show the ...

    hive执行计划可视化工具

    - **Hive自带的Explain命令**:虽然它不是图形化的,但可以通过输出文本信息来查看执行计划的概要。 - **Hue**:一个流行的Hadoop用户界面,包括一个内置的Hive编辑器,它可以显示执行计划的可视化表示。 - **Tez...

    hive技术分享文档

    性能优化是Hive使用中的重要环节,包括选择合适的文件格式、使用分区和桶、优化JOIN操作、避免全表扫描、使用explain命令预估查询计划等。此外,Hive还可以通过Tez或Spark作为执行引擎,以提升查询速度。 七、Hive...

    Hive基本操作命令大全

    * EXPLAIN 查询:`EXPLAIN SELECT sales.*, things.* FROM sales JOIN things ON (sales.id = things.id);` Hive提供了多种方式创建表、加载数据、查询数据和管理数据,使得大规模数据的管理和分析变得更加方便和...

    Hive查询优化整理与Hive简易版思维导图

    1. **Explain命令**:使用EXPLAIN分析查询执行计划,了解Hive如何处理SQL,找出性能瓶颈。 2. **Hive Metastore优化**:保持Metastore整洁,定期清理不再使用的表和分区,确保元数据检索高效。 3. **配置调优**:...

    HIVE-SQL开发规范.docx

    - 使用EXPLAIN查看执行计划,优化查询逻辑。 - 避免全表扫描,利用分区和桶化。 - 选择合适的JOIN类型,如LEFT SEMI JOIN比INNER JOIN更高效。 - 使用CBO(Cost-Based Optimizer)进行成本估算,自动选择最优执行...

    Hive收集的电子文档

    10. **优化技巧**:Hive提供了多种优化手段,如EXPLAIN计划查看任务执行逻辑,使用CLUSTER BY或DISTRIBUTE BY进行数据分布控制,以及使用JOIN优化等。 通过深入学习和理解这些知识点,你可以有效地使用Hive进行大...

    hive开发中常遇到的坑

    Hive提供了`EXPLAIN`关键字帮助开发者理解SQL查询的执行计划,这对于优化查询性能至关重要。 ##### 示例SQL与解释: ```sql EXPLAIN SELECT x.a, x.b FROM (SELECT 'a' AS a, 'b' AS b FROM default.dual) x LEFT ...

    Hive用户指南(Hive_user_guide)_中文版pdf

    9. **性能监控与调试**:Hive提供了日志系统和Explain命令来帮助用户理解和优化查询性能。通过分析执行计划,可以找出可能的瓶颈并进行优化。 10. **最佳实践**:学习Hive不仅要掌握其语法和特性,还要了解如何根据...

    hive官方文档整理

    使用EXPLAIN查看执行计划,分析优化路径;使用Bucket Map Join优化Join操作;以及使用Hive的缓存机制提升查询速度。 8. **Hive与其它大数据组件的协同**:Hive可以与HBase、Impala、Pig等工具配合使用,实现更复杂...

    Apache Hive Cookbook_Code 源码

    这里可能包含如何使用Hive的分区、分桶、倾斜表处理、Join操作优化、使用Explain命令理解查询执行计划等内容。此外,章节可能还涵盖了Hive与其他Hadoop组件(如HBase、Spark)的集成,以实现更高效的数据处理。 ...

    Hive练习数据包.zip

    9. **性能优化**:Hive支持多种优化策略,如EXPLAIN计划查看查询执行步骤,增加切分键以优化JOIN,选择合适的数据存储格式(如Parquet或ORC)以提高查询速度等。 在“data”这个文件夹中,你可能会找到一些示例数据...

    Hive用户指南.zip

    以及使用EXPLAIN查看查询计划,调整查询语句。 六、Hive与其他系统集成 Hive可以与多种大数据生态系统的组件无缝集成,如Pig、HBase、Spark等。例如,Hive可以通过Hive SerDe(Serialization/Deserialization)接口...

    第6章:Hive性能优化及Hive3新特性1

    使用`Explain`命令查看查询执行计划,有助于理解Hive如何转换HQL为MapReduce任务,从而进行性能调优。此外,调整MapReduce的相关参数(如mapred.map.tasks、mapred.reduce.tasks等)也能改善性能。 6. **Join方案...

    dbvis中hive驱动

    4. 图形化查询计划:通过"Explain"功能,查看Hive如何解析和执行你的HQL查询,帮助优化查询性能。 五、Hive驱动的更新与管理 "压缩包子文件的文件名称列表"中提到的“hive驱动”可能是指Hive的JDBC驱动jar文件。在...

    hive调优总结文档-hive tuning ppt

    - **使用EXPLAIN命令**:分析查询计划,找出潜在的性能瓶颈。 8. **监控与日志**: - **监控系统资源**:定期检查Hadoop集群资源使用情况,及时调整资源分配。 - **日志分析**:通过Hive和YARN的日志,找出慢...

    hive测试数据

    7. **优化查询**:包括使用Hive的EXPLAIN命令理解查询执行计划,以及使用JOIN优化、减少笛卡尔积、使用Bucketing和Skew Join等技术提高性能。 8. **Hive与Hadoop生态系统集成**:Hive可以与其他Hadoop组件(如HDFS...

    Oracle中explain_plan的用法

    Oracle 中 explain_plan 的用法 Oracle 中的 explain_plan 是一个强大的分析工具,能够帮助用户了解 SQL 语句的执行计划,通过它可以了解 Oracle 是如何连接表、使用什么方式扫描表(索引扫描或全表扫描)以及使用...

    Hive编程指南

    4. **Hive优化**:探讨如何提高Hive查询效率,包括分区策略、桶表、物化视图、优化查询计划(例如使用EXPLAIN命令)、并行执行和数据倾斜等问题。 5. **Hive与Hadoop的集成**:介绍Hive如何与Hadoop的其他组件,如...

    hive高级分析函数与优化.rar_hive_hive 函数优化_hive 分析 大数据_hive高级优化_oldwlc

    高级优化包括表和列的压缩、数据倾斜处理、Join优化、SubQuery优化、以及使用Explain命令分析查询计划等。压缩可以减小存储空间,数据倾斜优化是解决数据分布不均问题,Join优化涉及MapJOIN、BroadcastJOIN等,...

Global site tag (gtag.js) - Google Analytics