`
lookqlp
  • 浏览: 346734 次
  • 性别: Icon_minigender_1
  • 来自: 上海
社区版块
存档分类
最新评论

hive hive.optimize.ppd=false导致map数量很大

    博客分类:
  • hive
阅读更多
hive官方https://cwiki.apache.org/confluence/display/Hive/LanguageManual+LateralView

Prior to Hive 0.6.0, lateral view did not support the predicate push-down optimization. In Hive 0.5.0 and earlier, if you used a WHERE clause your query may not have compiled. A workaround was to add set hive.optimize.ppd=false; before your query. The fix was made in Hive 0.6.0; see https://issues.apache.org/jira/browse/HIVE-1056: Predicate push down does not work with UDTF's.
在0.5.0版本前使用hive.optimize.ppd=false是能解决where条件不识别的。但我在使用0.9.0版本时使用了该参数,导致where不识别。
不使用参数日志:
Starting Job = job_201312261829_7430, Tracking URL = http://master:50030/jobdetails.jsp?jobid=job_201312261829_7430
Kill Command = /home/hadoop/hadoop-1.0.3/libexec/../bin/hadoop job  -Dmapred.job.tracker=master:8021 -kill job_201312261829_7430
Hadoop job information for Stage-1: number of mappers: 90; number of reducers: 287

使用该参数日志:
Starting Job = job_201312261829_7433, Tracking URL = http://master:50030/jobdetails.jsp?jobid=job_201312261829_7433
Kill Command = /home/hadoop/hadoop-1.0.3/libexec/../bin/hadoop job  -Dmapred.job.tracker=master:8021 -kill job_201312261829_7433
Hadoop job information for Stage-1: number of mappers: 4363; number of reducers: 999


所以在新版本的hive中使用hive.optimize.ppd=true;默认值即可
分享到:
评论

相关推荐

    Hive脚本任务参数优化配置.doc

    - `set hive.optimize.ppd=true;` 开启谓词下推功能。谓词下推是一种优化技术,它将查询条件尽可能地推送到数据源层进行过滤,从而减少不必要的数据传输和处理开销。 2. **动态分区参数**: - `set hive.exec....

    cdh6.3.2升级hive至3.x后登陆HiveServer2连接失败.doc

    - 在 Hive 3.x 版本中,默认情况下不允许运行时修改 `hive.query.redaction.rules` 这样的配置项,因为这类参数通常涉及到安全性和系统稳定性,更改可能会导致不可预知的行为。 3. **版本兼容性问题**: - 当从旧...

    hive优化.docx

    * 设置倾斜的阈值:set hive.optimize.skewjoin = true;set hive.skewjoin.key = skew_key_threshold; * 对异常值赋一个随机值来分散Key:select userid, name from user_info a join (select case when userid is ...

    hive-site.xml

    解决安装hive后,没有hive-site.xml的问题;把这个文件复制到conf的目录下,根据自己的配置更改下里面的部分内容就可以了

    Hive错误之 Execution Error, return code 2 from org.apache.hadoop.hive.ql.exec.mr.MapRedTask错误分析_xiaohu21的博客-CSDN博客.mht

    Hive错误之 Execution Error, return code 2 from org.apache.hadoop.hive.ql.exec.mr.MapRedTask错误分析_xiaohu21的博客-CSDN博客.mht

    ranger-2.1.0-hive-plugin.tar.gz

    总结,Ranger 2.1.0 Hive 插件是大数据环境中的重要安全组件,通过提供细粒度的权限管理、数据屏蔽和审计功能,它极大地增强了 Hive 的安全性,同时也为企业的数据治理提供了有力的支持。在实际使用中,应根据具体...

    ranger-2.0.0-hive-plugin.tar.gz

    在本案例中,"ranger-2.0.0-hive-plugin.tar.gz" 是Apache Ranger为Hive服务编译好的插件包,旨在简化Ranger在Hive上的部署过程,避免用户自行编译可能遇到的复杂性和时间消耗。 Ranger Hive 插件的主要功能包括: ...

    Hive+经纬度+数据导入ES

    'org.elasticsearch.hadoop.hive.EsStorageHandler' WITH SERDEPROPERTIES ( 'serialization.format'='1' ) LOCATION 'hdfs://nameservice1/user/hive/warehouse/es_mapping/app_enterprise_business_tags_es1222'...

    hive-site.xml 这是一份我本地配置的好用的

    hive-site.xml 这是一份我本地配置的好用的,hadoop2.7.3 搭建hive-site.xml可以参考一下,希望对您有帮助啊

    spark下安装hive配置文件hive-site.xml

    spark下安装hive标准配置文档。Ubuntu安装hive,并配置mysql作为元数据库时候需要的标准hive-site.xml配置文件,可以根据这个文件联系我的博文内容就行修改,避免入坑。实现快捷启动hive。

    hive2.0+开启审计日志.pdf

    appender.DRFB.filePattern = ${sys:hive.log.dir}/${sys:hive.log.fileAudit}.%d{yyyy-MM-dd}_%i.gz appender.DRFB.layout.type = PatternLayout appender.DRFB.layout.pattern = %d{ISO8601} %-5p [%t]: %c{2} ...

    HiveJDBC41.jar

    hive的驱动包,支持使用jdbc的方式连接hive组件,可在客户端使用sql进行数据库操作

    《Hive数据仓库案例教程》教学课件 第5章 Hive数据操作.pdf

    《Hive数据仓库案例教程》教学课件 第5章 Hive数据操作.pdf《Hive数据仓库案例教程》教学课件 第5章 Hive数据操作.pdf《Hive数据仓库案例教程》教学课件 第5章 Hive数据操作.pdf《Hive数据仓库案例教程》教学课件 第...

    apache-atlas-2.0.0-hive-hook.tar.gz

    总之,"apache-atlas-2.0.0-hive-hook.tar.gz"这个压缩包提供了Apache Atlas的一个关键组件,即与Hive的集成,这对于实现全面的数据治理策略,特别是在Hadoop生态系统中,具有极大的价值。通过利用这个工具,企业...

    atlas hive hook 编译依赖 apache-atlas-1.2.0-hive-hook.tar.gz

    Hive Hook 是 Atlas 提供的一个关键组件,用于实现在 Apache Hive 操作时的元数据跟踪和审计。当你在处理 Hive 数据时,Hive Hook 可以捕获对表、分区等对象的创建、更新和删除操作,将这些元数据事件上报给 Atlas,...

    hive on spark mr 数据开发常见问题解决

    对于Map阶段的内存溢出,尤其是由于MapJoin引起的,应设置`hive.auto.convert.join = false`,将MapJoin转换为Reduce端的Common Join。此外,可以调整以下参数以减少内存压力: - `hive.exec.reducers.bytes.per....

    seatunnel 支持hive jdbc

    driver = "org.apache.hive.jdbc.HiveDriver" user = "hive" password = "hive" table = ods_wjw_jb_gxy_hz_glk query = "select a,b,c from ods_wjw_jb_gxy_hz_glk" fetch_size = 300 } }

    hive 配置文件

    - **`hive.optimize.sort动态分区`**: 如果设置为`true`,Hive将在插入数据时对动态分区进行排序,提高查询性能。 **2. `hive-env.sh`配置文件** `hive-env.sh`文件主要负责设置与Hive运行环境相关的变量。以下是...

    hive-site.xml 模板文件

    hive-site.xml hive-site.xmlhive-site.

Global site tag (gtag.js) - Google Analytics