hive hive.optimize.ppd=false导致map数量很大 - 空中的鱼 - ITeye博客

`

lookqlp

浏览: 347708 次
性别:
来自: 上海

最近访客更多访客>>

jlbhdfsl

louShang123

ssydxa219

yc_zlj

博主相关

博客

微博

相册

收藏

留言

关于我

文章分类

社区版块

存档分类

最新评论

tpxcer：不开启时可以的，而且开启以后各种坑。。。。
hue beeswax权限管理
yangze：博主请教一个问题，hue 控制hive表的权限怎么弄？怎么联 ...
cloudera新增用户权限配置
linux91：楼主你好，我用CM配置LDAP用户组映射，进入impala时， ...
sentry配置
linux91：版主：按你的步骤配置了，可是，执行 impala-shell ...
impala集成LDAP
lookqlp： super_a 写道你好！找不到表这个问题是如何解决的，可以描 ...
hcatalog读取hive数据并写入hive

hive hive.optimize.ppd=false导致map数量很大

博客分类：

hive

阅读更多

hive官方https://cwiki.apache.org/confluence/display/Hive/LanguageManual+LateralView
说
Prior to Hive 0.6.0, lateral view did not support the predicate push-down optimization. In Hive 0.5.0 and earlier, if you used a WHERE clause your query may not have compiled. A workaround was to add set hive.optimize.ppd=false; before your query. The fix was made in Hive 0.6.0; see https://issues.apache.org/jira/browse/HIVE-1056: Predicate push down does not work with UDTF's.
在0.5.0版本前使用hive.optimize.ppd=false是能解决where条件不识别的。但我在使用0.9.0版本时使用了该参数，导致where不识别。
不使用参数日志：

Starting Job = job_201312261829_7430, Tracking URL = http://master:50030/jobdetails.jsp?jobid=job_201312261829_7430
Kill Command = /home/hadoop/hadoop-1.0.3/libexec/../bin/hadoop job  -Dmapred.job.tracker=master:8021 -kill job_201312261829_7430
Hadoop job information for Stage-1: number of mappers: 90; number of reducers: 287

使用该参数日志：

Starting Job = job_201312261829_7433, Tracking URL = http://master:50030/jobdetails.jsp?jobid=job_201312261829_7433
Kill Command = /home/hadoop/hadoop-1.0.3/libexec/../bin/hadoop job  -Dmapred.job.tracker=master:8021 -kill job_201312261829_7433
Hadoop job information for Stage-1: number of mappers: 4363; number of reducers: 999

所以在新版本的hive中使用hive.optimize.ppd=true；默认值即可

分享到：

impala使用 | eclipse debug cannot connect to VM

2014-01-03 11:05
浏览 1884
评论(0)
分类:开源软件
查看更多

评论

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

Hive脚本任务参数优化配置.doc: - `set hive.optimize.ppd=true;` 开启谓词下推功能。谓词下推是一种优化技术，它将查询条件尽可能地推送到数据源层进行过滤，从而减少不必要的数据传输和处理开销。 2. **动态分区参数**： - `set hive.exec....

cdh6.3.2升级hive至3.x后登陆HiveServer2连接失败.doc: - 在 Hive 3.x 版本中，默认情况下不允许运行时修改 `hive.query.redaction.rules` 这样的配置项，因为这类参数通常涉及到安全性和系统稳定性，更改可能会导致不可预知的行为。 3. **版本兼容性问题**： - 当从旧...

hive优化.docx: * 设置倾斜的阈值：set hive.optimize.skewjoin = true;set hive.skewjoin.key = skew_key_threshold; * 对异常值赋一个随机值来分散Key：select userid, name from user_info a join (select case when userid is ...

hive-site.xml: 解决安装hive后，没有hive-site.xml的问题；把这个文件复制到conf的目录下，根据自己的配置更改下里面的部分内容就可以了

hive参数配置说明大全: 10. hive.merge.mapfiles 该参数决定了是否开启合并Map端小文件，对于Hadoop 0.20以前的版本，起一首新的Map/Reduce Job，对于0.20以后的版本，则是起使用CombineInputFormat的MapOnly Job。如果设置为true，则Hive...

Hive错误之 Execution Error, return code 2 from org.apache.hadoop.hive.ql.exec.mr.MapRedTask错误分析_xiaohu21的博客-CSDN博客.mht: Hive错误之 Execution Error, return code 2 from org.apache.hadoop.hive.ql.exec.mr.MapRedTask错误分析_xiaohu21的博客-CSDN博客.mht

ranger-2.0.0-hive-plugin.tar.gz: 在本案例中，"ranger-2.0.0-hive-plugin.tar.gz" 是Apache Ranger为Hive服务编译好的插件包，旨在简化Ranger在Hive上的部署过程，避免用户自行编译可能遇到的复杂性和时间消耗。 Ranger Hive 插件的主要功能包括： ...

ranger-2.1.0-hive-plugin.tar.gz: 总结，Ranger 2.1.0 Hive 插件是大数据环境中的重要安全组件，通过提供细粒度的权限管理、数据屏蔽和审计功能，它极大地增强了 Hive 的安全性，同时也为企业的数据治理提供了有力的支持。在实际使用中，应根据具体...

Hive+经纬度+数据导入ES: 'org.elasticsearch.hadoop.hive.EsStorageHandler' WITH SERDEPROPERTIES ( 'serialization.format'='1' ) LOCATION 'hdfs://nameservice1/user/hive/warehouse/es_mapping/app_enterprise_business_tags_es1222'...

hive-site.xml 这是一份我本地配置的好用的: hive-site.xml 这是一份我本地配置的好用的，hadoop2.7.3 搭建hive-site.xml可以参考一下，希望对您有帮助啊

spark下安装hive配置文件hive-site.xml: spark下安装hive标准配置文档。Ubuntu安装hive，并配置mysql作为元数据库时候需要的标准hive-site.xml配置文件，可以根据这个文件联系我的博文内容就行修改，避免入坑。实现快捷启动hive。

hive2.0+开启审计日志.pdf: appender.DRFB.filePattern = ${sys:hive.log.dir}/${sys:hive.log.fileAudit}.%d{yyyy-MM-dd}_%i.gz appender.DRFB.layout.type = PatternLayout appender.DRFB.layout.pattern = %d{ISO8601} %-5p [%t]: %c{2} ...

HiveJDBC41.jar: hive的驱动包，支持使用jdbc的方式连接hive组件，可在客户端使用sql进行数据库操作

《Hive数据仓库案例教程》教学课件第5章 Hive数据操作.pdf: 《Hive数据仓库案例教程》教学课件第5章 Hive数据操作.pdf《Hive数据仓库案例教程》教学课件第5章 Hive数据操作.pdf《Hive数据仓库案例教程》教学课件第5章 Hive数据操作.pdf《Hive数据仓库案例教程》教学课件第...

apache-atlas-2.0.0-hive-hook.tar.gz: 总之，"apache-atlas-2.0.0-hive-hook.tar.gz"这个压缩包提供了Apache Atlas的一个关键组件，即与Hive的集成，这对于实现全面的数据治理策略，特别是在Hadoop生态系统中，具有极大的价值。通过利用这个工具，企业...

atlas hive hook 编译依赖 apache-atlas-1.2.0-hive-hook.tar.gz: Hive Hook 是 Atlas 提供的一个关键组件，用于实现在 Apache Hive 操作时的元数据跟踪和审计。当你在处理 Hive 数据时，Hive Hook 可以捕获对表、分区等对象的创建、更新和删除操作，将这些元数据事件上报给 Atlas，...

hive on spark mr 数据开发常见问题解决: 对于Map阶段的内存溢出，尤其是由于MapJoin引起的，应设置`hive.auto.convert.join = false`，将MapJoin转换为Reduce端的Common Join。此外，可以调整以下参数以减少内存压力： - `hive.exec.reducers.bytes.per....

seatunnel 支持hive jdbc: driver = "org.apache.hive.jdbc.HiveDriver" user = "hive" password = "hive" table = ods_wjw_jb_gxy_hz_glk query = "select a,b,c from ods_wjw_jb_gxy_hz_glk" fetch_size = 300 } }

hive 配置文件: - **`hive.optimize.sort动态分区`**: 如果设置为`true`，Hive将在插入数据时对动态分区进行排序，提高查询性能。 **2. `hive-env.sh`配置文件** `hive-env.sh`文件主要负责设置与Hive运行环境相关的变量。以下是...

Global site tag (gtag.js) - Google Analytics