`
Taoo
  • 浏览: 293845 次
  • 性别: Icon_minigender_1
  • 来自: 北京
社区版块
存档分类
最新评论

hive在YARN下执行mr任务问题

 
阅读更多
错误和解决方案都可以参加该链接:
http://grokbase.com/p/cloudera/cdh-user/126wqvfwyt/hive-refuses-to-work-with-yarn

现象就是,当hive启动mr任务是报错如下:

引用

Error during job, obtaining debugging information...
Examining task ID: task_1347634167505_0004_m_000000 (and more) from job job_1347634167505_0004
Exception in thread "Thread-19" java.lang.IllegalArgumentException: Does not contain a valid host:port authority: local
        at org.apache.hadoop.net.NetUtils.createSocketAddr(NetUtils.java:206)
        at org.apache.hadoop.net.NetUtils.createSocketAddr(NetUtils.java:158)
        at org.apache.hadoop.net.NetUtils.createSocketAddr(NetUtils.java:147)
        at org.apache.hadoop.hive.ql.exec.JobTrackerURLResolver.getURL(JobTrackerURLResolver.java:42)
        at org.apache.hadoop.hive.ql.exec.JobDebugger.showJobFailDebugInfo(JobDebugger.java:209)
        at org.apache.hadoop.hive.ql.exec.JobDebugger.run(JobDebugger.java:92)
        at java.lang.Thread.run(Thread.java:722)
Execution failed with exit status: 2



链接中的解释很清楚
引用

There are actually two failures here:

1) The MR job that Hive launched on your cluster failed for some reason. I
can't determine why based on the information provided. I recommend trying
to locate the task logs for the failed tasks on the cluster.

2) When a job fails Hive attempts to automatically retrieve the task logs
from the JobTracker's TaskLogServlet. This service doesn't exist in MR2,
which is why Hive is throwing an exception (either because
mapred.job.tracker is undefined, or because it can't find the
TaskLogServlet service running on the machine that mapred.job.tracker
points to). This is a known issue and one that we plan to address in the
next release of CDH.


解决方法也很详细,就是在hive-site.xml中添加设置,
引用

In the meantime I recommend doing the following if you need to run Hive on
MR2:
* Keep Hive happy by setting mapred.job.tracker to a bogus value.
* Disable task log retrieval by setting
hive.exec.show.job.failure.debug.info=false


然后就ok啦。
分享到:
评论
1 楼 cloudeagle_bupt 2013-03-04  
求教楼主: 在hadoop-2.0.2时,该方法可行,但当换成hadoop2.0.3-alpha时,报错如下:
Exception in thread "Thread-30" java.lang.IllegalArgumentException: Does not contain a valid host:port authority: ignorethis
        at org.apache.hadoop.net.NetUtils.createSocketAddr(NetUtils.java:208)
        at org.apache.hadoop.net.NetUtils.createSocketAddr(NetUtils.java:160)
        at org.apache.hadoop.net.NetUtils.createSocketAddr(NetUtils.java:149)
        at org.apache.hadoop.hive.ql.exec.JobTrackerURLResolver.getURL(JobTrackerURLResolver.java:42)
        at org.apache.hadoop.hive.ql.exec.JobDebugger.showJobFailDebugInfo(JobDebugger.java:209)
        at org.apache.hadoop.hive.ql.exec.JobDebugger.run(JobDebugger.java:92)
        at java.lang.Thread.run(Thread.java:722)

请问有啥办法没有啊?

相关推荐

    hive on spark mr 数据开发常见问题解决

    在Hive on Spark MR(MapReduce)数据开发中,开发者经常遇到各种问题,这些问题往往阻碍了工作效率。以下是一些常见的问题及其解决方案: 1. **Shuffle in Fetcher#6 错误** 当Hive作业处理大数据量时,可能会...

    hive on tez 常见报错问题收集

    这个问题是由于Hive中的一个已知bug,具体问题可以在Apache JIRA的HIVE-16398中找到。为了解决这个问题,可以尝试增加`hive.localize.resource.num.wait.attempts`的属性值,将其从默认的5提升到如25这样的更高数值...

    hive-3.1.1安装包

    Hive也不是分布式计算框架,Hive的核心工作就是把sql语句翻译成MR程序去执行,不用我们再手动去写MapReduce了。 Hive也不提供资源调度系统,默认由Hadoop集群中的YARN集群来调度。 Hive可以将结构化的数据映射为...

    Hive常见问题维护手册V1.01

    3. **分析 MapReduce 阶段**:查找 MapReduce Job ID,通过 YARN 或 MR UI 查看任务状态和日志,分析失败原因。 4. **查看警告**:"WARN" 信息可能预示着潜在的问题,虽然不一定会导致错误,但值得关注。 5. **...

    hive参数优化文档

    通过上述多方面的综合优化措施,可以有效提高Hive的执行效率,解决Hive查询速度慢的问题。这些优化策略不仅限于Hive本身,还包括了Hadoop生态系统的其他组件,共同提升了大数据处理的整体性能。

    Hive on Spark安装配置详解.pdf

    通过执行一些简单的SQL查询,比较Hive on Spark与Hive on MR的执行速度,验证安装配置是否成功。 在安装配置过程中,可能会遇到各种问题,如依赖冲突、配置错误等。解决这些问题通常需要查看日志、查找错误信息,并...

    Hive及Hadoop作业调优

    标题《Hive及Hadoop作业调优》与描述《阿里巴巴内部hive优化经验文档》指明了本文档的核心内容,它涉及到了在大数据处理领域内,如何针对Hive以及Hadoop作业进行优化的详细方法和经验分享。标签“hive”, “hadoop”...

    apache-hive-0.14.0-bin.tar.gz

    - **Hive-on-MR3**:支持使用YARN(Yet Another Resource Negotiator)作为资源调度器,提高了资源利用率和集群管理能力。 通过这些特性,Apache Hive 0.14.0在大数据处理领域提供了强大的数据处理和分析能力,尤其...

    mapreduce方式入库hbase hive hdfs

    mapreduce方式入库hbase hive hdfs,速度很快,里面详细讲述了代码的编写过程,值得下载

    hive操作.docx

    请注意,Hive的操作通常需要MapReduce支持,所以执行上述操作时需确保集群环境正常,且作业调度器(如YARN)配置正确。同时,为了处理可能出现的错误,可以设置`mapreduce.map.failures.maxpercent`以允许一定比例的...

    藏经阁-spark替代HIVE实现ETL作业.pdf

    2. Spark 引擎本身对比 Hadoop-MR,在相同配置下,有明显的性能优势。 3. 支持 YARN 模式方便资源的调度。 4. 支持 JSON、CSV 等源生数据格式。 5. 项目更新进度非常快,尤其是 Spark-SQL,社区火热。 使用 Spark ...

    藏经阁-LLAP_ Sub-Second Analytical Queries in Hive.pdf

    它可以在不需要特殊YARN队列设置的情况下执行并发查询,并提供了多线程执行矢量化操作符管道、异步IO和高效的内存缓存。 2. LLAP的架构概述 LLAP架构主要包括LLAP守护进程、查询执行器、协调器、HiveServer2(查询...

    hive常用优化方法大全共2页.pdf.zip

    14. **列裁剪和投影优化**:Hive在执行时会自动忽略未引用的列,但提前声明可避免不必要的数据处理。 15. **减少重写和重试**:避免频繁的DDL操作,确保数据加载一次性完成,减少失败后的重试。 以上就是Hive优化...

    Yarn的业界解决方案和未来方向.docx

    3. **ApplicationMaster (AM)**:每个应用程序都会有一个ApplicationMaster,它负责向ResourceManager申请资源,并协调任务在NodeManager上的执行。不同的应用框架(如MapReduce、Spark、Flink等)都有各自特定的...

    hive2-demo:对hive2接口的demo

    5. **Hive-on-MR2/YARN**:支持在YARN上运行,提高了资源管理和调度的灵活性。 接下来,我们关注如何使用Java JDBC与Hive2进行交互: 1. **JDBC驱动**:首先,你需要在项目中包含Hive JDBC驱动,通常为`hive-jdbc....

    kerberos+hadoop搭建

    最后,需要提交 MR 任务测试。 Hive 配置 在 YARN 配置完成后,需要配置 Hive。首先,需要在 Hadoop 节点上配置 Hive,并上传 Hive 包到 $HIVE_HOME/lib 文件夹中。其次,需要配置 hive-env.sh 文件和 hive-site....

    2022最新大数据面试宝典.pdf

    在写 MR 时,可以在以下情况下使用规约: * 需要对数据进行聚合和过滤 * 需要对数据进行排序和分区 * 需要对数据进行处理和转换 15.YARN 集群的架构和工作原理: YARN 集群的架构包括: * ResourceManager 节点...

    HiveServer2自定义身份验证

    ============Hive的beeline权限配置============ 1)HDFS修改core-site.xml配置 搜索 core-site.xml ...2)YARN (MR2 Included)修改core-site.xml配置 java.sql.SQLException: Could not open client transpor

    大数据 76 道面试题及答案.docx

    "大数据 76 道面试题及答案" 本资源提供了76个大数据相关的面试题和答案,涵盖...如果存在数据问题,Sqoop会抛出FAILED java.util.NoSuchElementException错误,需要在执行的时候给Sqoop增加参数,告知Sqoop如何处理。

    parquet-mr,阿帕奇拼花.zip

    4. **优化的统计信息**:Parquet为每一列都保存了统计信息,如最小值、最大值、基数(unique values count)等,这有助于查询优化器在执行查询前预估数据范围,从而减少扫描的数据量。 5. **面向列的复杂类型支持**...

Global site tag (gtag.js) - Google Analytics