hive计算时找不到文件
2014-03-03 11:13:34,585 INFO org.apache.hadoop.hive.ql.exec.MapOperator: DESERIALIZE_ERRORS:0
2014-03-03 11:13:34,585 INFO org.apache.hadoop.hive.ql.exec.TableScanOperator: 0 finished. closing...
2014-03-03 11:13:34,585 INFO org.apache.hadoop.hive.ql.exec.TableScanOperator: 0 forwarded 94880 rows
2014-03-03 11:13:34,585 INFO org.apache.hadoop.hive.ql.exec.SelectOperator: 1 finished. closing...
2014-03-03 11:13:34,585 INFO org.apache.hadoop.hive.ql.exec.SelectOperator: 1 forwarded 94880 rows
2014-03-03 11:13:34,585 INFO org.apache.hadoop.hive.ql.exec.FileSinkOperator: 2 finished. closing...
2014-03-03 11:13:34,585 INFO org.apache.hadoop.hive.ql.exec.FileSinkOperator: 2 forwarded 0 rows
2014-03-03 11:17:04,153 WARN org.apache.hadoop.mapred.Task: Parent died. Exiting attempt_201312261829_53653_m_000000_0
2014-03-03 11:17:06,655 WARN org.apache.hadoop.hdfs.DFSClient: DataStreamer Exception: org.apache.hadoop.ipc.RemoteException: org.apache.hadoop.hdfs.server.namenode.LeaseExpiredException: No lease on /tmp/hive-hadoop/hive_2014-03-03_11-12-04_451_5763054601146362237/_task_tmp.-ext-10002/curr_date=2014-03-02/dp_id2=104052569/_tmp.000000_0 File does not exist. [Lease. Holder: DFSClient_attempt_201312261829_53653_m_000000_0, pendingcreates: 625]
at org.apache.hadoop.hdfs.server.namenode.FSNamesystem.checkLease(FSNamesystem.java:1631)
at org.apache.hadoop.hdfs.server.namenode.FSNamesystem.checkLease(FSNamesystem.java:1622)
at org.apache.hadoop.hdfs.server.namenode.FSNamesystem.getAdditionalBlock(FSNamesystem.java:1538)
at org.apache.hadoop.hdfs.server.namenode.NameNode.addBlock(NameNode.java:696)
at sun.reflect.GeneratedMethodAccessor65.invoke(Unknown Source)
at sun.reflect.DelegatingMethodAccessorImpl.invoke(DelegatingMethodAccessorImpl.java:25)
at java.lang.reflect.Method.invoke(Method.java:597)
at org.apache.hadoop.ipc.RPC$Server.call(RPC.java:563)
at org.apache.hadoop.ipc.Server$Handler$1.run(Server.java:1388)
at org.apache.hadoop.ipc.Server$Handler$1.run(Server.java:1384)
at javax.security.auth.Subject.doAs(Subject.java:396)
at org.apache.hadoop.security.UserGroupInformation.doAs(UserGroupInformation.java:1121)
at org.apache.hadoop.ipc.Server$Handler.run(Server.java:1382)
at org.apache.hadoop.ipc.Client.call(Client.java:1070)
at org.apache.hadoop.ipc.RPC$Invoker.invoke(RPC.java:225)
at $Proxy2.addBlock(Unknown Source)
at sun.reflect.GeneratedMethodAccessor15.invoke(Unknown Source)
at sun.reflect.DelegatingMethodAccessorImpl.invoke(DelegatingMethodAccessorImpl.java:25)
at java.lang.reflect.Method.invoke(Method.java:597)
at org.apache.hadoop.io.retry.RetryInvocationHandler.invokeMethod(RetryInvocationHandler.java:82)
at org.apache.hadoop.io.retry.RetryInvocationHandler.invoke(RetryInvocationHandler.java:59)
at $Proxy2.addBlock(Unknown Source)
at org.apache.hadoop.hdfs.DFSClient$DFSOutputStream.locateFollowingBlock(DFSClient.java:3510)
at org.apache.hadoop.hdfs.DFSClient$DFSOutputStream.nextBlockOutputStream(DFSClient.java:3373)
at org.apache.hadoop.hdfs.DFSClient$DFSOutputStream.access$2600(DFSClient.java:2589)
at org.apache.hadoop.hdfs.DFSClient$DFSOutputStream$DataStreamer.run(DFSClient.java:2829)
2014-03-03 11:17:06,656 WARN org.apache.hadoop.hdfs.DFSClient: Error Recovery for block null bad datanode[0] nodes == null
2014-03-03 11:17:06,656 WARN org.apache.hadoop.hdfs.DFSClient: Could not get block locations. Source file "/tmp/hive-hadoop/hive_2014-03-03_11-12-04_451_5763054601146362237/_task_tmp.-ext-10002/curr_date=2014-03-02/dp_id2=104052569/_tmp.000000_0" - Aborting...
2014-03-03 11:17:06,666 ERROR ExecMapper: Hit error while closing operators - failing tree
原因:mapred.task.timeout设置时间过短,如上日志,在200秒左右任务状态没有任何变化,hadoop将该任务kill,并清理临时目录,后续遍找不到临时数据了。
修改参数
<property>
<name>mapred.task.timeout</name>
<value>200000</value>
<description>The number of milliseconds before a task will be
terminated if it neither reads an input, writes an output, nor
updates its status string.
</description>
mapred.task.timeout修改称10分钟600000即可。
分享到:
相关推荐
这个压缩包文件"hive执行文件.zip"可能包含用于运行或更新Hive环境的必要组件,尤其是"bin"目录,这是Hive命令行工具和可执行文件所在的地方。"readme.txt"通常会提供关于如何安装、配置或使用这些文件的说明。 当...
用户需要将解压后的文件覆盖到已有的Hive安装目录的bin子目录中,以确保Windows系统能正确执行Hive命令。 3. **文件解析**: - **beeline**:这是一个基于JDBC的Hive客户端,提供了更现代的交互式SQL查询体验,...
然而,Hive在处理大量小文件时可能会遇到性能问题,因为HDFS(Hadoop分布式文件系统)对小文件的管理效率较低。为了解决这个问题,我们需要执行小文件合并。这里我们将详细讨论如何通过Java程序实现Hive内部表的小...
这表明在寻找适用于Windows的Hive可执行文件时可能会遇到兼容性和可用性问题。不同版本的Hive和Hadoop可能对Windows支持程度不同,有时候即使找到可下载的版本,也可能因为特定环境的配置或依赖问题导致无法正常运行...
标题“hive所有jar文件”指的是这个压缩包包含了Hive运行时可能需要的所有依赖JAR文件,特别是一些为了连接和操作HBase而必要的组件。这些JAR文件通常包含各种库和API,使得Hive能够与HBase进行通信,执行如读取、...
在描述中提到的“bin”文件夹,这是Hive安装的核心部分,包含了执行Hive命令所需的可执行文件和脚本。特别是“cmd”文件,它们是Windows下的批处理文件,用于模拟Linux下的shell脚本,使得Hive可以在Windows环境中...
- 执行包含 Hive UDF 的 Spark SQL 查询时出现运行时错误。 - Spark 的 DataFrame API 无法正确转换 Hive UDF。 #### 二、原因分析 导致 Spark 无法使用 Hive 自定义函数的主要原因有以下几点: 1. **环境配置不...
3. **加载数据**:一旦表创建完成,你可以使用`LOAD DATA`命令将Protobuf序列化的文件加载到Hive表中,或者使用`INSERT INTO`语句将数据逐条插入。 4. **查询数据**:现在你可以像对待任何其他Hive表一样,使用SQL...
解压缩下载的文件后,你会看到一个名为“bin”的目录,这个目录包含了用于在命令行(CMD)中运行Hive的脚本和可执行文件。 1. **配置Java环境**: 在安装Hive之前,确保你的系统已经安装了Java Development Kit ...
这两个jar包分别是Hive执行引擎和ORC文件格式处理的实现,更新它们可能是为了修复特定版本中的已知问题或提供更好的兼容性。 CDH(Cloudera Distribution Including Apache Hadoop)是Cloudera公司提供的Hadoop发行...
Hive 是一个基于 Hadoop 的数据仓库工具,它允许用户使用 SQL 类似的查询语言(称为 HiveQL)来处理和分析存储在 Hadoop 分布式文件系统(HDFS)中的大数据集。Hive 提供了一个数据层,使得非编程背景的用户也能方便...
### HIVE从入门到精通知识点概述 #### 一、Hive简介 - **背景与需求**:随着商业智能领域数据量的急剧增加,传统的数据仓库解决方案成本高昂,难以满足需求。Hadoop作为一种流行且开源的MapReduce实现,在Yahoo、...
3. **导入驱动**:在创建新的Hive数据源时,系统可能找不到默认的Hive驱动。这时,你需要提供刚刚解压的“hive-denpendencies”中的JAR文件。找到包含“org.apache.hive.jdbc.HiveDriver”的JAR文件,通常是“hive-...
这种文件通常被用作Hive的数据源,因为它们可以直接导入到HDFS(Hadoop Distributed File System)上。92168条记录意味着这个数据集相当大,适合进行大规模数据分析。在Hive中,你可以创建外部表指向这个CSV文件,...
在生产环境中,当你需要执行Hive查询时,比如通过Beeline客户端,也需确保集群中的所有节点都能访问到正确的Hive库。这样,当任务被分配到不同节点时,每个节点都能正确执行查询。 此外,Hive jar包的使用还涉及到...
1. **复制 Hadoop 配置文件**:从 Hadoop 集群的 Hive 安装目录中,复制 `core-site.xml`、`hdfs-site.xml`、`hive-site.xml` 和 `yarn-site.xml` 四个 XML 文件,并将其替换到 `D:\pdi-ce-6.1.0.1-196\data-...
2. **查询日志**:Hive执行的每个查询都会生成一个作业,作业中包含了查询转换后的执行计划。通过对这些执行计划的分析,我们可以获取数据处理的逻辑血缘。 3. **依赖分析**:血缘关系分析需要识别出哪些表或字段在...
2. **hive-exec-2.1.1-cdh6.3.2.jar**:这个文件包含了Hive执行引擎的核心库,用于处理查询解析、优化、计划生成以及实际的数据处理任务。它是Hive服务端的一部分,通常在Hive服务器上运行,而非客户端。 3. **hive...
- `libexec`:包含Hive执行时用到的一些脚本。 为了在集群上部署和使用这个版本的Hive,你需要: 1. 解压`apache-hive-3.1.2-bin.tar.gz`到服务器。 2. 配置`hive-site.xml`,指定元数据存储位置、Hive执行引擎...
在执行Hive查询时,使用基于成本的优化器(CBO)可以对查询执行计划进行优化。利用列统计信息,CBO可以更好地估计查询成本,选择最优的执行路径。列统计信息提供了数据分布的概览,如某列的唯一值数目、最小值、最大...