我使用的是hive。
所有的数据也是在hive中 load data inpath 导入的
导入的数据时保存到虚拟路径 hdfs:////user/hive/warehouse
以一个表一个文件夹的形式
两天来一直面对着一个困惑
从hive中load进去的数据只有600G但是页面显示的DFS Used却为4.2T
这个数据时很不正常的
因为简单地算一下 600G dfs.replication = 3 那么也在1.4T左右的空间。
通过查看 browse the file system 看到三个文件夹
/data 对应于 dfs.data.dir
/system
/user 对应于 hive.metastore.warehouse.dir
问题已经解决,空间容量已经下降到正常值了,可以正常使用运算了。
原因是:
运算过程产生的中间的数据并没有删除掉。因为有些操作产生的结果并没有放到warehouse中,那么这部分数据就放到了/data目录下,系统没能够自动删除这部分数据,所以导致空间上涨很快。
例如;
create table test( ip string );
insert overwrite table test select ip from blog;
这样结果是保存到hive中的;
但如果直接
select ip from blog;
那么结果是临时放在/data目录下的,但是最终却没有释放。
这个dfs.data.dir 默认目录本为/tmp由liunx系统定期自动删除,路径被覆盖为/data/hadoop-0.19.1/dfsdata后系统就找不到了,所以无法自动删除。
不可以直接删除这个目录,否则会导致全部数据块丢失。
必须进入hdfs删除
方法如下
hadoop fs -rmr hdfs:////data/
hive中的操作并不是 实时执行的,会有一定的延迟,所以有时执行操作,并不会立即看的到。
分享到:
相关推荐
VM虚拟机上,安装ubantu搭建hadoop+Hive集群,步骤详细。
本教程将详细介绍如何搭建Hadoop集群以及安装和使用Hive。 首先,我们来了解Hadoop集群的搭建步骤: 1. **环境准备**:确保所有节点的操作系统一致,通常选择Linux发行版,如Ubuntu或CentOS。安装Java开发套件...
Ganglia是一种基于TCP协议的监控工具,具有集群总体状况和负载汇总、采用多播地址降低带宽占用、hadoop原生支持ganglia数据采集等优点。但是,配置稍复杂,需安装客户端,单台数据不如Cacti详细。 二、Hive高可用...
在本文档中,我们将详细介绍如何搭建一个大数据集群环境,包括 Hadoop、HBase、Hive 和 Sqoop 的安装配置及使用。该文档将分为四部分:Hadoop 集群环境搭建、HBase 集群环境搭建、Hive 集群环境搭建和 Sqoop 集成...
在Hadoop集群配置过程中,安装和配置Hive是一个重要环节。这个过程中需要保证Hadoop集群本身已经搭建好并且运行正常。在安装Hive之前,一般需要先安装和配置好MySQL数据库,因为Hive会使用MySQL来存储其元数据。元...
- 在Hadoop集群运行的基础上安装HBase,确保Hadoop的相关环境变量被HBase使用。 - 配置HBase的`hbase-site.xml`以指定Zookeeper地址和集群模式。 - 启动HBase服务,包括Master和RegionServer。 3. **Spark**:...
【标题】:“基于Hadoop平台Hive数据库处理电影数据”的文档详细介绍了如何在Hadoop分布式环境中利用Hive进行大规模电影数据的分析。该系统的主要目标是建立一个分布式Hadoop集群,并在此基础上对电影数据进行深入...
适合新手,详细 01-Java环境安装 02- Eclipse下载与安装 03-VMware虚拟机的安装 04-在VMware中安装CentOS 05- Hadoop集群+ Hive+ MySQL搭建
Hadoop集群监控与Hive高可用方案 本文档主要介绍了Hadoop集群监控和Hive高可用方案两个方面的内容。下面是对这两个方面的详细说明: 一、Hadoop集群监控 Hadoop集群监控是指对Hadoop集群的运行状态进行实时监控,...
在IT行业中,Hadoop是一个广泛使用的开源框架,用于大数据处理和分布式存储。本文将深入探讨在标题为“hadoop集群安装、配置、维护文档”的压缩包中涉及的关键知识点,包括如何安装、配置Hadoop集群,以及相关的维护...
- **存在的不稳定因素**:当作业提交给Hadoop后,如果Hive宕机,HAProxy无法解决这一问题。这通常需要通过调度系统来处理。 #### phpHiveAdmin测试版0.06beta4MoltenCore - **界面改进**:界面设计更加美观,采用...
本篇文章将深入探讨如何解决两个常见的错误,并提供在Hadoop集群上配置和使用Hive的一般步骤。 首先,我们来看第一个错误:“Error: org.apache.hadoop.mapred.JobConf.unset(Ljava/lang/String;)V”。这个错误通常...
Hadoop是一个分布式文件系统,为大规模数据处理提供了基础架构,而Hive则是一个基于Hadoop的数据仓库工具,它允许用户使用SQL-like的语言(HQL)来查询和管理存储在Hadoop上的大数据集。本实验将指导你如何在已搭建...
【Hadoop集群安装手册】 Hadoop是一个开源的分布式计算框架,由Apache基金会开发,主要用于处理和存储海量数据。本手册将详细介绍如何在5台虚拟机上手动安装和配置Hadoop集群,供初学者和专业人士参考。 ### 安装...
【标题】:基于CentOS的大数据Hadoop集群搭建详解 【描述】:本教程专为初学者设计,详细阐述了如何手动搭建Hadoop集群,步骤详尽,易于理解。 【标签】:Hadoop集群搭建 【正文】: Hadoop是一个开源的分布式...
Hadoop之Hive安装 本篇文章将指导您如何在CentOS 6.4下安装Hive,并解决可能遇到的错误。 环境及软件介绍 本篇文章使用的环境是CentOS 6.4-x86_64-bin-DVD1.iso,软件版本为Hadoop 2.2.0和Hive 0.12.0,以及MySQL...
在大数据处理领域,Hadoop是不可或缺的关键技术,尤其在腾讯这样的互联网巨头中,其大规模Hadoop集群的应用更是具有深远的影响力。"腾讯大规模Hadoop集群实践"深入探讨了腾讯如何利用Hadoop解决海量数据处理的问题,...
在构建大数据处理平台时,Hadoop集群是基础,而Hive则是在此基础上提供了一种方便的数据仓库工具。本文将详细探讨如何在虚拟机环境中配置基于Hadoop集群的Hive 2.1.1,以及涉及的相关配置文件。 首先,我们要理解...