`
chakey
  • 浏览: 363844 次
  • 性别: Icon_minigender_1
  • 来自: 水星
社区版块
存档分类
最新评论

Hive使用一段时间后Hadoop集群占用空间暴增的原因

    博客分类:
  • Hive
阅读更多

我使用的是hive。

所有的数据也是在hive中 load data inpath 导入的

导入的数据时保存到虚拟路径 hdfs:////user/hive/warehouse

以一个表一个文件夹的形式

两天来一直面对着一个困惑

从hive中load进去的数据只有600G但是页面显示的DFS Used却为4.2T

这个数据时很不正常的

因为简单地算一下 600G dfs.replication = 3 那么也在1.4T左右的空间。

通过查看 browse the file system 看到三个文件夹

/data   对应于 dfs.data.dir

/system

/user 对应于 hive.metastore.warehouse.dir


问题已经解决,空间容量已经下降到正常值了,可以正常使用运算了。

原因是:

运算过程产生的中间的数据并没有删除掉。因为有些操作产生的结果并没有放到warehouse中,那么这部分数据就放到了/data目录下,系统没能够自动删除这部分数据,所以导致空间上涨很快。

例如;

create table test( ip string );

insert overwrite table test select ip from blog;

这样结果是保存到hive中的;

但如果直接

select ip from blog;

那么结果是临时放在/data目录下的,但是最终却没有释放。

这个dfs.data.dir 默认目录本为/tmp由liunx系统定期自动删除,路径被覆盖为/data/hadoop-0.19.1/dfsdata后系统就找不到了,所以无法自动删除。


不可以直接删除这个目录,否则会导致全部数据块丢失。

必须进入hdfs删除

方法如下

hadoop fs -rmr hdfs:////data/


hive中的操作并不是 实时执行的,会有一定的延迟,所以有时执行操作,并不会立即看的到。

0
3
分享到:
评论

相关推荐

    Hadoop+Hive集群搭建步骤

    VM虚拟机上,安装ubantu搭建hadoop+Hive集群,步骤详细。

    Hadoop集群搭建及Hive的安装与使用

    本教程将详细介绍如何搭建Hadoop集群以及安装和使用Hive。 首先,我们来了解Hadoop集群的搭建步骤: 1. **环境准备**:确保所有节点的操作系统一致,通常选择Linux发行版,如Ubuntu或CentOS。安装Java开发套件...

    Hadoop集群监控与Hive高可用.pdf

    Ganglia是一种基于TCP协议的监控工具,具有集群总体状况和负载汇总、采用多播地址降低带宽占用、hadoop原生支持ganglia数据采集等优点。但是,配置稍复杂,需安装客户端,单台数据不如Cacti详细。 二、Hive高可用...

    Hadoop hbase hive sqoop集群环境安装配置及使用文档

    在本文档中,我们将详细介绍如何搭建一个大数据集群环境,包括 Hadoop、HBase、Hive 和 Sqoop 的安装配置及使用。该文档将分为四部分:Hadoop 集群环境搭建、HBase 集群环境搭建、Hive 集群环境搭建和 Sqoop 集成...

    hadoop集群配置之———hive安装与配置(超详细)

    在Hadoop集群配置过程中,安装和配置Hive是一个重要环节。这个过程中需要保证Hadoop集群本身已经搭建好并且运行正常。在安装Hive之前,一般需要先安装和配置好MySQL数据库,因为Hive会使用MySQL来存储其元数据。元...

    大数据Hadoop+HBase+Spark+Hive集群搭建教程(七月在线)1

    - 在Hadoop集群运行的基础上安装HBase,确保Hadoop的相关环境变量被HBase使用。 - 配置HBase的`hbase-site.xml`以指定Zookeeper地址和集群模式。 - 启动HBase服务,包括Master和RegionServer。 3. **Spark**:...

    基于hadoop平台hive数据库处理电影数据(8965字数32页).doc

    【标题】:“基于Hadoop平台Hive数据库处理电影数据”的文档详细介绍了如何在Hadoop分布式环境中利用Hive进行大规模电影数据的分析。该系统的主要目标是建立一个分布式Hadoop集群,并在此基础上对电影数据进行深入...

    从VMware中安装CentOS到Hadoop集群+ Hive+ MySQL搭建

    适合新手,详细 01-Java环境安装 02- Eclipse下载与安装 03-VMware虚拟机的安装 04-在VMware中安装CentOS 05- Hadoop集群+ Hive+ MySQL搭建

    大数据技术分享 Hadoop集群监控与Hive高可用方案 共17页.pdf

    Hadoop集群监控与Hive高可用方案 本文档主要介绍了Hadoop集群监控和Hive高可用方案两个方面的内容。下面是对这两个方面的详细说明: 一、Hadoop集群监控 Hadoop集群监控是指对Hadoop集群的运行状态进行实时监控,...

    hadoop集群安装、配置、维护文档

    在IT行业中,Hadoop是一个广泛使用的开源框架,用于大数据处理和分布式存储。本文将深入探讨在标题为“hadoop集群安装、配置、维护文档”的压缩包中涉及的关键知识点,包括如何安装、配置Hadoop集群,以及相关的维护...

    Hadoop集群监控与Hive高可用-向磊.pdf

    - **存在的不稳定因素**:当作业提交给Hadoop后,如果Hive宕机,HAProxy无法解决这一问题。这通常需要通过调度系统来处理。 #### phpHiveAdmin测试版0.06beta4MoltenCore - **界面改进**:界面设计更加美观,采用...

    Hadoop集群上安装hive并运行一个例子的排错分析

    本篇文章将深入探讨如何解决两个常见的错误,并提供在Hadoop集群上配置和使用Hive的一般步骤。 首先,我们来看第一个错误:“Error: org.apache.hadoop.mapred.JobConf.unset(Ljava/lang/String;)V”。这个错误通常...

    Hadoop集群搭建Hive的安装配置

    Hadoop是一个分布式文件系统,为大规模数据处理提供了基础架构,而Hive则是一个基于Hadoop的数据仓库工具,它允许用户使用SQL-like的语言(HQL)来查询和管理存储在Hadoop上的大数据集。本实验将指导你如何在已搭建...

    hadoop集群安装手册

    【Hadoop集群安装手册】 Hadoop是一个开源的分布式计算框架,由Apache基金会开发,主要用于处理和存储海量数据。本手册将详细介绍如何在5台虚拟机上手动安装和配置Hadoop集群,供初学者和专业人士参考。 ### 安装...

    基于centos的大数据hadoop集群搭建说明文档

    【标题】:基于CentOS的大数据Hadoop集群搭建详解 【描述】:本教程专为初学者设计,详细阐述了如何手动搭建Hadoop集群,步骤详尽,易于理解。 【标签】:Hadoop集群搭建 【正文】: Hadoop是一个开源的分布式...

    Hadoop之hive安装

    Hadoop之Hive安装 本篇文章将指导您如何在CentOS 6.4下安装Hive,并解决可能遇到的错误。 环境及软件介绍 本篇文章使用的环境是CentOS 6.4-x86_64-bin-DVD1.iso,软件版本为Hadoop 2.2.0和Hive 0.12.0,以及MySQL...

    腾讯大规模hadoop集群实践

    在大数据处理领域,Hadoop是不可或缺的关键技术,尤其在腾讯这样的互联网巨头中,其大规模Hadoop集群的应用更是具有深远的影响力。"腾讯大规模Hadoop集群实践"深入探讨了腾讯如何利用Hadoop解决海量数据处理的问题,...

    基于虚拟机hadoop集群hive2.1.1配置文件

    在构建大数据处理平台时,Hadoop集群是基础,而Hive则是在此基础上提供了一种方便的数据仓库工具。本文将详细探讨如何在虚拟机环境中配置基于Hadoop集群的Hive 2.1.1,以及涉及的相关配置文件。 首先,我们要理解...

Global site tag (gtag.js) - Google Analytics