hive 查看一个表的总文件大小方法 - duncan--学无止境 - ITeye博客

`

daizj

浏览: 796354 次
性别:
来自: 广州

最近访客更多访客>>

guwq2014

snowolf

junes_yu

yuanyuan7891

博主相关

博客

微博

相册

收藏

留言

关于我

文章分类

社区版块

存档分类

最新评论

hive 查看一个表的总文件大小方法

博客分类：

hive

hive 计算表的总大小

阅读更多

要查看一个hive表文件总大小时，我们可以通过一行脚本快速实现，其命令如下：

$ hadoop fs -ls /user/hive/warehouse/test_table/ds=20151111|awk -F ' ' '{print $5}'|awk '{a+=$1}END{print a}'

32347122009

这样可以省去自己相加，下面命令是列出该表的详细文件列表

hadoop fs -ls /user/hive/warehouse/test_table/ds=20151111

方法二：查看该表总容量大小，单位为Ｇ

hadoop fs -du /user/hive/warehouse/test_table | awk ' { SUM += $1 } END { print SUM/(1024*1024*1024) }'

0
顶

1
踩

分享到：

impala数据插入的方法详解 | mysql碎片整理方法

2015-11-12 18:02
浏览 14503
评论(0)
分类:编程语言
查看更多

评论

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

Hive内部表合并小文件Java程序: 2. **确定合并文件大小**：设置一个合适的合并文件大小阈值，比如128MB或256MB，这取决于系统的具体需求和资源。 3. **创建SequenceFile**：Hadoop的SequenceFile是一种高效的数据存储格式，适合用于合并小文件。...

hive配置文件信息修改: Hive是一个基于Hadoop的数据仓库工具，它允许用户使用SQL（HQL）语言查询和管理大规模数据集。在Hive中，配置文件主要指`hive-site.xml`，这个文件包含了Hive的各种运行参数。例如，你可以修改`metastore.uris`来...

文件系统\注册表HIVE 解析库文件: - HIVE是注册表的基本组成单位，每个HIVE对应一个特定的注册表分支，如"HKEY_LOCAL_MACHINE"或"HKEY_CURRENT_USER"。 - HIVE文件是二进制格式，包含键、值对，用于存储和加载注册表信息。 - 解析库文件（如FS.DLL...

hive数据表-小文件合并代码（java）: 在这里，你可以根据文件大小或数量进行合并，将多个小文件打包成一个大split。 2. **实现RecordReader**：同时，你需要实现`org.apache.hadoop.mapreduce.RecordReader`接口，该接口负责读取split中的数据并返回...

hive安装所需配置文件: 在大数据处理领域，Hive是一个基于Hadoop的数据仓库工具，它可以将结构化的数据文件映射为一张数据库表，并提供SQL查询功能，使得用户可以方便地进行大数据分析。本压缩包文件"hive"可能包含了Hive安装过程中所需的...

Hive整合HBase资源文件.zip: 标题 "Hive整合HBase资源文件.zip" 指向的是一个关于如何将Apache Hive与Apache HBase集成的教程或工具包。Hive是大数据处理领域的一个重要组件，主要用于结构化数据的查询和分析，而HBase则是一个分布式、列式存储...

hive: Hive 是一个基于 Hadoop 的数据仓库工具，它允许用户使用 SQL 类似的查询语言（称为 HiveQL）来处理和分析存储在 Hadoop 分布式文件系统（HDFS）中的大数据集。Hive 提供了一个数据层，使得非编程背景的用户也能方便...

基于虚拟机hadoop集群hive2.1.1配置文件: Hadoop通常采用主从结构，由一个NameNode（Master）作为中心节点，负责管理文件系统的元数据，而DataNode（Slaves）则存储实际的数据。在你提供的配置中，集群包括一个Master节点和三个Slave节点，这种设置可以确保...

Hive开发规范及要点: 它提供了一个SQL-like的查询语言，称为HQL（Hive Query Language），使得用户可以使用类似SQL的语句来查询和管理数据。在Hive开发中，遵循一定的规范和要点非常重要，以下是Hive开发规范及要点：一、基本操作 1. ...

hive优化经典.pdf: 在Hive中，一个作业是通过分析input目录下的数据文件来创建一个或多个Map任务的，而影响Map数量的主要因素包括input文件的总个数、文件大小以及集群设置的文件块大小。首先，当input目录下存在一个或多个文件时，...

Hive metastore 使用达梦数据库存储元数据: 接着，创建一个名为`hive`的用户，设定其默认表空间为`hive_meta`，并赋予适当的权限，如预定义的角色`RESOURCE`，允许用户操作已有数据库对象。配置Hive-site.xml是连接Hive metastore到达梦数据库的关键步骤。你...

hive参数优化总结: Hive 是一个基于 Hadoop 的数据仓库工具，用于对大规模数据进行查询、分析和处理。为了提高 Hive 的性能和效率，参数优化是非常重要的一步。本文档将总结 Hive 参数优化的相关知识点，并对 Hive 的理解产生一定的...

hive参数配置说明大全: 如果设置为1，则每个Job将只有一个Reducer，默认值为1。 7. hive.exec.scratchdir 该参数决定了HDFS路径，用于存储不同map/reduce阶段的执行计划和这些阶段的中间输出结果，默认值为/tmp/<user.name>/hive。 8. ...

hive2.0+开启审计日志.pdf: 在配置文件中添加一个名为`hive.log.fileAudit`的属性，设置为`audit.log`，这将指定审计日志的文件名。 ```properties property.hive.log.fileAudit = audit.log ``` 2. **列出所有Appenders**：需要在文件...

hive和hbase整合: 而HBase则是一个NoSQL数据库，它基于Google的Bigtable设计，提供高并发、低延迟的实时数据访问，适合于大数据的在线存储。将Hive与HBase整合，可以实现离线分析与实时查询的结合，提升数据分析效率。 **1. 配置整合...

hive监控巡检优化文档: - 在YARN中提交的每一个Hive任务都会有一个唯一的应用ID，这个ID可以帮助我们追踪和管理任务的生命周期。 - 可以通过`yarn application -list`命令来查看所有正在运行的任务列表，并从中找到Hive任务的应用ID，...

HIVE-分桶表的详解和创建实例.docx: 然而，由于加载数据的方式并不支持自动分桶，因此即使设置了强制分桶，表中的数据也只会作为一个文件存储。 #### 四、正确创建并使用分桶表为了真正地实现数据分桶，我们需要按照正确的步骤来操作： 1. **创建分...

hive调优策略: - **概念**：在Hive中执行Join操作时，如果其中一个表的数据量远小于另一个表，则可以使用“小表”进行广播（Broadcast Join），以减少数据传输成本。 - **优点**：显著降低Shuffle阶段的数据传输量，加快查询速度。...

Hive及Hadoop作业调优: 首先，Hive是建立在Hadoop上的一个数据仓库工具，可以将结构化的数据文件映射为一张数据库表，并提供SQL查询功能。Hive提供了一种HQL（Hive SQL）查询语言，用于执行数据查询和分析。Hive尤其适合进行大数据集上的...

Hive用户指南 Hive user guide 中文版: - 使用`SHOW TABLES`、`DESCRIBE table_name`等命令来查看表的信息。 **2.5 导入数据** - `LOAD DATA INPATH 'path' [OVERWRITE] INTO TABLE table_name [PARTITION (partition_spec)]`用于将HDFS中的数据加载到...

Global site tag (gtag.js) - Google Analytics