Hive 压缩比较 - - ITeye博客

`

tobyqiu

浏览: 40592 次
性别:
来自: 上海

最近访客更多访客>>

lvtt

caodaoxi

zcw3895653

nalnait

博主相关

博客

微博

相册

收藏

留言

关于我

文章分类

社区版块

存档分类

最新评论

xjl456852：你好,我在执行job时出错了,不知道什么原因,请问这是什么情况 ...
Sqoop 1.99.3 with hadoop-2.3.0 使用 2

Hive 压缩比较

博客分类：

hadoop sqoop hive

阅读更多

set hive.exec.compress.intermediate=false;
set mapred.output.compress=false;

create table a as select * from dimdate;
Table default.a stats: [numFiles=1, numRows=1188, totalSize=90068, rawDataSize=88880]
Job 0: Map: 1   Cumulative CPU: 1.88 sec   HDFS Read: 6083 HDFS Write: 90138 SUCCESS

通过 hdfs dfs -cat /filepath 查看a 是否被压缩

可以看出没压缩的时候 a表有 1个文件 1188行 9k的大小裸数据大小8k

再看压缩的

set hive.exec.compress.intermediate=true;
set mapred.map.output.compression.codec=org.apache.hadoop.io.compress.GzipCodec;

set hive.exec.compress.output=true;
set mapred.output.compression.codec=org.apache.hadoop.io.compress.GzipCodec;

create table a_gz as select * from dimdate;
Table default.a_gz stats: [numFiles=1, numRows=1188, totalSize=11316, rawDataSize=88880]
MapReduce Jobs Launched:
Job 0: Map: 1   Cumulative CPU: 1.31 sec   HDFS Read: 6083 HDFS Write: 11389 SUCCESS

压缩后大小变成了1k,而去 write的数据也从9k变成了1k

因为是压缩文件就不能用 dfs -cat 了

所以要用 zact +filepath

压不压还是区别蛮大的.但是对于自带压缩的文件格式,比如orc

hive.exec.compress.output 是true或者是false 都是一样的因为orc 默认是zilb压缩

分享到：

hbase 扫盲和 kv 设计 | Enhanced Aggregation, Cube, Grouping and ...

2014-05-21 11:10
浏览 1540
评论(0)
分类:数据库
查看更多

评论

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

深入浅出Hive企业级架构优化、Hive Sql优化、压缩和分布式缓存: ### 深入浅出Hive企业级架构优化 #### Hive概述 Apache Hive 是一个基于 Hadoop 的数据...总之，通过对 Hive 架构、SQL 语句、数据压缩以及分布式缓存等方面的综合优化，可以有效提升 Hive 在企业级应用中的表现。

黑马最新Hive存储压缩以及Hive3性能优化PPT: Hive存储压缩以及Hive3性能优化

Hive存储压缩与Hive3性能优化-必看文档: Hive存储压缩与Hive3性能优化——必看文档

Hive驱动1.1.0.zip: 在"压缩包子文件的文件名称列表"中提到的"Hive驱动1.1.0"可能是指包含这些JAR文件的压缩包。通常，这些JAR文件会包含以下组件： 1. **hive-exec.jar**：包含Hive执行引擎的核心类，用于执行HQL查询。 2. **hive-...

利用Hive进行复杂用户行为大数据分析及优化案例: 12_Hadoop及Hive配置支持snappy压缩 13_Hive中的常见调优 14_Hive中的数据倾斜及解决方案-三种join方式 15_Hive中的数据倾斜及解决方案-group by 16_Hive中使用正则加载数据 17_Hive中使用Python脚本进行预处理

hive所有jar文件: “hivelib”这个压缩包子文件的文件名称列表可能表示这个包包含了Hive的库文件。这些库可能包括Hive与HBase交互所需的连接器、Hadoop相关的库、以及其他可能的依赖，如Avro、Parquet、Thrift等，这些都是大数据处理...

hive 驱动包 hive 链接 datagrip的驱动包: ZIP是一种常见的文件格式，用于无损数据压缩和归档，可以包含多个文件和文件夹。在这个场景下，"hive-denpendencies.zip"很可能包含了Hive驱动和其他相关依赖的JAR文件。要将Hive与DataGrip连接，你需要做以下步骤...

Hive优化方法整理: 2. 调整 HDFS 的压缩格式，例如使用 Gzip 压缩； 3. 调整 HDFS 的 RPC 调用，例如设置 RPC 超时时间。 Hadoop Map/Reduce 调优 1. 调整 Map 任务的并发度，例如设置 mapreduce.job.maps= 200; 2. 调整 Reduce 任务...

《Hive数据仓库案例教程》教学大纲.pdf: 8. **Hive数据压缩**：讨论Hive如何进行数据压缩，提高存储效率和查询性能，理解各种压缩算法在Hive中的应用。 9. **Hive优化**：讲解如何优化Hive查询性能，包括表设计优化、查询语句优化和资源管理优化，以提高大...

hive数仓、hive SQL 、 hive自定义函数、hive参数深入浅出: - 其他参数：如hive.exec.compress.output控制是否压缩输出，hive.auto.convert.join决定自动转换内连接的条件。通过以上内容的学习，你将能熟练掌握Hive在大数据处理中的运用，理解其数仓设计原则，编写高效的...

黑马最新Hive存储压缩与优化课程总结: 黑马最新Hive存储压缩与优化课程总结

Hive教程.pdf: - **Hive压缩方法**: - **压缩的原因**: 减少存储空间和网络传输时间。 - **Hadoop常用压缩方法**: Gzip、BZip2、Snappy等。 - **配置Hadoop压缩解压**: 通过Hadoop配置文件设置。 - **Hive中的压缩**: 设置表...

hive-jdbc-1.1.0驱动相关jar包: "test-hive1.1.0"可能是一个包含这些jar的目录或者压缩文件。通常，除了`hive-jdbc-1.1.0.jar`之外，可能还需要Hive的其他依赖，例如`hadoop-client`、`hive-exec`、`hive-service`等。这些依赖确保了驱动能正确地与...

hive参数配置说明大全: Hive参数配置说明大全 ...该参数决定了Hive执行计划的压缩方式，默认值为null。 Hive的参数配置非常重要，它可以影响Hive的性能、安全性和执行效率。通过合理地配置参数，可以提高Hive的性能和安全性。

jdbc连接hive数据库的驱动jar包: 在压缩包子文件的文件名称列表中，只提到了“hive驱动包”，这可能表示压缩包内只有一个文件，即Hive JDBC驱动的jar文件，或者是多个文件夹或文件，每个代表一个特定版本的驱动。使用Hive JDBC驱动进行开发时，...

Hive用户指南 Hive user guide 中文版: - **压缩**：合理选择压缩算法可以显著减少存储空间和提高查询性能。 - **COUNT(DISTINCT)**：在使用该函数时可能会遇到性能瓶颈。 - **JOIN操作**：处理JOIN操作时需要考虑数据分布和大小。 - **DML操作**：Hive不...

Hive学习资料书籍压缩文件: hive学习资料-hive是基于Hadoop的一个数据仓库工具，可以将结构化的数据文件映射为一张数据库表，并提供完整的sql查询功能，可以将sql语句转换为MapReduce任务进行运行。其优点是学习成本低，可以通过类SQL语句快速...

Hive-2.3.3在window安装需要的cmd相关: 解压缩下载的文件后，你会看到一个名为“bin”的目录，这个目录包含了用于在命令行（CMD）中运行Hive的脚本和可执行文件。 1. **配置Java环境**：在安装Hive之前，确保你的系统已经安装了Java Development Kit ...

hive构造测试数据方法: - **ORC**（Optimized Row Columnar）：优化后的列式存储格式，具有更高的压缩比和更快的查询速度，是Hive推荐使用的格式之一。 - **PARQUET**：另一种高效的列式存储格式，支持高效的数据压缩和编码，是Hive中最常...

Hive使用手册Hive使用手册: - 使用压缩减少存储空间。 - 考虑使用索引和Materialized Views以加速查询。 - 根据数据访问模式调整Hive的配置参数。以上是Hive的基础知识和常见操作，理解并熟练运用这些内容，能帮助你更有效地在Hadoop集群...

Global site tag (gtag.js) - Google Analytics