`
tobyqiu
  • 浏览: 40211 次
  • 性别: Icon_minigender_1
  • 来自: 上海
社区版块
存档分类
最新评论

Hive 压缩比较

 
阅读更多

 

set hive.exec.compress.intermediate=false;
set mapred.output.compress=false;

create table a as select * from dimdate;
Table default.a stats: [numFiles=1, numRows=1188, totalSize=90068, rawDataSize=88880]
Job 0: Map: 1   Cumulative CPU: 1.88 sec   HDFS Read: 6083 HDFS Write: 90138 SUCCESS

 通过 hdfs dfs -cat /filepath  查看a 是否被压缩

 

可以看出没压缩的时候 a表有 1个文件 1188行 9k的大小 裸数据大小8k

再看压缩的

set hive.exec.compress.intermediate=true;
set mapred.map.output.compression.codec=org.apache.hadoop.io.compress.GzipCodec;

set hive.exec.compress.output=true;
set mapred.output.compression.codec=org.apache.hadoop.io.compress.GzipCodec;

create table a_gz as select * from dimdate;
Table default.a_gz stats: [numFiles=1, numRows=1188, totalSize=11316, rawDataSize=88880]
MapReduce Jobs Launched:
Job 0: Map: 1   Cumulative CPU: 1.31 sec   HDFS Read: 6083 HDFS Write: 11389 SUCCESS

 压缩后 大小变成了1k,而去 write的数据也从9k变成了1k

因为是压缩文件 就不能用 dfs -cat 了

所以要用 zact +filepath

 

压不压还是区别蛮大的.但是对于自带压缩的文件格式,比如orc

hive.exec.compress.output 是true或者是false 都是一样的 因为orc 默认是zilb压缩

 

 

 

 

 

 

 

 

 

 

 

 

分享到:
评论

相关推荐

    深入浅出Hive企业级架构优化、Hive Sql优化、压缩和分布式缓存

    ### 深入浅出Hive企业级架构优化 #### Hive概述 Apache Hive 是一个基于 Hadoop 的数据...总之,通过对 Hive 架构、SQL 语句、数据压缩以及分布式缓存等方面的综合优化,可以有效提升 Hive 在企业级应用中的表现。

    Hive驱动1.1.0.zip

    在"压缩包子文件的文件名称列表"中提到的"Hive驱动1.1.0"可能是指包含这些JAR文件的压缩包。通常,这些JAR文件会包含以下组件: 1. **hive-exec.jar**:包含Hive执行引擎的核心类,用于执行HQL查询。 2. **hive-...

    利用Hive进行复杂用户行为大数据分析及优化案例

    12_Hadoop及Hive配置支持snappy压缩 13_Hive中的常见调优 14_Hive中的数据倾斜及解决方案-三种join方式 15_Hive中的数据倾斜及解决方案-group by 16_Hive中使用正则加载数据 17_Hive中使用Python脚本进行预处理

    hive所有jar文件

    “hivelib”这个压缩包子文件的文件名称列表可能表示这个包包含了Hive的库文件。这些库可能包括Hive与HBase交互所需的连接器、Hadoop相关的库、以及其他可能的依赖,如Avro、Parquet、Thrift等,这些都是大数据处理...

    hive 驱动包 hive 链接 datagrip的驱动包

    ZIP是一种常见的文件格式,用于无损数据压缩和归档,可以包含多个文件和文件夹。在这个场景下,"hive-denpendencies.zip"很可能包含了Hive驱动和其他相关依赖的JAR文件。 要将Hive与DataGrip连接,你需要做以下步骤...

    Hive优化方法整理

    2. 调整 HDFS 的压缩格式,例如使用 Gzip 压缩; 3. 调整 HDFS 的 RPC 调用,例如设置 RPC 超时时间。 Hadoop Map/Reduce 调优 1. 调整 Map 任务的并发度,例如设置 mapreduce.job.maps= 200; 2. 调整 Reduce 任务...

    hive参数配置说明大全

    Hive参数配置说明大全 ...该参数决定了Hive执行计划的压缩方式,默认值为null。 Hive的参数配置非常重要,它可以影响Hive的性能、安全性和执行效率。通过合理地配置参数,可以提高Hive的性能和安全性。

    《Hive数据仓库案例教程》教学大纲.pdf

    8. **Hive数据压缩**:讨论Hive如何进行数据压缩,提高存储效率和查询性能,理解各种压缩算法在Hive中的应用。 9. **Hive优化**:讲解如何优化Hive查询性能,包括表设计优化、查询语句优化和资源管理优化,以提高大...

    hive数仓、hive SQL 、 hive自定义函数 、hive参数深入浅出

    - 其他参数:如hive.exec.compress.output控制是否压缩输出,hive.auto.convert.join决定自动转换内连接的条件。 通过以上内容的学习,你将能熟练掌握Hive在大数据处理中的运用,理解其数仓设计原则,编写高效的...

    Hive教程.pdf

    - **Hive压缩方法**: - **压缩的原因**: 减少存储空间和网络传输时间。 - **Hadoop常用压缩方法**: Gzip、BZip2、Snappy等。 - **配置Hadoop压缩解压**: 通过Hadoop配置文件设置。 - **Hive中的压缩**: 设置表...

    jdbc连接hive数据库的驱动jar包

    在压缩包子文件的文件名称列表中,只提到了“hive驱动包”,这可能表示压缩包内只有一个文件,即Hive JDBC驱动的jar文件,或者是多个文件夹或文件,每个代表一个特定版本的驱动。 使用Hive JDBC驱动进行开发时,...

    Hive用户指南 Hive user guide 中文版

    - **压缩**:合理选择压缩算法可以显著减少存储空间和提高查询性能。 - **COUNT(DISTINCT)**:在使用该函数时可能会遇到性能瓶颈。 - **JOIN操作**:处理JOIN操作时需要考虑数据分布和大小。 - **DML操作**:Hive不...

    hive-jdbc-1.1.0驱动相关jar包

    "test-hive1.1.0"可能是一个包含这些jar的目录或者压缩文件。通常,除了`hive-jdbc-1.1.0.jar`之外,可能还需要Hive的其他依赖,例如`hadoop-client`、`hive-exec`、`hive-service`等。这些依赖确保了驱动能正确地与...

    Hive学习资料书籍压缩文件

    hive学习资料-hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供完整的sql查询功能,可以将sql语句转换为MapReduce任务进行运行。 其优点是学习成本低,可以通过类SQL语句快速...

    Hive-2.3.3在window安装需要的cmd相关

    解压缩下载的文件后,你会看到一个名为“bin”的目录,这个目录包含了用于在命令行(CMD)中运行Hive的脚本和可执行文件。 1. **配置Java环境**: 在安装Hive之前,确保你的系统已经安装了Java Development Kit ...

    windows hive cmd 下载

    9. **性能优化**: Hive可以通过分区、桶、压缩等方式提高查询性能。分区允许快速过滤大量数据,桶能实现更高效的Join操作,而数据压缩可以减少存储空间和网络传输量。 10. **Hive与其他工具集成**: Hive可以与多种...

    jdbc连接hive的jar包

    在提供的压缩包子文件中,我们有以下四个文件: 1. `hive-jdbc-1.1.0-cdh5.5.0-standalone.jar`:这是Hive JDBC驱动的独立版本,用于Java应用程序连接到Hive服务器。CDH5.5.0是Cloudera的Hadoop发行版,包含了Hive和...

    hive-exec-2.1.1.jar

    同时,Hive的性能可以通过优化元数据、分区策略、并行执行、压缩等方式进一步提升。 总的来说,理解Hive及其相关组件的工作原理,以及如何解决特定问题,对于大数据分析师和数据工程师来说至关重要。正确配置和使用...

    apache-hive-2.3.9,linux安装包

    Apache Hive 是一个基于Hadoop的数据仓库工具,它允许用户通过SQL-like的...在实际操作中,你可能还需要配置Hadoop的HDFS、YARN等组件,以及优化Hive的性能设置,如分区策略、桶表、压缩编码等,以适应你的特定需求。

Global site tag (gtag.js) - Google Analytics