`
superlxw1234
  • 浏览: 551405 次
  • 性别: Icon_minigender_1
  • 来自: 西安
博客专栏
Bd1c0a0c-379a-31a8-a3b1-e6401e2f1523
Hive入门
浏览量:44446
社区版块
存档分类
最新评论

为hive设置输出压缩的参数

 
阅读更多
<!-- map output compress begin-->

<property>
  <name>mapred.compress.map.output</name>
  <value>true</value>
</property>

<property>
  <name>mapred.output.compress</name>
  <value>true</value>
</property>

<property>
  <name>hive.exec.compress.output</name>
  <value>true</value>
  <description> This controls whether the final outputs of a query (to a local/hdfs file or a hive table) is compressed. The compression codec and other options are determined from hadoop config variables mapred.output.compress* </description>
</property>

<property>
  <name>hive.exec.compress.intermediate</name>
  <value>true</value>
  <description> This controls whether intermediate files produced by hive between multiple map-reduce jobs are compressed. The compression codec and other options are determined from hadoop config variables mapred.output.compress* </description>
</property>


<property>
  <name>mapred.output.compression.codec</name>
  <value>org.apache.hadoop.io.compress.GzipCodec</value>
</property>

<property>
  <name>mapred.map.output.compression.codec</name>
  <value>org.apache.hadoop.io.compress.GzipCodec</value>
</property>


<property>
  <name>mapred.output.compression.type</name>
  <value>BLOCK</value>
</property>


<!-- map output compress end-->
分享到:
评论

相关推荐

    hive参数配置说明大全

    Hive参数配置说明大全 ...该参数决定了Hive执行计划的压缩方式,默认值为null。 Hive的参数配置非常重要,它可以影响Hive的性能、安全性和执行效率。通过合理地配置参数,可以提高Hive的性能和安全性。

    hive数仓、hive SQL 、 hive自定义函数 、hive参数深入浅出

    - 其他参数:如hive.exec.compress.output控制是否压缩输出,hive.auto.convert.join决定自动转换内连接的条件。 通过以上内容的学习,你将能熟练掌握Hive在大数据处理中的运用,理解其数仓设计原则,编写高效的...

    Hive脚本任务参数优化配置.doc

    - Hive通过Tez引擎执行union语句时,生成的输出文件会存放在特定目录。若切换至MapReduce引擎,需通过参数 `set mapreduce.input.fileinputformat.input.dir.recursive=true;` 开启递归读取目录下的文件功能,确保...

    apache-hive-1.2.1-bin.tar.gz

    - **conf**:存放配置文件,如 `hive-site.xml`,用于设置 Hive 的运行参数。 - **lib**:包含 Hive 运行所需的库文件,如 JAR 包。 - **metastore-server**:用于启动和管理 Hive 元数据服务器的脚本和配置。 - **...

    Hive学习笔记

    - Hive 支持对数据进行压缩,通过设置 `hive.exec.compress.output` 和 `hive.compress.output.compression.codec` 可以开启输出压缩并选择压缩算法,如 Gzip 或 Snappy。 15. **HiveQL 函数**: - 包括数学函数...

    Hive任务提交流程.pdf

    - **MapReduce任务参数**:这些参数包括JobConf对象,它包含了MapReduce作业的所有配置,如输入输出路径、分桶策略、压缩选项、Mapper和Reducer的数量等。 5. **任务提交与结果清理**:当所有准备工作就绪后,...

    apache-hive-2.3.3-bin.7z

    在本案例中,我们讨论的是"apache-hive-2.3.3-bin.7z",这是一个包含Apache Hive 2.3.3版本的压缩文件,采用7z格式,适合在桌面上解压后再进行上传。 **Hive的核心概念和功能:** 1. **数据仓库**:Hive作为大数据...

    hive配置说明

    通过对上述Hive配置参数的详细解析,我们不仅能够更好地理解Hive的工作机制,还能根据实际需求合理调整参数设置,进一步提升Hive查询的性能和效率。在实际应用中,合理配置Hive参数是提高数据分析能力的关键步骤之一...

    Hive 优化以及执行原理

    使用`SET hive.merge.smallfiles.avgsize`和`hive.merge.size`参数进行调整。 5. **减少数据倾斜**:数据倾斜可能导致某些节点处理大量数据,而其他节点空闲。可以通过均衡数据分布、使用skewjoin等方式解决。 6. ...

    Hive Meta Store E-R图

    - **OUTPUT_FORMAT**:可变字符型 (VARCHAR),长度为4000,表示输出格式。 - **LOCATION**:可变字符型 (VARCHAR),长度为4000,表示数据存储位置。 - **IS_COMPRESSED**:位型 (BIT),长度为1,表示数据是否被压缩...

    Hive案例数据集.rar

    - 配置调整:根据硬件环境和业务需求调整Hive的相关配置参数。 七、Hive与其他组件的集成 Hive可以无缝集成Hadoop生态系统中的其他组件,如HDFS、HBase、Spark等。例如,Hive可以作为Spark SQL的接口,利用Spark的...

    hive操作指南

    - 可以通过设置`hive.exec.reducers.bytes.per.reducer`参数来调整。 - **9.5 合并MapReduce操作** - 通过设置`hive.groupby.skewindata`参数来优化数据倾斜问题。 - **9.6 Bucket与sampling** - 使用分桶技术...

    hive工作调优小结

    - 设置**Hive.exec.compress.output=true**来启用输出压缩。 - 调整**Mapred.output.compression.type**为BLOCK,以获得更高的压缩比。 #### 五、Job执行模式的优化 Hadoop支持三种作业执行模式:本地模式、伪...

    Hive配置和基本操作 (2).docx

    - 首先,你需要将Hive的安装包上传到服务器,然后解压缩。 - 将Hive的路径添加到系统的PATH环境变量中,以便在任何目录下都能运行Hive命令。 2. **配置文件修改** - 进入`conf`目录,复制并修改以下模板文件: ...

    Hive高级编程

    6. **小文件合并**:通过设置合理的参数,避免产生过多的小文件。 7. **动态分区**:使用动态分区可以提高数据加载的灵活性。 8. **统计信息收集**:定期收集表的统计信息可以帮助优化器做出更好的决策。 通过上述...

    基于Spark+hive的交通智能研判系统.zip

    2. **配置文件**:如`spark-defaults.conf`,用于设置Spark集群的相关参数。 3. **数据文件**:交通数据可能以CSV、JSON或其他格式存储,用于分析。 4. **脚本和批处理文件**:启动和运行Spark作业的shell脚本或...

    3、Sqoop导出(HDFS到RMDB-mysql)

    2. **压缩输出**:通过`--compress`和`--compression-codec`参数启用输出压缩,减小数据传输量。 3. **并行导出**:利用`--m`或`--num-mappers`参数设置并行任务的数量,加快导出速度。 4. **错误处理**:使用`--...

    (orc + snappy / zlib ) 多线程并行合并小文件工具类 (出自:flink自定义合并orc小文件处)

    为了使用这个工具,你需要配置Flink作业,指定输入目录(包含orc小文件)、输出目录(合并后的大文件将被保存的位置)以及可能的其他参数,如线程数、压缩算法等。然后,Flink作业会启动并执行这个合并过程。 总的...

Global site tag (gtag.js) - Google Analytics