`
乡里伢崽
  • 浏览: 111929 次
  • 性别: Icon_minigender_1
  • 来自: 深圳
社区版块
存档分类
最新评论

hive参数的意义

    博客分类:
  • hive
 
阅读更多
第一部分:Hive 参数
hive.exec.max.created.files
•说明:所有hive运行的map与reduce任务可以产生的文件的和
•默认值:100000
hive.exec.dynamic.partition
•说明:是否为自动分区
•默认值:false
hive.mapred.reduce.tasks.speculative.execution
•说明:是否打开推测执行
•默认值:true
hive.input.format
•说明:Hive默认的input format
•默认值: org.apache.hadoop.hive.ql.io.CombineHiveInputFormat
•如果有问题可以使用org.apache.hadoop.hive.ql.io.HiveInputFormat
hive.exec.counters.pull.interval
•说明:Hive与JobTracker拉取counter信息的时间
•默认值:1000ms
hive.script.recordreader
•说明:使用脚本时默认的读取类
•默认值: org.apache.hadoop.hive.ql.exec.TextRecordReader
hive.script.recordwriter
•说明:使用脚本时默认的数据写入类
•默认值: org.apache.hadoop.hive.ql.exec.TextRecordWriter
hive.mapjoin.check.memory.rows
•说明: 内存里可以存储数据的行数
•默认值: 100000
hive.mapjoin.smalltable.filesize
•说明:输入小表的文件大小的阀值,如果小于该值,就采用普通的join
•默认值: 25000000
hive.auto.convert.join
•说明:是不是依据输入文件的大小,将Join转成普通的Map Join
•默认值: false
hive.mapjoin.followby.gby.localtask.max.memory.usage
•说明:map join做group by 操作时,可以使用多大的内存来存储数据,如果数据太大,则不会保存在内存里
•默认值:0.55
hive.mapjoin.localtask.max.memory.usage
•说明:本地任务可以使用内存的百分比
•默认值: 0.90
hive.heartbeat.interval
•说明:在进行MapJoin与过滤操作时,发送心跳的时间
•默认值1000
hive.merge.size.per.task
•说明: 合并后文件的大小
•默认值: 256000000
hive.mergejob.maponly
•说明: 在只有Map任务的时候 合并输出结果
•默认值: true
hive.merge.mapredfiles
•默认值: 在作业结束的时候是否合并小文件
•说明: false
hive.merge.mapfiles
•说明:Map-Only Job是否合并小文件
•默认值:true
hive.hwi.listen.host
•说明:Hive UI 默认的host
•默认值:0.0.0.0
hive.hwi.listen.port
•说明:Ui监听端口
•默认值:9999
hive.exec.parallel.thread.number
•说明:hive可以并行处理Job的线程数
•默认值:8
hive.exec.parallel
•说明:是否并行提交任务
•默认值:false
hive.exec.compress.output
•说明:输出使用压缩
•默认值: false
hive.mapred.mode
•说明: MapReduce的操作的限制模式,操作的运行在该模式下没有什么限制
•默认值: nonstrict
hive.join.cache.size
•说明: join操作时,可以存在内存里的条数
•默认值: 25000
hive.mapjoin.cache.numrows
•说明: mapjoin 存在内存里的数据量
•默认值:25000
hive.join.emit.interval
•说明: 有连接时Hive在输出前,缓存的时间
•默认值: 1000
hive.optimize.groupby
•说明:在做分组统计时,是否使用bucket table
•默认值: true
hive.fileformat.check
•说明:是否检测文件输入格式
•默认值:true
hive.metastore.client.connect.retry.delay
•说明: client 连接失败时,retry的时间间隔
•默认值:1秒
hive.metastore.client.socket.timeout
•说明:  Client socket 的超时时间
•默认值:20秒
mapred.reduce.tasks
•默认值:-1
•说明:每个任务reduce的默认值
-1 代表自动根据作业的情况来设置reduce的值
hive.exec.reducers.bytes.per.reducer
•默认值: 1000000000 (1G)
•说明:每个reduce的接受的数据量
    如果送到reduce的数据为10G,那么将生成10个reduce任务
hive.exec.reducers.max
•默认值:999
•说明: reduce的最大个数     
hive.exec.reducers.max
•默认值:999
•说明: reduce的最大个数
hive.metastore.warehouse.dir
•默认值:/user/hive/warehouse
•说明: 默认的数据库存放位置
hive.default.fileformat
•默认值:TextFile
•说明: 默认的fileformat
hive.map.aggr
•默认值:true
•说明: Map端聚合,相当于combiner
hive.exec.max.dynamic.partitions.pernode
•默认值:100
•说明:每个任务节点可以产生的最大的分区数
hive.exec.max.dynamic.partitions
•默认值:1000
•说明: 默认的可以创建的分区数
hive.metastore.server.max.threads
•默认值:100000
•说明: metastore默认的最大的处理线程数
hive.metastore.server.min.threads
•默认值:200
•说明: metastore默认的最小的处理线程数


http://www.iteye.com/topic/1133074
分享到:
评论

相关推荐

    hive配置参数及含义

    hive配置参数及含义, 在大数据维护中对hive的优化参数的配置明细

    深入浅出学习HIVE.pdf

    Hive参数包括配置参数和执行命令参数。Hive优化涉及优化手段、数据类型优化和操作优化。Hive的原理是指定HQL之后,Hive如何将HQL转换为MapReduce任务,再由Hadoop执行。 总的来说,Hive作为一个数据仓库工具,其...

    hive-testbench-hive14.zip大数据TPCDS-99SQL自动测试脚本

    通过Hive Testbench,我们可以对Hive的各种配置和版本进行深入的性能测试,以便找出最佳的运行参数。 在“hive-testbench-hive14.zip”这个压缩包中,包含了针对Hive 1.4版本的测试脚本,这是一组精心设计的测试...

    hive等配置文档

    接着,修改`conf/zoo.cfg`配置文件,设置数据目录、客户端连接端口等参数。将配置好的Zookeeper复制到所有集群节点,并启动服务。通过命令`bin/zkServer.sh status`可以检验Zookeeper是否正常运行。 **HBase配置** ...

    hive编程入门课程

    在配置Hive时,需要设置Hadoop环境变量、Hive的配置参数等,确保Hive能够正确地连接到HDFS并读取元数据。 #### 五、HiveQL编程 HiveQL是一种类似于SQL的查询语言,但并非完全相同。它支持常见的SQL操作,如创建表...

    Hive原理与实现

    #### 一、Hive的概述与意义 Hive 是一个构建于 Hadoop 之上的数据仓库工具,它提供了类 SQL 的查询语言(HQL),使得用户可以方便地处理存储在 Hadoop 分布式文件系统(HDFS)中的大规模数据集。Hive 的设计初衷...

    远程连接hive

    3. **启动Hive服务端**:通过执行脚本或者命令行参数指定的方式启动Hive服务端。例如,可以使用以下命令来启动Hive服务端: ```bash sbin/hiveserver2 --service HiveServer2 & ``` 这里使用`&`将命令放入后台...

    cli正常显示中文的hive-0.10.0

    可能的修改包括设置JVM启动参数、调整Hive配置文件(如`hive-site.xml`)中的相关属性,或者直接在源码中修改处理字符串的函数以处理中文字符。 描述中提到的“desc table1”命令是Hive中用于获取表详细信息的标准...

    大数据处理中Hive的数据仓库工具及其安装配置教程

    内容概要:本文详述了Hive这一...阅读建议:在实践中边学习边操作Hive的具体安装步骤和配置流程,尝试动手搭建环境并通过简单的查询练习检验学习成果,特别是要注意根据业务特性合理配置Hive参数以达到最优的性能表现。

    hive-solr-master.zip_hive_solr_solr-hive

    同时,还需要在Hive的配置文件(hive-site.xml)中配置相关的Solr服务器地址、核心名等参数,确保Hive能正确连接到Solr服务。 接下来,我们可以在Hive中创建一个外部表,指定其存储位置为Solr的索引目录。这样,当...

    开发和优化高效的Hadoop & Hive 程序

    开发和优化高效的Hadoop & Hive程序 大数据技术如今是互联网行业...以上内容中提到的关于Hadoop和Hive的优化方法和实践技巧,是大数据处理领域宝贵的实战经验,对提升大数据平台的处理性能和效率具有重要的指导意义。

    基于hadoop平台hive数据库处理电影数据(8965字数32页).doc

    【部分内容】:文档首先阐述了开发背景,包括开发的必要性和意义,接着分析了项目的可行性,包括需求、技术、操作和经济层面的可行性。然后,系统总体设计部分提出了总体方案和基础数据架构,可能涵盖了Hadoop集群的...

    hive配置说明

    ### Hive配置参数详解 #### 一、概述 Hive 是一款基于 Hadoop 的数据仓库工具,可以帮助对在存储在 Hadoop 文件系统中的数据集进行数据整理、...在实际应用中,合理配置Hive参数是提高数据分析能力的关键步骤之一。

    Hive Meta Store E-R图

    ### Apache Hive元数据E...理解这些表格的结构及其关系对于高效地使用Hive进行数据分析具有重要意义。此外,通过对这些表格的进一步探究,我们还可以深入了解Hive的内部工作机制,从而更好地优化和扩展Hive的应用场景。

    Seatunnel2.3.1增加JDBC Source抽取Hive数据源

    这一更新对于大数据开发人员来说具有重要意义,因为它简化了从 Hive 到其他系统的数据迁移过程,同时也提供了更多的灵活性,允许用户在不同的数据存储之间自由流动数据。同时,由于 Seatunnel 支持动态配置和增量...

    Hive调优全方位指南.docx

    5. **索引**:尽管Hive不支持传统意义上的索引,但可以通过创建分区和桶来优化查询性能。 6. **缓存**:利用Hive的缓存机制可以提高查询速度。 7. **资源管理**:合理配置YARN资源,确保Hive有足够的资源可用。 ###...

    PyHive-0.6.4.tar.gz安装包,python连hive驱动

    这对于大数据项目中的ETL(提取、转换、加载)流程和实时数据分析具有重大意义。 总的来说,PyHive-0.6.4作为Python连接Hive的驱动,为数据处理提供了一条便捷的通道,极大地提升了Python在大数据领域的应用能力。...

    高级软件人才培训专家-Hadoop课程资料-4-第四章 - 分布式SQL计算 Hive 入门

    4. **配置 Hive**:调整各种参数以优化性能。 5. **启动服务**:启动 Hive 相关的服务。 #### Hive 初体验 初次使用 Hive 时,用户可以通过以下步骤开始: 1. **启动 Hive CLI**:通过命令行进入 Hive 环境。 2. *...

    webcube:在 hive 中创建数据立方体

    - **配置 Webcube**:连接到本地或远程 Hive 服务器,设置必要的连接参数。 - **设计数据立方体**:在 Webcube 的 GUI 中,定义维度(如时间、地区)、层次(如年、季度、月)和度量(如销售额、利润)。 - **...

Global site tag (gtag.js) - Google Analytics