- 浏览: 111923 次
- 性别:
- 来自: 深圳
文章分类
最新评论
-
土豆蛋儿:
我想读取一个外部文件,以什么方式好了? 文件内容经常编辑
flume 自定义source -
土豆蛋儿:
大神,您好。
flume 自定义source
第一部分:Hive 参数
hive.exec.max.created.files
•说明:所有hive运行的map与reduce任务可以产生的文件的和
•默认值:100000
hive.exec.dynamic.partition
•说明:是否为自动分区
•默认值:false
hive.mapred.reduce.tasks.speculative.execution
•说明:是否打开推测执行
•默认值:true
hive.input.format
•说明:Hive默认的input format
•默认值: org.apache.hadoop.hive.ql.io.CombineHiveInputFormat
•如果有问题可以使用org.apache.hadoop.hive.ql.io.HiveInputFormat
hive.exec.counters.pull.interval
•说明:Hive与JobTracker拉取counter信息的时间
•默认值:1000ms
hive.script.recordreader
•说明:使用脚本时默认的读取类
•默认值: org.apache.hadoop.hive.ql.exec.TextRecordReader
hive.script.recordwriter
•说明:使用脚本时默认的数据写入类
•默认值: org.apache.hadoop.hive.ql.exec.TextRecordWriter
hive.mapjoin.check.memory.rows
•说明: 内存里可以存储数据的行数
•默认值: 100000
hive.mapjoin.smalltable.filesize
•说明:输入小表的文件大小的阀值,如果小于该值,就采用普通的join
•默认值: 25000000
hive.auto.convert.join
•说明:是不是依据输入文件的大小,将Join转成普通的Map Join
•默认值: false
hive.mapjoin.followby.gby.localtask.max.memory.usage
•说明:map join做group by 操作时,可以使用多大的内存来存储数据,如果数据太大,则不会保存在内存里
•默认值:0.55
hive.mapjoin.localtask.max.memory.usage
•说明:本地任务可以使用内存的百分比
•默认值: 0.90
hive.heartbeat.interval
•说明:在进行MapJoin与过滤操作时,发送心跳的时间
•默认值1000
hive.merge.size.per.task
•说明: 合并后文件的大小
•默认值: 256000000
hive.mergejob.maponly
•说明: 在只有Map任务的时候 合并输出结果
•默认值: true
hive.merge.mapredfiles
•默认值: 在作业结束的时候是否合并小文件
•说明: false
hive.merge.mapfiles
•说明:Map-Only Job是否合并小文件
•默认值:true
hive.hwi.listen.host
•说明:Hive UI 默认的host
•默认值:0.0.0.0
hive.hwi.listen.port
•说明:Ui监听端口
•默认值:9999
hive.exec.parallel.thread.number
•说明:hive可以并行处理Job的线程数
•默认值:8
hive.exec.parallel
•说明:是否并行提交任务
•默认值:false
hive.exec.compress.output
•说明:输出使用压缩
•默认值: false
hive.mapred.mode
•说明: MapReduce的操作的限制模式,操作的运行在该模式下没有什么限制
•默认值: nonstrict
hive.join.cache.size
•说明: join操作时,可以存在内存里的条数
•默认值: 25000
hive.mapjoin.cache.numrows
•说明: mapjoin 存在内存里的数据量
•默认值:25000
hive.join.emit.interval
•说明: 有连接时Hive在输出前,缓存的时间
•默认值: 1000
hive.optimize.groupby
•说明:在做分组统计时,是否使用bucket table
•默认值: true
hive.fileformat.check
•说明:是否检测文件输入格式
•默认值:true
hive.metastore.client.connect.retry.delay
•说明: client 连接失败时,retry的时间间隔
•默认值:1秒
hive.metastore.client.socket.timeout
•说明: Client socket 的超时时间
•默认值:20秒
mapred.reduce.tasks
•默认值:-1
•说明:每个任务reduce的默认值
-1 代表自动根据作业的情况来设置reduce的值
hive.exec.reducers.bytes.per.reducer
•默认值: 1000000000 (1G)
•说明:每个reduce的接受的数据量
如果送到reduce的数据为10G,那么将生成10个reduce任务
hive.exec.reducers.max
•默认值:999
•说明: reduce的最大个数
hive.exec.reducers.max
•默认值:999
•说明: reduce的最大个数
hive.metastore.warehouse.dir
•默认值:/user/hive/warehouse
•说明: 默认的数据库存放位置
hive.default.fileformat
•默认值:TextFile
•说明: 默认的fileformat
hive.map.aggr
•默认值:true
•说明: Map端聚合,相当于combiner
hive.exec.max.dynamic.partitions.pernode
•默认值:100
•说明:每个任务节点可以产生的最大的分区数
hive.exec.max.dynamic.partitions
•默认值:1000
•说明: 默认的可以创建的分区数
hive.metastore.server.max.threads
•默认值:100000
•说明: metastore默认的最大的处理线程数
hive.metastore.server.min.threads
•默认值:200
•说明: metastore默认的最小的处理线程数
http://www.iteye.com/topic/1133074
hive.exec.max.created.files
•说明:所有hive运行的map与reduce任务可以产生的文件的和
•默认值:100000
hive.exec.dynamic.partition
•说明:是否为自动分区
•默认值:false
hive.mapred.reduce.tasks.speculative.execution
•说明:是否打开推测执行
•默认值:true
hive.input.format
•说明:Hive默认的input format
•默认值: org.apache.hadoop.hive.ql.io.CombineHiveInputFormat
•如果有问题可以使用org.apache.hadoop.hive.ql.io.HiveInputFormat
hive.exec.counters.pull.interval
•说明:Hive与JobTracker拉取counter信息的时间
•默认值:1000ms
hive.script.recordreader
•说明:使用脚本时默认的读取类
•默认值: org.apache.hadoop.hive.ql.exec.TextRecordReader
hive.script.recordwriter
•说明:使用脚本时默认的数据写入类
•默认值: org.apache.hadoop.hive.ql.exec.TextRecordWriter
hive.mapjoin.check.memory.rows
•说明: 内存里可以存储数据的行数
•默认值: 100000
hive.mapjoin.smalltable.filesize
•说明:输入小表的文件大小的阀值,如果小于该值,就采用普通的join
•默认值: 25000000
hive.auto.convert.join
•说明:是不是依据输入文件的大小,将Join转成普通的Map Join
•默认值: false
hive.mapjoin.followby.gby.localtask.max.memory.usage
•说明:map join做group by 操作时,可以使用多大的内存来存储数据,如果数据太大,则不会保存在内存里
•默认值:0.55
hive.mapjoin.localtask.max.memory.usage
•说明:本地任务可以使用内存的百分比
•默认值: 0.90
hive.heartbeat.interval
•说明:在进行MapJoin与过滤操作时,发送心跳的时间
•默认值1000
hive.merge.size.per.task
•说明: 合并后文件的大小
•默认值: 256000000
hive.mergejob.maponly
•说明: 在只有Map任务的时候 合并输出结果
•默认值: true
hive.merge.mapredfiles
•默认值: 在作业结束的时候是否合并小文件
•说明: false
hive.merge.mapfiles
•说明:Map-Only Job是否合并小文件
•默认值:true
hive.hwi.listen.host
•说明:Hive UI 默认的host
•默认值:0.0.0.0
hive.hwi.listen.port
•说明:Ui监听端口
•默认值:9999
hive.exec.parallel.thread.number
•说明:hive可以并行处理Job的线程数
•默认值:8
hive.exec.parallel
•说明:是否并行提交任务
•默认值:false
hive.exec.compress.output
•说明:输出使用压缩
•默认值: false
hive.mapred.mode
•说明: MapReduce的操作的限制模式,操作的运行在该模式下没有什么限制
•默认值: nonstrict
hive.join.cache.size
•说明: join操作时,可以存在内存里的条数
•默认值: 25000
hive.mapjoin.cache.numrows
•说明: mapjoin 存在内存里的数据量
•默认值:25000
hive.join.emit.interval
•说明: 有连接时Hive在输出前,缓存的时间
•默认值: 1000
hive.optimize.groupby
•说明:在做分组统计时,是否使用bucket table
•默认值: true
hive.fileformat.check
•说明:是否检测文件输入格式
•默认值:true
hive.metastore.client.connect.retry.delay
•说明: client 连接失败时,retry的时间间隔
•默认值:1秒
hive.metastore.client.socket.timeout
•说明: Client socket 的超时时间
•默认值:20秒
mapred.reduce.tasks
•默认值:-1
•说明:每个任务reduce的默认值
-1 代表自动根据作业的情况来设置reduce的值
hive.exec.reducers.bytes.per.reducer
•默认值: 1000000000 (1G)
•说明:每个reduce的接受的数据量
如果送到reduce的数据为10G,那么将生成10个reduce任务
hive.exec.reducers.max
•默认值:999
•说明: reduce的最大个数
hive.exec.reducers.max
•默认值:999
•说明: reduce的最大个数
hive.metastore.warehouse.dir
•默认值:/user/hive/warehouse
•说明: 默认的数据库存放位置
hive.default.fileformat
•默认值:TextFile
•说明: 默认的fileformat
hive.map.aggr
•默认值:true
•说明: Map端聚合,相当于combiner
hive.exec.max.dynamic.partitions.pernode
•默认值:100
•说明:每个任务节点可以产生的最大的分区数
hive.exec.max.dynamic.partitions
•默认值:1000
•说明: 默认的可以创建的分区数
hive.metastore.server.max.threads
•默认值:100000
•说明: metastore默认的最大的处理线程数
hive.metastore.server.min.threads
•默认值:200
•说明: metastore默认的最小的处理线程数
http://www.iteye.com/topic/1133074
发表评论
-
hive + hbase
2015-01-04 10:42 772环境配置: hadoop-2.0.0-cdh4.3.0 (4 ... -
hive 数据倾斜
2014-08-27 09:03 686链接:http://www.alidata.org/archi ... -
hive 分通总结
2014-08-27 08:42 574总结分析: 1. 定义了桶,但要生成桶的数据,只能是由其他表 ... -
深入了解Hive Index具体实现
2014-08-25 08:51 737索引是标准的数据库技术,hive 0.7版本之后支持索引。hi ... -
explain hive index
2014-08-24 16:44 1145设置索引: 使用聚合索引优化groupby操作 hive> ... -
Hive 中内部表与外部表的区别与创建方法
2014-08-15 17:11 761分类: Hive 2013-12-07 11:56 ... -
hive map和reduce的控制
2014-08-15 16:14 623一、 控制hive任务中的map数: 1. 通 ... -
hive 压缩策略
2014-08-15 15:16 1767Hive使用的是Hadoop的文件 ... -
hive 在mysql中创建备用数据库
2014-08-15 09:21 880修改hive-site.xml <property> ... -
HIVE 窗口及分析函数
2014-08-11 16:21 1187HIVE 窗口及分析函数 使 ... -
hive 内置函数
2014-08-11 09:06 30681.sort_array(): sort_array(arra ... -
hive lateral view
2014-08-09 14:59 2025通过Lateral view可以方便的将UDTF得到的行转列的 ... -
hive数据的导出
2014-07-28 21:53 444在本博客的《Hive几种数据导入方式》文章中,谈到了Hive中 ... -
hive udaf
2014-07-25 16:11 752package com.lwz.udaf; import o ... -
hive自定义InputFormat
2014-07-25 09:13 861自定义分隔符 package com.lwz.inputf; ... -
HiveServer2连接ZooKeeper出现Too many connections问题的解决
2014-07-24 08:49 1764HiveServer2连接ZooKeeper出现Too man ... -
hive 常用命令
2014-07-17 22:22 6931.hive通过外部设置参数传入脚本中: hiv ... -
CouderaHadoop中hive的Hook扩展
2014-07-16 21:18 3333最近在做关于CDH4.3.0的hive封装,其中遇到了很多问题 ... -
利用SemanticAnalyzerHook回过滤不加分区条件的Hive查询
2014-07-16 16:43 1466我们Hadoop集群中将近百分之80的作业是通过Hive来提交 ... -
hive 的常用命令
2014-07-16 10:07 0设置、查看hive当前的角色: set sys ...
相关推荐
hive配置参数及含义, 在大数据维护中对hive的优化参数的配置明细
Hive参数包括配置参数和执行命令参数。Hive优化涉及优化手段、数据类型优化和操作优化。Hive的原理是指定HQL之后,Hive如何将HQL转换为MapReduce任务,再由Hadoop执行。 总的来说,Hive作为一个数据仓库工具,其...
通过Hive Testbench,我们可以对Hive的各种配置和版本进行深入的性能测试,以便找出最佳的运行参数。 在“hive-testbench-hive14.zip”这个压缩包中,包含了针对Hive 1.4版本的测试脚本,这是一组精心设计的测试...
接着,修改`conf/zoo.cfg`配置文件,设置数据目录、客户端连接端口等参数。将配置好的Zookeeper复制到所有集群节点,并启动服务。通过命令`bin/zkServer.sh status`可以检验Zookeeper是否正常运行。 **HBase配置** ...
在配置Hive时,需要设置Hadoop环境变量、Hive的配置参数等,确保Hive能够正确地连接到HDFS并读取元数据。 #### 五、HiveQL编程 HiveQL是一种类似于SQL的查询语言,但并非完全相同。它支持常见的SQL操作,如创建表...
#### 一、Hive的概述与意义 Hive 是一个构建于 Hadoop 之上的数据仓库工具,它提供了类 SQL 的查询语言(HQL),使得用户可以方便地处理存储在 Hadoop 分布式文件系统(HDFS)中的大规模数据集。Hive 的设计初衷...
3. **启动Hive服务端**:通过执行脚本或者命令行参数指定的方式启动Hive服务端。例如,可以使用以下命令来启动Hive服务端: ```bash sbin/hiveserver2 --service HiveServer2 & ``` 这里使用`&`将命令放入后台...
可能的修改包括设置JVM启动参数、调整Hive配置文件(如`hive-site.xml`)中的相关属性,或者直接在源码中修改处理字符串的函数以处理中文字符。 描述中提到的“desc table1”命令是Hive中用于获取表详细信息的标准...
内容概要:本文详述了Hive这一...阅读建议:在实践中边学习边操作Hive的具体安装步骤和配置流程,尝试动手搭建环境并通过简单的查询练习检验学习成果,特别是要注意根据业务特性合理配置Hive参数以达到最优的性能表现。
同时,还需要在Hive的配置文件(hive-site.xml)中配置相关的Solr服务器地址、核心名等参数,确保Hive能正确连接到Solr服务。 接下来,我们可以在Hive中创建一个外部表,指定其存储位置为Solr的索引目录。这样,当...
开发和优化高效的Hadoop & Hive程序 大数据技术如今是互联网行业...以上内容中提到的关于Hadoop和Hive的优化方法和实践技巧,是大数据处理领域宝贵的实战经验,对提升大数据平台的处理性能和效率具有重要的指导意义。
【部分内容】:文档首先阐述了开发背景,包括开发的必要性和意义,接着分析了项目的可行性,包括需求、技术、操作和经济层面的可行性。然后,系统总体设计部分提出了总体方案和基础数据架构,可能涵盖了Hadoop集群的...
### Hive配置参数详解 #### 一、概述 Hive 是一款基于 Hadoop 的数据仓库工具,可以帮助对在存储在 Hadoop 文件系统中的数据集进行数据整理、...在实际应用中,合理配置Hive参数是提高数据分析能力的关键步骤之一。
### Apache Hive元数据E...理解这些表格的结构及其关系对于高效地使用Hive进行数据分析具有重要意义。此外,通过对这些表格的进一步探究,我们还可以深入了解Hive的内部工作机制,从而更好地优化和扩展Hive的应用场景。
这一更新对于大数据开发人员来说具有重要意义,因为它简化了从 Hive 到其他系统的数据迁移过程,同时也提供了更多的灵活性,允许用户在不同的数据存储之间自由流动数据。同时,由于 Seatunnel 支持动态配置和增量...
5. **索引**:尽管Hive不支持传统意义上的索引,但可以通过创建分区和桶来优化查询性能。 6. **缓存**:利用Hive的缓存机制可以提高查询速度。 7. **资源管理**:合理配置YARN资源,确保Hive有足够的资源可用。 ###...
这对于大数据项目中的ETL(提取、转换、加载)流程和实时数据分析具有重大意义。 总的来说,PyHive-0.6.4作为Python连接Hive的驱动,为数据处理提供了一条便捷的通道,极大地提升了Python在大数据领域的应用能力。...
4. **配置 Hive**:调整各种参数以优化性能。 5. **启动服务**:启动 Hive 相关的服务。 #### Hive 初体验 初次使用 Hive 时,用户可以通过以下步骤开始: 1. **启动 Hive CLI**:通过命令行进入 Hive 环境。 2. *...
- **配置 Webcube**:连接到本地或远程 Hive 服务器,设置必要的连接参数。 - **设计数据立方体**:在 Webcube 的 GUI 中,定义维度(如时间、地区)、层次(如年、季度、月)和度量(如销售额、利润)。 - **...