hadoop fs -count -q
配置环境变量:
# hadoop env
export HADOOP_HOME=
export HADOOP_CONF_DIR=
# hive env
export HIVE_HOME=
export HIVE_CONF_DIR=
export HIVE_AUX_JARS_PATH=
在HIVE_CONF_DIR下面需要有hive-default.xml
HiveConf hive-default.xml hive-site.xml
HiveConf:
hive.exec.mode.local.auto true 决定 Hive 是否应该自动地根据输入文件大小,在本地运行(在GateWay运行)
hive.auto.convert.join false 是否根据输入小表的大小,自动将 Reduce 端的 Common Join 转化为 Map Join,从而加快大表关联小表的 Join 速度。
metastore相关配置:
hive.metastore.local true or false local or remote metastore
HiveMetaStoreClient里面:
HiveMetaStoreClient(HiveConf conf, HiveMetaHookLoader hookLoader){
boolean localMetaStore = conf.getBoolean("hive.metastore.local", false);
if (localMetaStore) { //true,本地metastore
// instantiate the metastore server handler directly instead of connecting
// through the network
client = new HiveMetaStore.HMSHandler("hive client", conf);
open = true;
return;
}
}
Hive Configuration Variables
hive.exec.scratchdir This directory is used by hive to store the plans for different map/reduce stages for the query as well as to stored the intermediate outputs of these stages. /tmp/<user.name>/hive
hive.exec.compress.output Determines whether the output of the final map/reduce job in a query is compressed or not. false
hive.exec.compress.intermediate Determines whether the output of the intermediate map/reduce jobs in a query is compressed or not. false
mapred.reduce.tasks :reduce数目
The default number of reduce tasks per job. Typically set to a prime close to the number of available hosts. Ignored when mapred.job.tracker is "local". Hadoop set this to 1 by default, whereas hive uses -1 as its default value. By setting this property to -1, Hive will automatically figure out what should be the number of reducers.
hive.default.fileformat
<property>
<name>hive.default.fileformat</name>
<value>SequenceFile</value>
<description>Default file format for CREATE TABLE statement. Options are TextFile and SequenceFile. Users can explicitly say CREAT
E TABLE ... STORED AS <TEXTFILE|SEQUENCEFILE> to override</description>
</property>
默认创建的文件是SequenceFile,因为textfile在一些压缩算法下文件不可切分。
分享到:
相关推荐
Hive参数配置说明大全 Hive是一款基于Hadoop的数据仓库工具,用于数据的存储、查询和分析。在Hive中,参数配置起着非常重要的作用,它可以影响Hive的性能、安全性和执行效率。本文将对Hive的参数配置进行详细的解释...
- `--hiveconf <property=value>`:设置Hive配置属性。 - `-S, --silent`:静默模式,不显示命令执行过程。 - `-v, --verbose`:详细模式,显示执行的SQL语句。 2. **批处理模式与交互式模式** - **批处理模式*...
- `-hiveconf x=y`: 设置 Hive 或 Hadoop 的配置变量。 例如,你可以使用以下命令执行简单的 SQL 语句: ```bash $HIVE_HOME/bin/hive -e 'select a.col from tab1 a' ``` 或者,以非交互模式执行一个 SQL 文件: `...
对于当前的配置选项,建议参考HiveConf Java类或Hive语言手册中的相关部分,以获取最准确和最新的信息。 在实际操作中,确保正确配置元存储是非常重要的,因为它直接影响到Hive对数据的访问效率和整体系统的稳定性...
4. Hive配置变量:使用"--hiveconf"选项可以覆盖配置文件中的属性值,比如修改执行临时文件的目录或指定MapReduce的Reduce任务数。这种配置对于优化查询性能和资源使用十分有用。 5. 批量模式命令:在批量模式下...
- **hiveconf**: 存储Hive相关的配置属性,支持读写操作。 - **system**: Java系统定义的配置属性,支持读写操作。 - **env**: Shell环境中定义的环境变量,只支持读取。 变量的使用对于动态数据处理非常有用。用户...
import org.apache.hadoop.hive.conf.HiveConf; import org.apache.hadoop.hive.metastore.HiveMetaStoreClient; import org.apache.hadoop.hive.metastore.api.FieldSchema; import org.apache.ha
hive --hiveconf hive.root.logger=DEBUG,console ``` - 检查MySQL数据库中Hive元数据表的版本信息,确认是否存在多版本的情况。 ```sql SELECT * FROM version; ``` - 如果确实存在多版本,则可以通过删除...
- **通过命令行参数**:例如`-hiveconf hive.exec.dynamic.partition.mode=nonstrict`。 - **通过HiveCLI**:使用`SET`命令设置。 **1.7 Hive,Map-Reduce和Local-Mode** - **Hive默认使用Map-Reduce作为计算引擎*...
hive --hiveconf hive.exec.reducers.bytes.per.reducer=104857600 ``` - **HiveinteractiveShellCommand**:在交互模式下使用Hive命令 ```sql hive> SET hive.map.aggr=true; ``` - **HiveResources**:管理...
- **common**:Hive配置管理实现。 - **contrib**:扩展功能,如自定义SerDe和UDF。 #### 主要流程 **顶级流程**介绍了Hive Interfaces部分使用Hive Query Engine的主要流程。 1. **命令行参数处理**:处理`-...
nohup hive --service hiveserver2 --hiveconf hive.server2.thrift.port=10010 --hiveconf hive.metastore.uris=thrift://e3base07:9045 --hiveconf hive.log.dir=$E3_INFO_HOME/hive/logs/server_10010 & ...
最后,启动Hive的Thrift服务器,例如`nohup hive --service hiveserver2 --hiveconf hive.server2.thrift.port=10010 &`,这样Hive就准备好了接受远程连接。 【Hive的使用】 Hive主要通过SQL语句进行操作。可以...
-hiveconf : 用于定义hive执行时的属性,即配置参数,可覆盖hive-site.xml中配置的hive全局变量。 egg: hive -e查询: hive -S -e “use tv; select * from test;” hive -f 执行文件: hive -S -f test.hql ...
Apache TEZ 部署手册 Apache TEZ 是一个基于 Hadoop 的数据处理引擎,它提供了高性能、可扩展的数据处理能力...Hive –hiveconf hive.execution.engine=tez 引擎修改后,application type 会改变为 TEZ,如下图所示。
开发者可能需要使用Hive的Java API,如`HiveConf`、`HiveMetaStoreClient`和`Driver`,来连接Hive服务,执行SQL语句,并获取查询结果。 为了实现上述功能,开发人员需要对Hadoop的生态有深入理解,包括Hadoop的配置...
默认连接配置可通过`hplsql.conn.default`选项定义,也可以使用`MAP OBJECT`语句将特定数据库对象映射到不同的连接配置,以便在SQL语句中选择合适的连接。 HPL/SQL还支持用户自定义函数和存储过程,这可以通过`...
你需要提供Hive Metastore的URI和Hadoop配置信息。 ```java HiveConf conf = new HiveConf(); conf.setVar(HiveConf.ConfVars.METASTOREURIS, "thrift://localhost:9083"); HcatClient client = HcatClient.create...