hive-default.xml
<property>
<name>javax.jdo.option.ConnectionURL</name>
<value>jdbc:derby:;databaseName=metastore_db;create=true</value> 表示使用嵌入式的derby,create为true表示自动创建数据库,数据库名为metastore_db
<!--<value>jdbc:derby://192.168.0.3:4567/hadoopor;create=true</value>--> 表示使用客服模式的derby,hadoopor为数据库名,192.168.0.3为derby服务端的IP地址,而4567为服务端的端口号
<description>JDBC connect string for a JDBC metastore</description>
</property>
<property>
<name>javax.jdo.option.ConnectionDriverName</name>
<value>org.apache.derby.jdbc.EmbeddedDriver</value> 表示使用嵌入式的derby
<!--<value>org.apache.derby.jdbc.ClientDriver</value>--> 表示使用客服模式的derby
<description>Driver class name for a JDBC metastore</description>
</property>
对于嵌入式的derby要求在hive的lib目录下有文件derby.jar,而对于客服模式的derby要求有derbyclient.jar文件
如果是derby坏了,就得把metastore_db删除就好了,不过以前的数据也没了,我觉得测试的时候用derby还行,如果正式上线的话就不要启动嵌入式的了,直接启动并连接线上服务器就ok了。不然metastore_db一加锁,启动了hive --service hiveserver就不能启动hive 启动了hive就不能启动hive --service hiveserver。
说明:
测试的时候使用嵌入式还可以,正式环境一定要用服务端模式,否则出了问题就没法恢复了。
可以选择任何你熟悉的语言类作为JDBC连接:
import java.sql.SQLException;
import java.sql.Connection;
import java.sql.ResultSet;
import java.sql.Statement;
import java.sql.DriverManager;
public class HiveJdbcClient {
private static String driverName = "org.apache.hadoop.hive.jdbc.HiveDriver";
/**
* @param args
* @throws SQLException
*/
public static void main(String[] args) throws SQLException {
try {
Class.forName(driverName);
} catch (ClassNotFoundException e) {
// TODO Auto-generated catch block
e.printStackTrace();
System.exit(1);
}
Connection con = DriverManager.getConnection("jdbc:hive://localhost:10000/default", "", "");
Statement stmt = con.createStatement();
String tableName = "testHiveDriverTable";
stmt.executeQuery("drop table " + tableName);
ResultSet res = stmt.executeQuery("create table " + tableName + " (key int, value string)");
// show tables
String sql = "show tables '" + tableName + "'";
System.out.println("Running: " + sql);
res = stmt.executeQuery(sql);
if (res.next()) {
System.out.println(res.getString(1));
}
// describe table
sql = "describe " + tableName;
System.out.println("Running: " + sql);
res = stmt.executeQuery(sql);
while (res.next()) {
System.out.println(res.getString(1) + "\t" + res.getString(2));
}
// load data into table
// NOTE: filepath has to be local to the hive server
// NOTE: /tmp/a.txt is a ctrl-A separated file with two fields per line
String filepath = "/tmp/a.txt";
sql = "load data local inpath '" + filepath + "' into table " + tableName;
System.out.println("Running: " + sql);
res = stmt.executeQuery(sql);
// select * query
sql = "select * from " + tableName;
System.out.println("Running: " + sql);
res = stmt.executeQuery(sql);
while (res.next()) {
System.out.println(String.valueOf(res.getInt(1)) + "\t" + res.getString(2));
}
// regular hive query
sql = "select count(1) from " + tableName;
System.out.println("Running: " + sql);
res = stmt.executeQuery(sql);
while (res.next()) {
System.out.println(res.getString(1));
}
}
}
接下来做的工作即是运行了:
# Then on the command-line
$ javac HiveJdbcClient.java
# To run the program in standalone mode, we need the following jars in the classpath
# from hive/build/dist/lib
# hive_exec.jar
# hive_jdbc.jar
# hive_metastore.jar
# hive_service.jar
# libfb303.jar
# log4j-1.2.15.jar
#
# from hadoop/build
# hadoop-*-core.jar
#
# To run the program in embedded mode, we need the following additional jars in the classpath
# from hive/build/dist/lib
# antlr-runtime-3.0.1.jar
# derby.jar
# jdo2-api-2.1.jar
# jpox-core-1.2.2.jar
# jpox-rdbms-1.2.2.jar
#
# as well as hive/build/dist/conf
$ java -cp $CLASSPATH HiveJdbcClient
# Alternatively, you can run the following bash script, which will seed the data file
# and build your classpath before invoking the client.
#!/bin/bash
HADOOP_HOME=/your/path/to/hadoop
HIVE_HOME=/your/path/to/hive
echo -e '1\x01foo' > /tmp/a.txt
echo -e '2\x01bar' >> /tmp/a.txt
HADOOP_CORE={{ls $HADOOP_HOME/hadoop-*-core.jar}}
CLASSPATH=.:$HADOOP_CORE:$HIVE_HOME/conf
for i in ${HIVE_HOME}/lib/*.jar ; do
CLASSPATH=$CLASSPATH:$i
done
java -cp $CLASSPATH HiveJdbcClient
分享到:
相关推荐
4. **metastore**:元数据存储相关文件,包括 `derby.log` 和 `lib` 文件夹,元数据存储默认使用 Apache Derby 数据库,但也可以配置为其他数据库系统如 MySQL 或 PostgreSQL。 5. **scripts**:包含 Hive 的初始化...
默认情况下,Hive使用内嵌的Derby数据库作为元数据库,但考虑到并发访问和性能问题,推荐使用MySQL作为元数据库。首先,我们需要安装MySQL服务器: ``` apt-get install mysql-server -y service mysql start `...
1. **元数据存储**:Hive存储关于表、列、分区等的元数据,这些信息通常保存在MySQL或Derby这样的关系型数据库中。 2. **编译器**:将HQL转换为MapReduce或Tez任务,对于Hive 3.1.2,它也支持Spark执行引擎。 3. **...
Apache Hive 是一个基于 Hadoop 的数据仓库工具,它允许用户使用 SQL 类似的查询语言(称为 HiveQL)来处理和分析存储在 Hadoop 分布式文件系统(HDFS)中的大量数据。Hive 提供了数据汇总、离线分析以及结构化数据...
1. **元数据存储**:Hive将元数据(如表结构、分区信息等)存储在数据库中(通常是MySQL或Derby),这些元数据描述了数据的组织方式。 2. **HiveQL**:HQL是Hive的查询语言,与SQL高度兼容,允许用户编写复杂的查询...
- **元数据存储**:Hive使用MySQL或Derby等关系型数据库来存储表结构和分区等元数据。 - **Hive服务器**:处理客户端请求,解析SQL语句,并生成MapReduce任务。 - **HDFS**:作为数据存储层,Hive将数据文件存储...
这些元数据存储在MySQL或Derby等关系型数据库中,称为Hive Metastore。 4. **分桶和分区**:Hive支持对数据进行分桶(Bucketing)和分区(Partitioning),以提高查询效率。分桶是根据一列或多列的哈希值将数据分布...
这个"hive配置相关文件.zip"压缩包包含了构建和配置Hive环境所需的几个关键组件,以及一个配置文件,这对于初次接触或者需要调整Hive环境的人来说非常有用。接下来,我们将详细探讨这些组件和配置文件的作用。 1. *...
从提供的文件内容中,我们可以提取到关于Hive安装与配置的相关知识点,同时也包括了MySQL的安装知识,因为MySQL是Hive常用的后端数据库。接下来,我将详细介绍这些知识点。 **Hive的安装与配置** 1. Hive是一个...
此外,还需要配置元存储(metadata store),通常使用MySQL或Derby作为后端数据库,存储表的元数据。一旦设置完成,你就可以使用Hive命令行或者连接工具来创建表、导入数据、执行查询,并将结果导出到各种格式。 ...
2. **元数据存储**:Hive使用MySQL或Derby等数据库存储元数据,如表名、列名、分区信息等。这些元数据用于解析HQL并指导数据处理。 3. **HQL**:Hive Query Language是Hive的核心,它扩展了SQL,以适应分布式计算...
在安装Hive-0.10.0时,用户需要遵循一系列步骤,包括配置环境变量、安装依赖项(如Java和Hadoop)、创建Hive元数据存储、启动Hive服务,并可能还需要设置Hive的配置文件(如`hive-site.xml`)。安装完成后,用户可以...
2. **配置Hive**:配置Hive的配置文件(如`hive-site.xml`),指定Hadoop的配置路径、元数据存储位置等。 3. **启动Hive**:启动Hive服务,包括Metastore Server和Hive Server2,以便其他客户端连接和查询数据。 4. ...
元数据通常存储在数据库(如 MySQL 或 Derby)中,并由 Hive Metastore 服务管理。 3. **hadoop-common-2.2.0.jar**:这是 Hadoop 共享库,包含了 Hadoop 平台的基础通用功能,如文件系统操作、网络通信、配置管理...
4. **设置Hive配置文件**:修改`conf/hive-site.xml`,配置元数据存储位置(如MySQL或Derby)、Hadoop配置路径等。 5. **启动Hive服务**:通过命令行启动HiveServer2和MetaStore服务。 6. **验证安装**:通过Hive ...
2. 元数据存储:Hive的元数据(如表名、列信息、分区、表属性和数据位置等)通常保存在像MySQL或Derby这样的关系型数据库中,以便于管理和查询。 3. 解释器、编译器、优化器:这些组件负责HQL查询的解析、编译、...
4. **创建 Metastore 数据库**:Hive 使用 Metastore 服务存储元数据,可以选择 MySQL、Derby 或其他兼容的数据库。根据配置文件中的信息创建对应的数据库和用户。 5. **启动 Hive**:启动 Hive 服务,可以使用命令...