`
heipark
  • 浏览: 2095195 次
  • 性别: Icon_minigender_1
  • 来自: 北京
社区版块
存档分类
最新评论

hive-0.7.0 官方《GettingStarted》笔记

阅读更多

下载安装 

wget http://mirror.bjtu.edu.cn/apache/hive/hive-0.7.0/hive-0.7.0.tar.gz

tar -zxf hive-0.7.0.tar.gz

cd hive-0.7.0

vi ~/.bashrc
export HIVE_HOME={you_hive_home_here}
export PATH=$HIVE_HOME/bin:$PATH
 

 

初始化HDFS路径

 

hadoop fs -mkdir		/tmp
hadoop fs -mkdir		/user/hive/warehouse
hadoop fs -chmod g+w   /tmp
hadoop fs -chmod g+w   /user/hive/warehouse

 

HIVE配置

 

hive配置文件路径为:hive-0.7.0/conf/hive-default.xml

 

可以在hive命令执行同时时覆盖配置文件的属性 bin/hive -hiveconf x1=y1 -hiveconf x2=y2

 

可以在hive中设置hadoop的属性:SET mapred.job.tracker=myhost.mycompany.com:50030;

 

从0.7版本开始hive支持local运行模式,命令

SET mapred.job.tracker=local;

 

从0.7版本开始hive支持自动map reduce job local运行模式,命令:

 

hive> SET hive.exec.mode.local.auto=true;

 

 如下情况,会自动启动local map reduce job:

  • job的全部输入小于“hive.exec.mode.local.auto.inputbytes.max ”(默认128MB) 
  • map任务数量小于“hive.exec.mode.local.auto.tasks.max”(默认为4)
  • reduce任务数量为“1”或者“0”

 

hive的默认log路径为:hive.log.dir=/tmp/${user.name}

 

下面是常用语句:

 

CREATE TABLE pokes (foo INT, bar STRING);  

CREATE TABLE invites (foo INT, bar STRING) PARTITIONED BY (ds 
STRING);

SHOW TABLES; 

SHOW TABLES '.*s';

DESCRIBE invites;

ALTER TABLE pokes ADD COLUMNS (new_col INT);

ALTER TABLE invites ADD COLUMNS (new_col2 INT COMMENT 'a comment');

ALTER TABLE events RENAME TO 3koobecaf;

DROP TABLE pokes;

   Metadata文件存储

 

hive默认使用内嵌的derby数据库存储metadata数据,默认存储路径为“hive-0.7.0/bin/metastore_db”,内嵌的方式不允许多个用户同时操作hive命令,如果两个人同时操作hive,第二个人会报错。


metadata可以存储在JDO支持的数据库,通过,

 

javax.jdo.option.ConnectionURL
javax.jdo.option.ConnectionDriverName
 

 

 

这两个属性指定。初始化数据库的schema在“hive-0.7.0/src/metastore/src/model/package.jdo”文件


建议:修改hive-default.xml文件“javax.jdo.option.ConnectionURL”属性为jdbc:derby:;databaseName=/where_you_want_path/metastore_db;create=true这样你在任何地方执行hive都可以找到meta数据了,否则每个新的路径执行hive都会创建metastore_db文件夹

 

DML操作

LOAD DATA LOCAL INPATH './examples/files/kv3.txt' OVERWRITE INTO TABLE invites PARTITION (ds='2008-08-08');
 

LOCAL:该参数说明待导入文件路径为本地路径,如果没有这个参数则需要指定HDFS路径

INPATH:后面的参数如果是path会导入文件夹所有文件

OVERWRITE:先删除存在文件(包括它的copy_x文件),再LOAD新文件;如果去除这个参数,当遇到相同文件时新文件导入hdfs后,会改名为:existFile_copy_1  existFile_copy_2

PARTITION :指定当前数据存放分区,分区有利于分解大数据job,更好使用集群多机器的优势。

 

 

SQL操作

example文件路径:hive-0.7.0/src/ql/src/test/queries/positive/

 

SQL执行完会将结果显示在console上,但结果不会保存,包含PARTITION的表,在where语句中必须包含PARTITION字段的限定

 

SELECT a.foo FROM invites a WHERE a.ds='2008-08-15';
INSERT OVERWRITE DIRECTORY '/tmp/hdfs_out' SELECT a.* FROM invites a WHERE a.ds='2008-08-15';
INSERT OVERWRITE LOCAL DIRECTORY '/tmp/local_out' SELECT a.* FROM pokes a;
INSERT OVERWRITE TABLE events SELECT a.* FROM profiles a;
  • DIRECTORY将保存结果到hdfs中
  • LOCAL DIRECTORY结果保存到本地文件中
  • TABLE:结果保存到其它表文件夹中
创建表同时指定字段分隔符
CREATE TABLE u_data (
userid INT,
movieid INT,
rating INT,
unixtime STRING)
ROW FORMAT DELIMITED
FIELDS TERMINATED BY '\t'
STORED AS TEXTFILE;
 

 

安装过程遇到问题

Q:java.lang.NoSuchMethodError: org.apache.commons.lang.StringUtils.endsWith(Ljava/lang/String;Ljava/lang/String;)Z


A:问题是hadoop的lib下有一个common-lang的jar与hive的lib中common-lang冲突了,干掉hadoop中的jar,好了。

 

 

分享到:
评论

相关推荐

    含两个文件hive-jdbc-3.1.2-standalone.jar和apache-hive-3.1.2-bin.tar.gz

    含两个文件hive-jdbc-3.1.2-standalone.jar和apache-hive-3.1.2-bin.tar.gz 含两个文件hive-jdbc-3.1.2-standalone.jar和apache-hive-3.1.2-bin.tar.gz 含两个文件hive-jdbc-3.1.2-standalone.jar和apache-hive-...

    apache-hive-2.1.1-bin.tar

    apache-hive-2.1.1-bin.tar apache-hive-2.1.1-bin.tar apache-hive-2.1.1-bin.tarapache-hive-2.1.1-bin.tar apache-hive-2.1.1-bin.tar apache-hive-2.1.1-bin.tarapache-hive-2.1.1-bin.tar apache-hive-2.1.1-...

    Hive-2.1.1-CDH-3.6.1 相关JDBC连接驱动 Jar 包集合

    02、hive-exec-2.1.1-cdh6.3.1.jar 03、hive-jdbc-2.1.1-cdh6.3.1.jar 04、hive-jdbc-2.1.1-cdh6.3.1-standalone.jar 05、hive-metastore-2.1.1-cdh6.3.1.jar 06、hive-service-2.1.1-cdh6.3.1.jar 07、libfb303-...

    hive-jdbc-0.7.0-pentaho-1.0.2.jar解决kettle取hive数据乱码

    使用kettle抽取hive中的数据时,遇到了取数结果乱码的问题。替换此包可以解决

    hive-exec-2.1.1.jar

    hive-exec-2.1.1 是 Apache Hive 的一部分,特别是与 Hive 的执行引擎相关的组件。Apache Hive 是一个构建在 Hadoop 之上的数据仓库基础设施,它允许用户以 SQL(结构化查询语言)的形式查询和管理大型数据集。Hive ...

    hive驱动包hive-jdbc-uber-2.6.5.0-292.jar(用户客户端连接使用)

    标题中的"**hive-jdbc-uber-2.6.5.0-292.jar**"是一个Uber(也称为Shaded)JAR文件,它集成了Hive JDBC驱动的所有依赖项。Uber JAR的目的是为了方便部署,因为它将所有必需的库合并到一个单一的文件中,避免了类路径...

    hive-jdbc-1.2.1-standalone.jar

    hive-jdbc-1.2.1-standalone.jar hive-jdbc驱动jar包,欢迎下载

    hive-jdbc-jar-多版本.zip

    "hive-jdbc-jar-多版本.zip"是一个压缩包,包含了不同版本的Hive JDBC Uber Jars,覆盖了从1.5到1.8的多个Hive版本,适应不同的项目需求。 首先,我们要理解Uber JAR的概念。Uber JAR(也称为Shaded JAR)是一个...

    Apache Hive(apache-hive-3.1.3-bin.tar.gz)

    Apache Hive(apache-hive-3.1.3-bin.tar.gz、apache-hive-3.1.3-src.tar.gz)是一种分布式容错数据仓库系统,支持大规模分析,并使用 SQL 促进读取、写入和管理驻留在分布式存储中的 PB 级数据。Hive 构建在 Apache...

    hive-jdbc-3.1.2-standalone

    hive-jdbc-3.1.2-standalone适用于linux

    hive-exec-*.jar包

    Missing Hive Execution Jar: /hive/hive1.2.1/lib/hive-exec-*.jar

    apache-hive-3.1.2-bin.tar.gz

    3. `conf/`:默认的配置文件,如`hive-default.xml`和`hive-site.xml`,用户可以在此修改Hive的行为。 4. `scripts/`:包含Hive的一些初始化和管理脚本。 5. `metastore/`:元数据存储相关的库和脚本,Hive使用元...

    hive-jdbc-2.1.0-standalone.jar

    hive-jdbc-2.1.0-standalone.jar

    hive-jdbc-uber-2.6.5.jar

    hive-jdbc-uber-2.6.5.0-292.jar DbVisualizer (as of version 9.5.5) Below is an example configuration using DbVisualizer: Open the Diver Manager dialog ("Tools" > "Driver Manager...") and hit the ...

    hive-jdbc-2.1.0.jar

    hive-jdbc-2.1.0.jar

    hive-jdbc-1.2.1.spark2.jar

    hive-serde-1.1.0,mysql-connector-java-5.1.31.jar,hive-jdbc-standalone,atlas-plugin-classloader-1.2.0,hive-bridge-shim-1.2.0

    hive-jdbc-uber-3.1.2+yanagishima-18.0

    这里我们关注的是"Hive-jdbc-uber-3.1.2",这是一个包含所有依赖的Uber jar包,旨在简化部署和使用流程。 Hive JDBC Uber 3.1.2是Hive的Java数据库连接器的一个优化版本,它通过将所有必需的依赖项打包到一个单一的...

    hive-exec-3.1.2 排除guava

    hive-exec-3.1.2 排除guava

    hive-0.7.1-cdh3u1.tar.gz

    hive-0.7.1-cdh3u1.tar.gz

    apache-hive-3.1.2-bin.tar.gz.zip

    apache-hive-3.1.2-bin.tar.gz, 下载自:https://mirrors.bfsu.edu.cn/apache/hive/hive-3.1.2/, 上传至CSDN备份,本资源下载后需要解压缩zip文件,才是原本的apache-hive-3.1.2-bin.tar.gz文件

Global site tag (gtag.js) - Google Analytics