- 浏览: 2097505 次
- 性别:
- 来自: 北京
文章分类
- 全部博客 (366)
- hadoop (91)
- DB (2)
- vmware (0)
- python (49)
- Java (72)
- Linux (57)
- 多线程 (2)
- hive (1)
- hbase (3)
- mongodb (5)
- Hibernate (3)
- nodejs (1)
- 模式与重构 (1)
- 持续集成CI (4)
- Mysql (2)
- chorme (1)
- 软件开发 (0)
- 敏捷 (5)
- maven (3)
- windows (7)
- 测试驱动 (1)
- scala (3)
- Jetty (0)
- android (1)
- eclipse (1)
- 设计模式 (1)
- 面向对象设计 (2)
- oracle (3)
- cassandra (15)
- pig (3)
- rails (1)
- redis (4)
- ruby (1)
- storm (0)
- 实时运算 (3)
- scribe (1)
- hadoop源码 (3)
- cassandra jna (1)
- Kafka (2)
- Sublime (2)
- C++ (2)
- C (1)
- 版本控制 (1)
- 服务器 (1)
- docker (0)
- flink (1)
最新评论
-
伍大都督:
解释太到位了,感谢分享
理解Linux系统中的load average(图文版) -
rfjian123:
非常感谢,用你的方法解决了问题。
Server sent unexpected return value (403 Forbidden) in response to OPTIONS -
yuhaifei12:
今天遇到同样的问题了。设置的是每分钟执行一次。结果发现每分钟执 ...
解决Linux下crontab同一时间重复执行问题 -
BigBird2012:
想问一下,使用ExecutorService每次都要调用 sh ...
spring quartz使用多线程并发“陷阱” -
zhuqx1130:
有用,谢谢
解决Sublime Text 3中文显示乱码(tab中文方块)问题
下载安装
tar -zxf hive-0.7.0.tar.gz
cd hive-0.7.0
vi ~/.bashrc
export HIVE_HOME={you_hive_home_here}
export PATH=$HIVE_HOME/bin:$PATH
初始化HDFS路径
hadoop fs -mkdir /tmp hadoop fs -mkdir /user/hive/warehouse hadoop fs -chmod g+w /tmp hadoop fs -chmod g+w /user/hive/warehouse
HIVE配置
hive配置文件路径为:hive-0.7.0/conf/hive-default.xml
可以在hive命令执行同时时覆盖配置文件的属性: bin/hive -hiveconf x1=y1 -hiveconf x2=y2
可以在hive中设置hadoop的属性:SET mapred.job.tracker=myhost.mycompany.com:50030;
从0.7版本开始hive支持local运行模式,命令:
SET mapred.job.tracker=local;
从0.7版本开始hive支持自动map reduce job local运行模式,命令:
hive> SET hive.exec.mode.local.auto=true;
如下情况,会自动启动local map reduce job:
- job的全部输入小于“hive.exec.mode.local.auto.inputbytes.max ”(默认128MB)
- map任务数量小于“hive.exec.mode.local.auto.tasks.max”(默认为4)
- reduce任务数量为“1”或者“0”
hive的默认log路径为:hive.log.dir=/tmp/${user.name}
下面是常用语句:
CREATE TABLE pokes (foo INT, bar STRING); CREATE TABLE invites (foo INT, bar STRING) PARTITIONED BY (ds STRING); SHOW TABLES; SHOW TABLES '.*s'; DESCRIBE invites; ALTER TABLE pokes ADD COLUMNS (new_col INT); ALTER TABLE invites ADD COLUMNS (new_col2 INT COMMENT 'a comment'); ALTER TABLE events RENAME TO 3koobecaf; DROP TABLE pokes;
Metadata文件存储
hive默认使用内嵌的derby数据库存储metadata数据,默认存储路径为“hive-0.7.0/bin/metastore_db”,内嵌的方式不允许多个用户同时操作hive命令,如果两个人同时操作hive,第二个人会报错。
metadata可以存储在JDO支持的数据库,通过,
javax.jdo.option.ConnectionDriverName
这两个属性指定。初始化数据库的schema在“hive-0.7.0/src/metastore/src/model/package.jdo”文件
建议:修改hive-default.xml文件“javax.jdo.option.ConnectionURL”属性为jdbc:derby:;databaseName=/where_you_want_path/metastore_db;create=true这样你在任何地方执行hive都可以找到meta数据了,否则每个新的路径执行hive都会创建metastore_db文件夹
DML操作
LOCAL:该参数说明待导入文件路径为本地路径,如果没有这个参数则需要指定HDFS路径
INPATH:后面的参数如果是path会导入文件夹所有文件
OVERWRITE:先删除存在文件(包括它的copy_x文件),再LOAD新文件;如果去除这个参数,当遇到相同文件时新文件导入hdfs后,会改名为:existFile_copy_1 existFile_copy_2
PARTITION :指定当前数据存放分区,分区有利于分解大数据job,更好使用集群多机器的优势。
SQL操作
example文件路径:hive-0.7.0/src/ql/src/test/queries/positive/
SQL执行完会将结果显示在console上,但结果不会保存,包含PARTITION的表,在where语句中必须包含PARTITION字段的限定
INSERT OVERWRITE DIRECTORY '/tmp/hdfs_out' SELECT a.* FROM invites a WHERE a.ds='2008-08-15';
INSERT OVERWRITE LOCAL DIRECTORY '/tmp/local_out' SELECT a.* FROM pokes a;
INSERT OVERWRITE TABLE events SELECT a.* FROM profiles a;
- DIRECTORY:将保存结果到hdfs中
- LOCAL DIRECTORY:结果保存到本地文件中
- TABLE:结果保存到其它表文件夹中
userid INT,
movieid INT,
rating INT,
unixtime STRING)
ROW FORMAT DELIMITED
FIELDS TERMINATED BY '\t'
STORED AS TEXTFILE;
安装过程遇到问题
Q:java.lang.NoSuchMethodError: org.apache.commons.lang.StringUtils.endsWith(Ljava/lang/String;Ljava/lang/String;)Z
A:问题是hadoop的lib下有一个common-lang的jar与hive的lib中common-lang冲突了,干掉hadoop中的jar,好了。
发表评论
-
cloudera CDH5 vmware中cloudera manager报错"Internal error while querying the Host "
2014-07-22 10:19 2063无法获取host和service状态,解决办法: s ... -
thrift0.9.1简单教程(包含Java服务端和Java、python客户端)
2014-04-25 15:55 6414一、Thrift Java服务端和客户端 官 ... -
yum错误“Error in PREUN scriptlet in rpm package ”
2014-03-10 12:07 3983打算通过yum安装软件,发展之前有软件残骸。使用yu ... -
搭建cloudera yum私服
2014-03-05 11:08 3207一、安装Cloudera yum仓库 1. 下载仓库rpm ... -
cloudera创建私服错误一例
2014-02-24 11:41 1375执行“reposync -r cloudera-cdh4 ” ... -
Cloudera Manager的Hadoop配置文件管理
2014-02-11 10:21 11460本文基于Cloudera Manager 4.8,以下简称 ... -
修改cloudera manager管理主机名(转)
2014-02-10 14:22 7646I installed the Cloudera Mana ... -
cloudera manager tasktrakcer监控状态错误
2014-02-10 11:32 1302此文用作图片外链。cloudera网站坑爹呀! -
cloudera manager 4.8 添加设备DNS反向解析问题
2014-01-28 16:20 3769添加设备时agent会使用host命令反向解析获取clou ... -
apache kafka v0.8入门遇到问题
2014-01-23 12:20 1671官方文档:https://kafka.apache.org/ ... -
hadoop2.0(cdh4) fs client错误"java.io.IOException: No FileSystem for scheme: hdfe"
2013-12-31 12:32 10063启动dfs client时候报错:“java.io.IOE ... -
Hadoop Combiner的几个调用时间点
2013-12-20 08:37 2967Combiner是在Map端被执行,共有两个时机会被触 ... -
hadoop1.0中NameNode HA的妥协方案
2013-12-10 16:26 1529hadoop1.0没有HA,可以添加NFS做为metada ... -
hdaoop2.x (CDH4、5)下使用DFS Client(包含HA)
2013-12-09 16:42 3317一、不使用HA场景 1.1 获取FileSystem(下 ... -
Hadoop学习指南
2013-11-26 14:26 1395安装配置 CDH4(hadoop2.0) 端口 C ... -
cloudera cdh中hadoop-client包的作用
2013-11-22 22:12 4119hadoop-client是为了让开发者可以很方便的使用当前 ... -
could only be replicated to 0 nodes instead of minReplication (=1)
2013-11-18 17:02 13936一、出现这个错误,先看看DN是不是正常启动并与NN通信,使用 ... -
Hadoop Pig获取HDFS文件名
2013-11-15 08:37 3218A = LOAD 'input' using PigS ... -
cloudera CDH5正式版(与CDH4比较)
2013-11-04 22:14 2517要求JDK7以上,JDK6不被支持 基于a ... -
Pig写UDF解析XML遇到一诡异错误“ClassNotFoundException”
2013-10-16 10:11 1282UDF中使用apache digester做XML解析,代码 ...
相关推荐
含两个文件hive-jdbc-3.1.2-standalone.jar和apache-hive-3.1.2-bin.tar.gz 含两个文件hive-jdbc-3.1.2-standalone.jar和apache-hive-3.1.2-bin.tar.gz 含两个文件hive-jdbc-3.1.2-standalone.jar和apache-hive-...
apache-hive-2.1.1-bin.tar apache-hive-2.1.1-bin.tar apache-hive-2.1.1-bin.tarapache-hive-2.1.1-bin.tar apache-hive-2.1.1-bin.tar apache-hive-2.1.1-bin.tarapache-hive-2.1.1-bin.tar apache-hive-2.1.1-...
02、hive-exec-2.1.1-cdh6.3.1.jar 03、hive-jdbc-2.1.1-cdh6.3.1.jar 04、hive-jdbc-2.1.1-cdh6.3.1-standalone.jar 05、hive-metastore-2.1.1-cdh6.3.1.jar 06、hive-service-2.1.1-cdh6.3.1.jar 07、libfb303-...
使用kettle抽取hive中的数据时,遇到了取数结果乱码的问题。替换此包可以解决
hive-exec-2.1.1 是 Apache Hive 的一部分,特别是与 Hive 的执行引擎相关的组件。Apache Hive 是一个构建在 Hadoop 之上的数据仓库基础设施,它允许用户以 SQL(结构化查询语言)的形式查询和管理大型数据集。Hive ...
标题中的"**hive-jdbc-uber-2.6.5.0-292.jar**"是一个Uber(也称为Shaded)JAR文件,它集成了Hive JDBC驱动的所有依赖项。Uber JAR的目的是为了方便部署,因为它将所有必需的库合并到一个单一的文件中,避免了类路径...
hive-jdbc-1.2.1-standalone.jar hive-jdbc驱动jar包,欢迎下载
"hive-jdbc-jar-多版本.zip"是一个压缩包,包含了不同版本的Hive JDBC Uber Jars,覆盖了从1.5到1.8的多个Hive版本,适应不同的项目需求。 首先,我们要理解Uber JAR的概念。Uber JAR(也称为Shaded JAR)是一个...
Apache Hive(apache-hive-3.1.3-bin.tar.gz、apache-hive-3.1.3-src.tar.gz)是一种分布式容错数据仓库系统,支持大规模分析,并使用 SQL 促进读取、写入和管理驻留在分布式存储中的 PB 级数据。Hive 构建在 Apache...
hive-jdbc-3.1.2-standalone适用于linux
Missing Hive Execution Jar: /hive/hive1.2.1/lib/hive-exec-*.jar
hive-jdbc-2.1.1-cdh6.2.0(ieda等jdbc链接hive2.1.1);cdh6.2.0安装的hive2.1.1
3. `conf/`:默认的配置文件,如`hive-default.xml`和`hive-site.xml`,用户可以在此修改Hive的行为。 4. `scripts/`:包含Hive的一些初始化和管理脚本。 5. `metastore/`:元数据存储相关的库和脚本,Hive使用元...
hive-jdbc-2.1.0.jar
hive-exec-2.1.1-cdh6.3.1.jar
hive-jdbc-uber-2.6.5.0-292.jar DbVisualizer (as of version 9.5.5) Below is an example configuration using DbVisualizer: Open the Diver Manager dialog ("Tools" > "Driver Manager...") and hit the ...
Apache Hive(apache-hive-1.2.2-bin.tar.gz、apache-hive-1.2.2-src.tar.gz)是一种分布式容错数据仓库系统,支持大规模分析,并使用 SQL 促进读取、写入和管理驻留在分布式存储中的 PB 级数据。Hive 构建在 Apache...
hive-jdbc-2.1.0-standalone.jar
hive-exec-3.1.2 排除guava
hive-serde-1.1.0,mysql-connector-java-5.1.31.jar,hive-jdbc-standalone,atlas-plugin-classloader-1.2.0,hive-bridge-shim-1.2.0