- 浏览: 499426 次
- 性别:
- 来自: 广州
文章分类
- 全部博客 (502)
- Java (70)
- Linux (10)
- 数据库 (38)
- 网络 (10)
- WEB (13)
- JSP (4)
- 互联网 (71)
- JavaScript (30)
- Spring MVC (19)
- HTML (13)
- CSS (3)
- AngularJS (18)
- Redis (5)
- Bootstrap CSS (1)
- ZooKeeper (4)
- kafka (6)
- 服务器缓存 (4)
- Storm (1)
- MongoDB (9)
- Spring boot (16)
- log4j (2)
- maven (3)
- nginx (5)
- Tomcat (2)
- Eclipse (4)
- Swagger (2)
- Netty (5)
- Dubbo (1)
- Docker (7)
- Hadoop (12)
- OAuth (1)
- webSocket (4)
- 服务器性能 (7)
- Session共享 (1)
- tieye修改 (1)
- 工作 (1)
- 有用的语录 (0)
- https (2)
- common (5)
- 产品开发管理 (1)
- CDN 工作原理 (1)
- APNS、GCM (1)
- 架构图 (3)
- 功能实现分析 (1)
- JMX (1)
- 服务器相关操作命令 (1)
- img02 (0)
- 服务器环境搭建 (9)
- goodMenuBook (1)
- CEInstantPot (0)
- 有用数据 (1)
- 百度地图WEB API (2)
- 正则表达式 (1)
- 样式例子 (2)
- staticRecipePressureCooker.zip (1)
- jCanvas (1)
- 网站攻击方法原理 (1)
- 架构设计 (3)
- 物联网相关 (3)
- 研发管理 (7)
- 技术需求点 (1)
- 计划 (1)
- spring cloud (11)
- 服务器开发的一些实用工具和方法 (1)
- 每天学到的技术点 (4)
- Guava (1)
- ERP 技术注意要点 (2)
- 微信小程序 (1)
- FineRepor (1)
- 收藏夹 (1)
- temp (5)
- 服务架构 (4)
- 任职资格方案 (0)
- osno_test (1)
- jquery相关 (3)
- mybatis (4)
- ueditor (1)
- VueJS (7)
- python (10)
- Spring EL (1)
- shiro (1)
- 前端开发原理与使用 (7)
- YARN (1)
- Spark (1)
- Hbase (2)
- Pig (2)
- 机器学习 (30)
- matplotlib (1)
- OpenCV (17)
- Hystrix (1)
- 公司 (1)
- miniui (4)
- 前端功能实现 (3)
- 前端插件 (1)
- 钉钉开发 (2)
- Jenkins (1)
- elasticSearch使用 (2)
- 技术规范 (4)
- 技术实现原理 (0)
最新评论
hive 原理与安装
hive 是把类似SQL的语名变成相关的mapreduce任务进行计算得到结果,对于结构化数据,可以不用写mapreduce程序就可以进行大数统计分析.
hive 使用mysql、Derby作为hive元数据的存储
将数据文件放入hive建立的表目录中,hive就可以使用SQL语句进行查询了(
如:hadoop fs -put /home/hadoop/testFile/t_boy.data /user/hive/warehouse/test001.db/t_boy ,,其中t_boy是建立的一张hive表,在test001.db(数据库)中)
t_boy.data数据:
1 huang 18 32
2 yong 19 34
3 xing 20 36
4 ming 21 38
5 ling 25 40
//安装
https://blog.csdn.net/t1dmzks/article/details/72026876 (安装)
https://blog.csdn.net/just4you/article/details/79981202 (安装)
https://www.yiibai.com/hive/hive_installation.html (hive教程)
cd /home/hadoop/
tar -zxvf apache-hive-1.2.2-bin.tar.gz -C /home/hadoop/
设置环境变量
vim /etc/proflie
export HIVE_HOME=ome/hadoop/apache-hive-1.2.2-bin
export PATH=$PATH:$HIVE_HOME/bin
//配置
cd $HIVE_HOME/conf/
cp hive-default.xml.template hive-site.xml
cp hive-env.sh.template hive-env.sh
cp hive-exec-log4j.properties.template hive-exec-log4j.properties
cp hive-log4j.properties.template hive-log4j.properties
//hive-site.xml
<configuration>
<property>
<name>javax.jdo.option.ConnectionURL</name>
<!--mysql默认端口3306-->
<value>jdbc:mysql://ubuntuHadoop:3306/hive</value>
</property>
<property>
<name>javax.jdo.option.ConnectionDriverName</name>
<value>com.mysql.jdbc.Driver</value>
</property>
<property>
<name>javax.jdo.option.ConnectionUserName</name>
<!--创建的hive用户-->
<value>root</value>
</property>
<property>
<name>javax.jdo.option.ConnectionPassword</name>
<!--创建hive用户时设置的密码-->
<value>123456</value>
</property>
</configuration>
//运行
./hive
//出错就把
[ERROR] Terminal initialization failed; falling back to unsupported
java.lang.IncompatibleClassChangeError: Found class jline.Terminal, but interface was expected
//处理
/home/hadoop/hadoop-2.6.5/share/hadoop/yarn/jline-0.9.94.jar 删除,
放入放hive目录中的lib里的jlineXXXX.jar
//测试
show databases;
create database test001;
use test001;
在mysql中先设置字符集,否则会报message:For direct MetaStore DB connections, we don't support retries at the client level.
mysql> alter database hive character set latin1;
create table t_boy(id int,nmae string,age int,size string);
show tables;
create table t_boy(id int,nmae string,age int,size string)
row format delimited
fields terminated by "\t";
create table t_baby(id int,nmae string,age int,size string)
row format delimited
fields terminated by "\t";
hadoop fs -put /home/hadoop/testFile/t_boy.data /user/hive/warehouse/test001.db/t_boy
use test001;
select * from t_boy;
select * from t_boy where age<20;
select count(*) from t_boy; //时间会长一点,因为要启动mapREDUce进行计算
hive 是把类似SQL的语名变成相关的mapreduce任务进行计算得到结果,对于结构化数据,可以不用写mapreduce程序就可以进行大数统计分析.
hive 使用mysql、Derby作为hive元数据的存储
将数据文件放入hive建立的表目录中,hive就可以使用SQL语句进行查询了(
如:hadoop fs -put /home/hadoop/testFile/t_boy.data /user/hive/warehouse/test001.db/t_boy ,,其中t_boy是建立的一张hive表,在test001.db(数据库)中)
t_boy.data数据:
1 huang 18 32
2 yong 19 34
3 xing 20 36
4 ming 21 38
5 ling 25 40
//安装
https://blog.csdn.net/t1dmzks/article/details/72026876 (安装)
https://blog.csdn.net/just4you/article/details/79981202 (安装)
https://www.yiibai.com/hive/hive_installation.html (hive教程)
cd /home/hadoop/
tar -zxvf apache-hive-1.2.2-bin.tar.gz -C /home/hadoop/
设置环境变量
vim /etc/proflie
export HIVE_HOME=ome/hadoop/apache-hive-1.2.2-bin
export PATH=$PATH:$HIVE_HOME/bin
//配置
cd $HIVE_HOME/conf/
cp hive-default.xml.template hive-site.xml
cp hive-env.sh.template hive-env.sh
cp hive-exec-log4j.properties.template hive-exec-log4j.properties
cp hive-log4j.properties.template hive-log4j.properties
//hive-site.xml
<configuration>
<property>
<name>javax.jdo.option.ConnectionURL</name>
<!--mysql默认端口3306-->
<value>jdbc:mysql://ubuntuHadoop:3306/hive</value>
</property>
<property>
<name>javax.jdo.option.ConnectionDriverName</name>
<value>com.mysql.jdbc.Driver</value>
</property>
<property>
<name>javax.jdo.option.ConnectionUserName</name>
<!--创建的hive用户-->
<value>root</value>
</property>
<property>
<name>javax.jdo.option.ConnectionPassword</name>
<!--创建hive用户时设置的密码-->
<value>123456</value>
</property>
</configuration>
//运行
./hive
//出错就把
[ERROR] Terminal initialization failed; falling back to unsupported
java.lang.IncompatibleClassChangeError: Found class jline.Terminal, but interface was expected
//处理
/home/hadoop/hadoop-2.6.5/share/hadoop/yarn/jline-0.9.94.jar 删除,
放入放hive目录中的lib里的jlineXXXX.jar
//测试
show databases;
create database test001;
use test001;
在mysql中先设置字符集,否则会报message:For direct MetaStore DB connections, we don't support retries at the client level.
mysql> alter database hive character set latin1;
create table t_boy(id int,nmae string,age int,size string);
show tables;
create table t_boy(id int,nmae string,age int,size string)
row format delimited
fields terminated by "\t";
create table t_baby(id int,nmae string,age int,size string)
row format delimited
fields terminated by "\t";
hadoop fs -put /home/hadoop/testFile/t_boy.data /user/hive/warehouse/test001.db/t_boy
use test001;
select * from t_boy;
select * from t_boy where age<20;
select count(*) from t_boy; //时间会长一点,因为要启动mapREDUce进行计算
发表评论
-
大数据相关安装和测试
2019-08-05 22:32 335大数据相关安装和测试 -
hadoop MR运行原理
2018-08-25 11:36 841hadoop MR运行原理 http://s5.51cto. ... -
迭代计算原理
2018-08-21 17:48 1257迭代计算原理 把上一步的计算结果代入这一步的运算中去。。 ... -
ssh原理和使用
2018-08-10 21:10 657SSH 远程登陆原理: 使用密码登录,每次都必须输入密码 ... -
hadoop 集群运行的原理与使用
2018-08-09 16:43 849hadoop 集群运行的原理与使用 就是在每台服务器上分别 ... -
hadoop安装
2018-08-08 21:30 345//----------------------------- ... -
spark基础知识
2018-07-25 16:28 244spark基础知识 Apache Spark是一个围绕速度、 ... -
Hadoop应用基础知识
2018-07-25 15:57 468hadoop (1)Hadoop是一个开源 ... -
Hadoop 与 JStrom 的应用场景和区别
2016-11-25 14:19 448Hadoop 与 JStrom 的应用场 ... -
Hadoop MapReduce框架详解
2016-11-25 14:19 473Hadoop MapReduce框架详解 ... -
HDFS的运行原理
2016-09-10 16:16 442HDFS的运行原理 简介 HDF ...
相关推荐
### Hive原理与实现 #### 一、Hive的概述与意义 Hive 是一个构建于 Hadoop 之上的数据仓库工具,它提供了类 SQL 的查询语言(HQL),使得用户可以方便地处理存储在 Hadoop 分布式文件系统(HDFS)中的大规模数据集...
【大数据技术基础实验报告-Hive安装配置与应用】 在大数据处理领域,Apache Hive是一个非常重要的组件,它提供了基于Hadoop的数据仓库工具,用于数据查询、分析以及存储。本实验报告将详细阐述如何安装、配置Hive,...
用于Hive原理与技术开发的数据集
Hive的核心原理是将HiveQL查询语句转换为一个或多个MapReduce作业来执行。Hive处理的数据存储在Hadoop的分布式文件系统(HDFS)中,分析数据时底层实现依赖于MapReduce,而执行程序则在YARN(Yet Another Resource ...
### Hive原理介绍 #### Hive概述 Hive是一个构建在Hadoop之上的数据仓库工具,它主要解决了Hadoop中数据管理的复杂性问题。通过将结构化的数据文件映射为一张数据库表,Hive提供了SQL查询的功能,使得数据分析人员...
这里详细的介绍了hive的原理,形象的分析了hive的原理,流程
大数据存储与处理技术hadoop 基于hive数据仓库原理与实战 hive架构及安装使用 共11页.pptx
8. **与其他Hadoop组件集成**:Hive可以很好地与Hadoop生态系统中的其他组件,如Pig、Spark、Impala等集成,提供更丰富的数据分析能力。 在实际应用中,可能还需要考虑高可用性、性能优化、安全性等问题。例如,为...
大数据存储与处理技术hadoop 基于hive数据仓库原理与实战 Hive的安装和使用 共4页.pdf
### 大规模数据查询Hive及Impala技术原理及架构 #### 第一部分:Hive数据查询分析技术和实例介绍 **一、Hive简介** Hive 是一个基于 Hadoop 的数据仓库工具,它允许用户轻松地将结构化数据文件映射为表,并利用 ...
学习掌握hive原理及查询优化的必备之书学习掌握hive原理及查询优化的必备之书
用于Hive原理与技术开发的数据集
HiveSQL编译原理是大数据处理领域中的一个重要概念,它主要涉及到如何将用户提交的SQL语句转换为可执行的MapReduce或者Tez任务。在Hadoop生态系统中,Hive作为一个基于HDFS的数据仓库工具,提供了对大规模数据集进行...
在《大数据hive实现原理.pdf》和《hive底层就是mapreduce.txt》中,你将找到更多关于Hive如何利用MapReduce执行查询和更新数据的细节,包括数据的分区策略、优化技巧以及Hive与Hadoop生态系统的交互等内容。...
Hive作为一个大数据处理工具,广泛应用于数据仓库和分析领域。其优化和执行原理是提高查询效率的关键,以下将深入探讨这两个方面。...同时,随着Hive与其他计算框架如Spark的融合,其执行效率和灵活性也在不断提升。
### Hive实现原理详解 #### 一、Hive简介与应用场景 Hive 是一款基于 Hadoop 的数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供类 SQL 查询功能,使 MapReduce 编程更加简单,更具通用性。Hive ...
本篇将深入探讨Hive的优化策略及其执行原理。 一、Hive 优化策略 1. **表分区**:分区是Hive优化的基础,通过将大表划分为小的逻辑部分,可以显著提高查询速度。合理的分区策略应基于查询中常用的过滤条件,例如...
【Hive安装详解】 Hive是Apache软件基金会的一个开源项目,它提供了一个基于Hadoop的数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供SQL查询功能,使得用户可以通过类SQL的方式进行大数据处理。...
Hive查询表分区的MR原理启动详解 Hive是一款基于Hadoop的数据仓库工具,主要用于处理结构化和半结构化的数据。MR(MapReduce)是Hadoop中的一种编程模型,用于处理大规模数据。在Hive中,MR原理启动是指使用...