vim /etc/profile
--------------------------------------------------
HIVE_HOME=/ddhome/bin/hive
HIVE_CONF_DIR=$HIVE_HOME/conf
PATH=$PATH:$HIVE_HOME/bin
source /etc/profile
#进入目录
cd $HIVE_CONF_DIR
#拷贝hive-default.xml.template并重命名为hive-site.xml
cp hive-default.xml.template hive-site.xml
#编辑hive-site.xml
vim hive-site.xml
vim $HIVE_CONF_DIR/hive-site.xml
<name>hive.metastore.warehouse.dir</name>
<value>/ddhome/bin/hive/warehouse</value>
<name>hive.exec.scratchdir</name>
<value>/ddhome/bin/hive/tmp</value>
<property>
<name>hive.downloaded.resources.dir</name>
<!--value>${system:java.io.tmpdir}/${hive.session.id}_resources</value-->
<value>/ddhome/bin/hive/tmp/${hive.session.id}_resources</value>
<description>Temporary local directory for added resources in the remote file system.</description>
</property>
<property>
<name>hive.server2.logging.operation.log.location</name>
<value>/ddhome/bin/hive/tmp/root/operation_logs</value>
<description>Top level directory where operation logs are stored if logging functionality is enabled</description>
</property>
<property>
<name>hive.exec.local.scratchdir</name>
<value>/ddhome/bin/hive/tmp/${user.name}</value>
<description>Local scratch space for Hive jobs</description>
</property
<property>
<name>hive.querylog.location</name>
<value>/ddhome/bin/hive/tmp/${user.name}</value>
<description>Location of Hive run time structured log file</description>
</property>
3.1.4.修改hive-site.xml数据库相关的配置
3.1.4.1. javax.jdo.option.ConnectionDriverName,将该name对应的value修改为MySQL驱动类路径:
<property
<name>javax.jdo.option.ConnectionDriverName</name
<value>com.mysql.jdbc.Driver</value>
</property>
3.1.4.2. javax.jdo.option.ConnectionURL,将该name对应的value修改为MySQL的地址:
<name>javax.jdo.option.ConnectionURL</name>
<value>jdbc:mysql://192.168.55.91:3306/hive?createDatabaseIfNotExist=true&useSSL=false</value>
3.1.4.3.javax.jdo.option.ConnectionUserName,将对应的value修改为MySQL数据库登录名:
<name>javax.jdo.option.ConnectionUserName</name>
<value>root</value>
3.1.4.4.javax.jdo.option.ConnectionPassword,将对应的value修改为MySQL数据库的登录密码:
<name>javax.jdo.option.ConnectionPassword</name><value>dd@2018</value>
3.1.4.5.将MySQL驱动包上载到Hive的lib目录下
scp mysql-connector-java-5.1.36.jar $HIVE_HOME/lib/
3.2.新建hive-env.sh文件并进行修改
cd $HIVE_CONF_DIR
cp hive-env.sh.template hive-env.sh #基于模板创建hive-env.sh
vim hive-env.sh #编辑配置文件并加入以下配置:
-------------------------------------------------
export HADOOP_HOME=/ddhome/bin/hadoop
export HIVE_CONF_DIR=/ddhome/bin/hive/conf
export HIVE_AUX_JARS_PATH=/ddhome/bin/hive/lib
--------------------------------------------------
4.启动和测试
有关安装与配置MySQL数据库请参考文章:CentOS7.0安装配置MySQL5.7
4.1.对MySQL数据库初始化
#进入到hive的bin目录
cd $HIVE_HOME/bin
#对数据库进行初始化
schematool -initSchema -dbType mysql
执行成功后,在mysql的hive数据库里已生成metadata数据表:
cd $HADOOP_HOME/bin/ #进入Hadoop主目录
hadoop fs -mkdir -p /ddhome/bin/hive/warehouse #创建目录
hadoop fs -chmod -R 777 /ddhome/bin/hive/warehouse #新建的目录赋予读写权限
hadoop fs -mkdir -p /ddhome/bin/hive/#新建/ddhome/bin/hive/目录
hadoop fs -chmod -R 777 /ddhome/bin/hive #目录赋予读写权限
#用以下命令检查目录是否创建成功
hadoop fs -ls /ddhome/bin/hive
hadoop fs -ls /ddhome/bin/hive/tmp
cd $HIVE_HOME
mkdir tmp
chmod -R 777 tmp/
CREATE TABLE IF NOT EXISTS `huayun.task` (
`id` INT COMMENT '任务扩展子表ID',
`pid` INT COMMENT '任务ID',
`car_series` INT COMMENT '车系ID',
`series_name` STRING COMMENT '车系名称',
`purchase_amount` INT COMMENT '购买数量',
`price` DOUBLE COMMENT '最新投放单价',
`published_price` DOUBLE COMMENT '刊例价',
`state` TINYINT COMMENT '状态 0正常 2删除',
`create_time` STRING COMMENT '创建时间',
`edit_time` STRING COMMENT '修改时间',
`snap_time` STRING COMMENT '快照时间'
)
COMMENT '任务子表天快照表'
PARTITIONED BY (`dt` STRING)
ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t' STORED AS TEXTFILE ;
CREATE TABLE IF NOT EXISTS huayun.employee (id int, name String,
salary String, destination String)
COMMENT 'Employee details'
ROW FORMAT DELIMITED
FIELDS TERMINATED BY ';'
LINES TERMINATED BY '\n'
STORED AS TEXTFILE ;
LOAD DATA [LOCAL] INPATH 'filepath' [OVERWRITE] INTO TABLE tablename
[PARTITION (partcol1=val1, partcol2=val2 ...)]
/ddhome/tmp/employee.txt
1201;Gopal;45000;Technical manager
1202;Manisha;45000;Proof reader
1203;Masthanvali;40000;Technical writer
1204;Kiran;40000;Hr Admin
1205;Kranthi;30000;Op Admin
LOAD DATA LOCAL INPATH '/ddhome/tmp/employees.txt' OVERWRITE INTO TABLE employees;
yum install -y gcc libxml2-devel libxslt-devel cyrus-sasl-devel python-devel python-setuptools python-simplejson sqlite-devel ant gmp-devel cyrus-sasl-plain cyrus-sasl-devel cyrus-sasl-gssapi libffi-devel openldap-devel
安装
构建
http://cloudera.github.io/hue/docs-4.0.0/manual.html#_install_hue
http://gethue.com/
通过如下命令来指定HUE的安装路径
$ PREFIX=/usr/share make install
$ cd /usr/share/hue
如果想把HUE从一个地方移动到另外一个地方,由于HUE使用了Python包的一些绝对路径,移动之后则必须执行以下命令
$ rm app.reg
$ rm -r build
$ make apps
配置
Hadoop的配置文件
位于/etc/hadoop/conf
hdfs-site.xml
<property>
<name> dfs.webhdfs.enabled </ name>
<value> true </ value>
</ property>
core-site.xml
<property>
<name>hadoop.proxyuser.hue.hosts</name>
<value>*</value>
</property>
<property>
<name>hadoop.proxyuser.hue.groups</name>
<value>*</value>
</property>
httpfs-site.xml
<property>
<name>httpfs.proxyuser.hue.hosts</name>
<value>*</value>
</property>
<property>
<name>httpfs.proxyuser.hue.groups</name>
<value>*</value>
</property>
HUE配置
查看所有可用的配置选项
$ cd build/env/bin
$ ./hue config_help | less
进入HUE配置目录
$ cd hue/desktop/conf
复制一份HUE的配置文件并修改复制的配置文件
$ cp pseudo-distributed.ini.tmpl pseudo-distributed.ini
$ vi pseudo-distributed.ini
在第42行左右.将时区修改一下
time_zone=Asia/Shanghai
密钥
secret_key=jFE93j;2[290-eiw.KEiwN2s3['d;/.q[eIW^y#e=+Iei*@Mn<qW #30-60个字符
Hadoop配置文件的路径
HADOOP_CONF_DIR=/ddhome/bin/hadoop/etc/hadoop
在[beeswax]配置文件的部分,可以指定以下内容:
beeswax_server_host
Hive服务器应绑定到的主机名或IP。默认情况下,它绑定到localhost,因此仅为本地IPC客户端提供服务。
hive_home_dir
Hive安装的基本目录。
hive_conf_dir
hive配置文件的路径
server_user=hadoop
server_group=hadoop
default_user=hadoop
default_hdfs_superuser=hadoop
由于我的用户是hadoop 所以这里是hadoop各位按照自己的情况填写
[librdbms]
可以设置关系型数据库的的一些信息
启动
输入如下命令启动HUE
~/hue/build/env/bin/supervisor start
启动一个broser,HUE默认的端口号为8000
localhost:8000
分享到:
相关推荐
在大数据处理领域,Hive是一个非常重要的工具,它提供了一个基于Hadoop的数据仓库基础设施,用于数据查询、分析和管理大规模数据集。本教程将详细讲解如何在Linux环境下安装Hive客户端,以便进行数据操作和分析。 ...
在大数据处理领域,Apache Hive是一个基于Hadoop的数据仓库工具,它允许用户使用SQL(HQL,Hive Query Language)查询存储在Hadoop集群中的大型数据集。Hive JDBC(Java Database Connectivity)是Hive提供的一种...
"HIVE安装及详解" HIVE是一种基于Hadoop的数据仓库工具,主要用于处理和分析大规模数据。下面是关于HIVE的安装及详解。 HIVE基本概念 HIVE是什么?HIVE是一种数据仓库工具,主要用于处理和分析大规模数据。它将...
使用hive3.1.2和spark3.0.0配置hive on spark的时候,发现官方下载的hive3.1.2和spark3.0.0不兼容,hive3.1.2对应的版本是spark2.3.0,而spark3.0.0对应的hadoop版本是hadoop2.6或hadoop2.7。 所以,如果想要使用高...
在大数据处理领域,Hive是一个基于Hadoop的数据仓库工具,它允许用户使用SQL(HQL,Hive Query Language)查询和管理存储在Hadoop分布式文件系统(HDFS)中的大量结构化数据。Hive 1.1.0是Hive的一个版本,提供了...
在大数据处理领域,Hive是一个基于Hadoop的数据仓库工具,它可以将结构化的数据文件映射为一张数据库表,并提供SQL查询功能,使得用户可以使用SQL语句来处理存储在Hadoop分布式文件系统(HDFS)上的大数据。...
《Hive数据仓库案例教程》教学课件 第5章 Hive数据操作.pdf《Hive数据仓库案例教程》教学课件 第5章 Hive数据操作.pdf《Hive数据仓库案例教程》教学课件 第5章 Hive数据操作.pdf《Hive数据仓库案例教程》教学课件 第...
Apache Hive 是一个基于 Hadoop 的数据仓库工具,用于组织、查询和分析大量数据。它提供了一个SQL-like(HQL,Hive SQL)接口,使得非专业程序员也能方便地处理存储在Hadoop分布式文件系统(HDFS)中的大规模数据集...
《DBeaver与Hive连接:hive-jdbc-uber-2.6.5.0-292.jar驱动详解》 在大数据处理领域,Hive作为一个基于Hadoop的数据仓库工具,广泛用于数据查询和分析。而DBeaver,作为一款跨平台的数据库管理工具,以其用户友好的...
### Hive用户指南中文版知识点概览 #### 一、Hive结构 **1.1 Hive架构** Hive架构主要包括以下几个核心组成部分: - **用户接口**:主要包括命令行界面(CLI)、客户端(Client)以及Web用户界面(WUI)。其中,...
hive-exec-2.1.1 是 Apache Hive 的一部分,特别是与 Hive 的执行引擎相关的组件。Apache Hive 是一个构建在 Hadoop 之上的数据仓库基础设施,它允许用户以 SQL(结构化查询语言)的形式查询和管理大型数据集。Hive ...
Hive是一个基于Hadoop的数据仓库工具,它本身并不存储数据,部署在Hadoop集群上,数据是存储在HDFS上的. Hive所建的表在HDFS上对应的是一个文件夹,表的内容对应的是一个文件。它不仅可以存储大量的数据而且可以对...
在Python中编写Hive脚本主要是为了方便地与Hadoop HIVE数据仓库进行交互,这样可以在数据分析和机器学习流程中无缝地集成大数据处理步骤。以下将详细介绍如何在Python环境中执行Hive查询和管理Hive脚本。 1. **直接...
在大数据处理领域,Hive是一个基于Hadoop的数据仓库工具,它允许用户使用SQL(HQL,Hive Query Language)查询和管理存储在Hadoop分布式文件系统(HDFS)中的大量数据。Hive提供了数据整合、元数据管理、查询和分析...
在大数据处理领域,Apache Hive 是一个非常重要的工具,它提供了一个SQL-like的接口来查询、管理和分析存储在分布式存储系统(如Hadoop)中的大规模数据集。本篇将重点讲解如何利用Hive对Protobuf序列化的文件进行...
含两个文件hive-jdbc-3.1.2-standalone.jar和apache-hive-3.1.2-bin.tar.gz 含两个文件hive-jdbc-3.1.2-standalone.jar和apache-hive-3.1.2-bin.tar.gz 含两个文件hive-jdbc-3.1.2-standalone.jar和apache-hive-...
在大数据领域,Apache Ambari 是一个用于 Hadoop 集群管理和监控的开源工具,而 Hive 是一个基于 Hadoop 的数据仓库系统,用于处理和分析大规模数据集。本话题聚焦于如何在 Ambari 环境下将 Hive 3.0 升级到 Hive ...
Hive 优化方法整理 Hive 优化方法整理是 Hive 数据处理过程中的重要步骤,涉及到 Hive 的类 SQL 语句本身进行调优、参数调优、Hadoop 的 HDFS 参数调优和 Map/Reduce 调优等多个方面。 Hive 类 SQL 语句优化 1. ...
【Hive原理】 Hive是基于Hadoop平台的数据仓库解决方案,它主要解决了在大数据场景下,业务人员和数据科学家能够通过熟悉的SQL语言进行数据分析的问题。Hive并不存储数据,而是依赖于HDFS进行数据存储,并利用...