- 浏览: 2188633 次
- 性别:
- 来自: 北京
文章分类
- 全部博客 (682)
- 软件思想 (7)
- Lucene(修真篇) (17)
- Lucene(仙界篇) (20)
- Lucene(神界篇) (11)
- Solr (48)
- Hadoop (77)
- Spark (38)
- Hbase (26)
- Hive (19)
- Pig (25)
- ELK (64)
- Zookeeper (12)
- JAVA (119)
- Linux (59)
- 多线程 (8)
- Nutch (5)
- JAVA EE (21)
- Oracle (7)
- Python (32)
- Xml (5)
- Gson (1)
- Cygwin (1)
- JavaScript (4)
- MySQL (9)
- Lucene/Solr(转) (5)
- 缓存 (2)
- Github/Git (1)
- 开源爬虫 (1)
- Hadoop运维 (7)
- shell命令 (9)
- 生活感悟 (42)
- shell编程 (23)
- Scala (11)
- MongoDB (3)
- docker (2)
- Nodejs (3)
- Neo4j (5)
- storm (3)
- opencv (1)
最新评论
-
qindongliang1922:
粟谷_sugu 写道不太理解“分词字段存储docvalue是没 ...
浅谈Lucene中的DocValues -
粟谷_sugu:
不太理解“分词字段存储docvalue是没有意义的”,这句话, ...
浅谈Lucene中的DocValues -
yin_bp:
高性能elasticsearch ORM开发库使用文档http ...
为什么说Elasticsearch搜索是近实时的? -
hackWang:
请问博主,有用solr做电商的搜索项目?
Solr中Group和Facet的用法 -
章司nana:
遇到的问题同楼上 为什么会返回null
Lucene4.3开发之第八步之渡劫初期(八)
本次散仙安装的Hive是Hive最新版本中的稳定版本,是基于Hadoop2.2.0,以前有写过,如何在hadoop1.x下面安装Hive0.8,本次Hive的版本是Hive0.13,可以直接在Hive官网上下载二进制包,无须进行源码编译。Hive需要依赖底层的Hadoop环境,所以在安装Hive前,请确保你的hadoop集群环境已经可以正常工作。
Hive0.13稳定版本的下载地址
http://apache.fayea.com/apache-mirror/hive/stable/
关于Hadoop2.2.0分布式集群的搭建
http://qindongliang1922.iteye.com/blog/2078423
MySQL的安装
http://qindongliang1922.iteye.com/blog/1987199
下载具体看下安装的步骤和过程:
首先,先执行如下4个命令,把Hive自带的模板文件,变为Hive实际所需的文件:
cp hive-default.xml.template hive-site.xml
cp hive-env.sh.template hive-env.sh
cp hive-exec-log4j.properties.template hive-exec-log4j.properties
cp hive-log4j.properties.template hive-log4j.properties
Hive环境变量的设置:
下面是Hive-env.sh里面的内容:
hive-site.xml里面的配置如下:
在HDFS上,新建hive的数据存储目录,以及MapReduce执行过程,生成的临时文件目录,执行命令如下,并赋值权限:
启动hive:
执行命令:bin/hive,启动信息如下:
执行,建表命令,并导入数据:
建表:
create table mytt (name string ,count int) row format delimited fields terminated by '#' stored as textfile ;
导入数据:
LOAD DATA LOCAL INPATH '/home/search/abc1.txt' OVERWRITE INTO TABLE info;
执行查询命令,并降序输出:
hive shell一些交互式命令的使用方法:
以debug模式启动: hive -hiveconf hive.root.logger=DEBUG,console
至此,我们的Hive,已经安装成功,并可以正常运行。
Hive0.13稳定版本的下载地址
http://apache.fayea.com/apache-mirror/hive/stable/
关于Hadoop2.2.0分布式集群的搭建
http://qindongliang1922.iteye.com/blog/2078423
MySQL的安装
http://qindongliang1922.iteye.com/blog/1987199
下载具体看下安装的步骤和过程:
1 | 序号 | 描述 |
2 | Hadoop2.2.0集群的搭建 | 底层依赖环境 |
3 | 下载Hive0.13的bin包,并解压 | Hive包 |
4 | 配置HIVE_HOME环境变量 | 环境变量所需 |
5 | 配置hive-env.sh | 涉及hadoop的目录,和hive的conf目录 |
6 | 配置hive-site.xml | 配置hive属性和集成MySQL存储元数据 |
7 | 启动bin/hive服务 | 测试启动hive |
8 | 建库,建表,测试hive | 测试hive是否正常工作 |
9 | 退出Hive客户端 | 执行命令exit |
10 | 工程师一枚 | 开工 |
11 | 拷贝mysql的jdbc包到hive的lib目录下 | 元数据存储为MySQL |
12 | hadoop技术交流群 | 376932160 |
首先,先执行如下4个命令,把Hive自带的模板文件,变为Hive实际所需的文件:
cp hive-default.xml.template hive-site.xml
cp hive-env.sh.template hive-env.sh
cp hive-exec-log4j.properties.template hive-exec-log4j.properties
cp hive-log4j.properties.template hive-log4j.properties
Hive环境变量的设置:
export PATH=.:$PATH <!-- JDK环境 --> export JAVA_HOME="/usr/local/jdk" export CLASSPATH=.:$CLASSPATH:$JAVA_HOME/lib:$JAVA_HOME/jre/lib export PATH=$PATH:$JAVA_HOME/bin <!-- Hadoop环境 --> export HADOOP_HOME=/home/search/hadoop export HADOOP_CONF_DIR=$HADOOP_HOME/etc/hadoop/ export CLASSPATH=.:$CLASSPATH:$HADOOP_HOME/lib export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin <!-- Ant环境 --> export ANT_HOME=/usr/local/ant export CLASSPATH=$CLASSPATH:$ANT_HOME/lib export PATH=$PATH:$ANT_HOME/bin <!-- Maven环境 --> export MAVEN_HOME="/usr/local/maven" export CLASSPATH=$CLASSPATH:$MAVEN_HOME/lib export PATH=$PATH:$MAVEN_HOME/bin <!-- Hive环境 --> export HIVE_HOME=/home/search/hive export CLASSPATH=$CLASSPATH:$HIVE_HOME/lib export PATH=$PATH:$HIVE_HOME/bin:$HIVE_HOME/conf
下面是Hive-env.sh里面的内容:
# Licensed to the Apache Software Foundation (ASF) under one # or more contributor license agreements. See the NOTICE file # distributed with this work for additional information # regarding copyright ownership. The ASF licenses this file # to you under the Apache License, Version 2.0 (the # "License"); you may not use this file except in compliance # with the License. You may obtain a copy of the License at # # http://www.apache.org/licenses/LICENSE-2.0 # # Unless required by applicable law or agreed to in writing, software # distributed under the License is distributed on an "AS IS" BASIS, # WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied. # See the License for the specific language governing permissions and # limitations under the License. # Set Hive and Hadoop environment variables here. These variables can be used # to control the execution of Hive. It should be used by admins to configure # the Hive installation (so that users do not have to set environment variables # or set command line parameters to get correct behavior). # # The hive service being invoked (CLI/HWI etc.) is available via the environment # variable SERVICE # Hive Client memory usage can be an issue if a large number of clients # are running at the same time. The flags below have been useful in # reducing memory usage: # # if [ "$SERVICE" = "cli" ]; then # if [ -z "$DEBUG" ]; then # export HADOOP_OPTS="$HADOOP_OPTS -XX:NewRatio=12 -Xms10m -XX:MaxHeapFreeRatio=40 -XX:MinHeapFreeRatio=15 -XX:+UseParNewGC -XX:-UseGCOverheadLimit" # else # export HADOOP_OPTS="$HADOOP_OPTS -XX:NewRatio=12 -Xms10m -XX:MaxHeapFreeRatio=40 -XX:MinHeapFreeRatio=15 -XX:-UseGCOverheadLimit" # fi # fi # The heap size of the jvm stared by hive shell script can be controlled via: # # export HADOOP_HEAPSIZE=1024 # # Larger heap size may be required when running queries over large number of files or partitions. # By default hive shell scripts use a heap size of 256 (MB). Larger heap size would also be # appropriate for hive server (hwi etc). # Set HADOOP_HOME to point to a specific hadoop install directory HADOOP_HOME=/home/search/hadoop # Hive Configuration Directory can be controlled by: export HIVE_CONF_DIR=/home/search/hive/conf # Folder containing extra ibraries required for hive compilation/execution can be controlled by: # export HIVE_AUX_JARS_PATH=
hive-site.xml里面的配置如下:
<configuration> <property> <!-- MySQ的URL配置 --> <name>javax.jdo.option.ConnectionURL</name> <value>jdbc:mysql://localhost:3306/hive?createDatabaseIfNotExist=true</value> </property> <!-- 数据库的用户名配置--> <property> <name>javax.jdo.option.ConnectionUserName</name> <value>root</value> </property> <!-- 此处JDBC的驱动务必加上,对应的数据配置对应的驱动--> <property> <name>javax.jdo.option.ConnectionDriverName</name> <value>com.mysql.jdbc.Driver</value> <description>Driver class name for a JDBC metastore</description> </property> <!-- 数据库密码配置--> <property> <name>javax.jdo.option.ConnectionPassword</name> <value>qin</value> </property> <!-- HDFS路径hive表的存放位置--> <property> <name>hive.metastore.warehouse.dir</name> <value>hdfs://h1:9000//user/hive/warehouse</value> </property> <!--HDFS路径,用于存储不同 map/reduce 阶段的执行计划和这些阶段的中间输出结果。 --> <property> <name>hive.exec.scratchdir</name> <value>/tmp</value> </property> <property> <name>mapred.child.java.opts</name> <value>-Xmx4096m</value> </property> <!-- 日志的记录位置--> <property> <name>hive.querylog.location</name> <value>/home/search/hive/logs</value> </property> <property> <name>hive.metastore.local</name> <value>true</value> </property> </configuration>
在HDFS上,新建hive的数据存储目录,以及MapReduce执行过程,生成的临时文件目录,执行命令如下,并赋值权限:
hadoop fs -mkidr /tmp hadoop fs -mkidr /user/hive/warehouse hadoop fs -chmod g+w /tmp hadoop fs -chmod g+w /user/hive/warehouse
启动hive:
执行命令:bin/hive,启动信息如下:
[search@h1 hive]$ bin/hive 14/07/30 04:18:08 INFO Configuration.deprecation: mapred.reduce.tasks is deprecated. Instead, use mapreduce.job.reduces 14/07/30 04:18:08 INFO Configuration.deprecation: mapred.min.split.size is deprecated. Instead, use mapreduce.input.fileinputformat.split.minsize 14/07/30 04:18:08 INFO Configuration.deprecation: mapred.reduce.tasks.speculative.execution is deprecated. Instead, use mapreduce.reduce.speculative 14/07/30 04:18:08 INFO Configuration.deprecation: mapred.min.split.size.per.node is deprecated. Instead, use mapreduce.input.fileinputformat.split.minsize.per.node 14/07/30 04:18:08 INFO Configuration.deprecation: mapred.input.dir.recursive is deprecated. Instead, use mapreduce.input.fileinputformat.input.dir.recursive 14/07/30 04:18:08 INFO Configuration.deprecation: mapred.min.split.size.per.rack is deprecated. Instead, use mapreduce.input.fileinputformat.split.minsize.per.rack 14/07/30 04:18:08 INFO Configuration.deprecation: mapred.max.split.size is deprecated. Instead, use mapreduce.input.fileinputformat.split.maxsize 14/07/30 04:18:08 INFO Configuration.deprecation: mapred.committer.job.setup.cleanup.needed is deprecated. Instead, use mapreduce.job.committer.setup.cleanup.needed 14/07/30 04:18:09 WARN conf.HiveConf: DEPRECATED: Configuration property hive.metastore.local no longer has any effect. Make sure to provide a valid value for hive.metastore.uris if you are connecting to a remote metastore. Logging initialized using configuration in file:/home/search/hive/conf/hive-log4j.properties hive>
执行,建表命令,并导入数据:
建表:
create table mytt (name string ,count int) row format delimited fields terminated by '#' stored as textfile ;
导入数据:
LOAD DATA LOCAL INPATH '/home/search/abc1.txt' OVERWRITE INTO TABLE info;
执行查询命令,并降序输出:
Time taken: 0.837 seconds, Fetched: 5 row(s) hive> select * from info limit 5 order by count desc; FAILED: ParseException line 1:27 missing EOF at 'order' near '5' hive> select * from info order by count desc limit 5 ; Total jobs = 1 Launching Job 1 out of 1 Number of reduce tasks determined at compile time: 1 In order to change the average load for a reducer (in bytes): set hive.exec.reducers.bytes.per.reducer=<number> In order to limit the maximum number of reducers: set hive.exec.reducers.max=<number> In order to set a constant number of reducers: set mapreduce.job.reduces=<number> Starting Job = job_1406660797211_0003, Tracking URL = http://h1:8088/proxy/application_1406660797211_0003/ Kill Command = /home/search/hadoop/bin/hadoop job -kill job_1406660797211_0003 Hadoop job information for Stage-1: number of mappers: 1; number of reducers: 1 2014-07-30 04:26:13,538 Stage-1 map = 0%, reduce = 0% 2014-07-30 04:26:26,398 Stage-1 map = 67%, reduce = 0%, Cumulative CPU 5.41 sec 2014-07-30 04:26:27,461 Stage-1 map = 100%, reduce = 0%, Cumulative CPU 6.64 sec 2014-07-30 04:26:39,177 Stage-1 map = 100%, reduce = 100%, Cumulative CPU 10.02 sec MapReduce Total cumulative CPU time: 10 seconds 20 msec Ended Job = job_1406660797211_0003 MapReduce Jobs Launched: Job 0: Map: 1 Reduce: 1 Cumulative CPU: 10.02 sec HDFS Read: 143906707 HDFS Write: 85 SUCCESS Total MapReduce CPU Time Spent: 10 seconds 20 msec OK 英的国 999999 中的国 999997 美的国 999996 中的国 999993 英的国 999992 Time taken: 37.892 seconds, Fetched: 5 row(s) hive>
hive shell一些交互式命令的使用方法:
quit,exit: 退出交互式shell reset: 重置配置为默认值 set <key>=<value> : 修改特定变量的值(如果变量名拼写错误,不会报错) set : 输出用户覆盖的hive配置变量 set -v : 输出所有Hadoop和Hive的配置变量 add FILE[S] *, add JAR[S] *, add ARCHIVE[S] * : 添加 一个或多个 file, jar, archives到分布式缓存 list FILE[S], list JAR[S], list ARCHIVE[S] : 输出已经添加到分布式缓存的资源。 list FILE[S] *, list JAR[S] *,list ARCHIVE[S] * : 检查给定的资源是否添加到分布式缓存 delete FILE[S] *,delete JAR[S] *,delete ARCHIVE[S] * : 从分布式缓存删除指定的资源 ! <command> : 从Hive shell执行一个shell命令 dfs <dfs command> : 从Hive shell执行一个dfs命令 <query string> : 执行一个Hive 查询,然后输出结果到标准输出 source FILE <filepath>: 在CLI里执行一个hive脚本文件
以debug模式启动: hive -hiveconf hive.root.logger=DEBUG,console
至此,我们的Hive,已经安装成功,并可以正常运行。
发表评论
-
理解数据仓库中星型模型和雪花模型
2017-07-06 17:29 4417在数据仓库的建设中, ... -
spark sql on hive笔记一
2016-12-09 20:42 2271Spark sql on Hive非常方便,通过共享读取hiv ... -
Hive2.1.0集成Tez
2016-11-21 19:39 1361#### Tez是什么? Tez是Hontonworks ... -
Apache Hive2.1.0安装笔记
2016-11-16 18:51 1232Hive2.x已经足够稳定了,前面也安装过hive0.x和H ... -
Hue+Hive临时目录权限不够解决方案
2016-06-14 10:40 4725安装Hue后,可能会分配多个账户给一些业务部门操作hive,虽 ... -
hive自定义udf实现md5功能
2016-05-25 11:54 5047Hive自定义UDF实现md5算法 Hive发展至今,自身已 ... -
开源大数据索引项目hive-solr
2016-05-06 16:15 1983github地址:https://github.com/qi ... -
如何使用Hive集成Solr?
2016-03-17 15:05 2855(一)Hive+Solr简介 Hive ... -
Hive使用ORC格式存储离线表
2016-02-14 18:09 4315在大数据时代,列式存 ... -
Spark SQL+Hive历险记
2016-01-21 11:40 6137基础依赖环境 Apache Hadoop2.7.1 Apa ... -
Hive集成Tez让大象飞起来
2016-01-15 16:52 3170基础环境 Apache Hadoop2.7.1 Cen ... -
Apache Tez0.7编译笔记
2016-01-15 16:33 2536目前最新的Tez版本是0.8,但还不是稳定版,所以大家还 ... -
Bug死磕之hue集成的oozie+pig出现资源任务死锁问题
2016-01-14 15:52 3844这两天,打算给现有的 ... -
hadoop2.2生态系统快速安装脚本
2014-09-23 15:08 1989对于使用hadoop进行开发的朋友们,可能要自己搭建一套had ... -
Hadoop2.2.0+Hive0.13+Hbase0.96.2集成
2014-08-06 20:49 1861本篇,散仙主要讲的是使用Hive如何和Hbase集成,Hbas ... -
Eclipse+JDBC远程操作Hive0.13
2014-08-04 20:45 2014在前几篇的博客里,散仙已经写了如何在Liunx上安装Hive以 ... -
Hive0.13安装问题总结
2014-07-29 21:28 2273继上篇文章Hive安装之后 ... -
Hive的入门安装
2013-12-09 15:44 1744hive是基于Hadoop的一个数据仓库工具,可以将结构化的数 ...
相关推荐
叶梓老师整理的Hadoop2.2.0+Hbase0.98.4+sqoop-1.4.4+hive-0.98.1安装手册,非常实用
### Hadoop2.2.0 + HBase0.98.1 + Sqoop1.4.4 + Hive0.13 完全安装手册 #### 前言 随着大数据技术的发展,Hadoop已经成为处理海量数据的核心框架之一。本文旨在为读者提供一套最新的Hadoop2.2.0、HBase0.98.1、...
在大数据领域,构建一个完整的生态系统是至关重要的,其中包括多个组件,如Hadoop、Spark、Hive、HBase、Oozie、Kafka、Flume、Flink、Elasticsearch和Redash。这些组件协同工作,提供了数据存储、处理、调度、流...
下载并解压Hive,配置`hive-site.xml`,包括数据库连接信息(如Metastore的MySQL配置)、Hadoop相关配置等。如果使用HBase作为Hive的存储,还需要在`hbase-site.xml`中配置HBase的相关信息。 完成所有配置后,启动...
mysql5.7.38、mysql jdbc驱动mysql-connector-java-8.0.8-dmr-bin.jar、 apache-hive-3.1.3 2.本文软件均安装在自建的目录/export/server/下 :sudo mkdir -p /export/server 创建好目录后要改变该目录的属主和属...
适合新手,详细 01-Java环境安装 02- Eclipse下载与安装 03-VMware虚拟机的安装 04-在VMware中安装CentOS 05- Hadoop集群+ Hive+ MySQL搭建
MySQL安装与配置** MySQL是Hive常用的元数据存储库。安装MySQL Server并创建一个用于Hive的数据库。配置MySQL的`my.ini`文件,修改`bind-address`为`0.0.0.0`以允许远程连接,并设置合适的用户名和密码。别忘了...
Hadoop-2.2.0+Hbase-0.96.2+Hive-0.13.1分布式整合,Hadoop-2.X使用HA方式
毕业设计,采用Hadoop+Hive构建数据仓库,使用django+echarts构建前端web网站对业务指标进行可视化呈现 1. Hadoop+Hive构建数据仓库 2. django+echarts网站开发 3. 数据清洗,数据模型构建 毕业设计,采用Hadoop+...
软件方面,需要安装jdk-7u55-linux-x64.rpm、apache-maven-3.1.1-bin.tar、hadoop-2.2.0-src.tar.gz、protobuf-2.5.0.tar.gz、zookeeper-3.4.5.tar.gz和hbase-0.96.2-hadoop2-bin.tar.gz等软件。 Hadoop2.2安装和...
在本文档中,我们详细地介绍了Hadoop+Hbase+Spark+Hive的搭建过程,包括环境准备、主机设置、防火墙设置、环境变量设置、Hadoop安装、Hbase安装、Spark安装和Hive安装。本文档旨在指导读者从零开始搭建Hadoop+Hbase+...
Linux 环境下 Hive 的安装部署 CLI 和 Beeline 命令行的基本使用 常用 DDL 操作 分区表和分桶表 视图和索引 常用 DML 操作 数据查询详解 三、Spark Spark Core Spark SQL Spark Streaming 五、Flink 核心概念综述 ...
1)hive的安装请参考网上的相关文章,测试时只在hadoop一个节点上安装hive即可。 2)测试数据data文件'\t'分隔: 1 zhangsan 2 lisi 3 wangwu 3)将测试数据data上传到linux目录下,我放置在:/home/hadoop01/...
Hadoop+ZooKeeper+HBase+hive(HQL)安装步骤
- 安装MySQL作为Hive的元数据存储库,配置`hive-site.xml`指向MySQL服务器。 - 设置Hive的环境变量,如`HIVE_HOME`和`PATH`。 - **Hive配置**: - 创建Hive的metastore_db数据库,并配置Hive连接MySQL的用户和...
Hadoop3+Hive3+Tez编译安装;适用视频:https://www.bilibili.com/video/BV1L54
毕业设计基于hadoop+hive+hbase+echarts的招聘信息大数据分析平台源码+论文PDF(高分毕设)毕业设计基于hadoop+hive+hbase+echarts的招聘信息大数据分析平台源码+论文PDF(高分毕设)毕业设计基于hadoop+hive+hbase+...
### hadoop2.2+hbase0.96+hive0.12安装整合详细高可靠文档及经验总结 #### 一、Hadoop2.2的安装 **问题导读:** 1. Hadoop的安装需要安装哪些软件? 2. Hadoop与HBase整合需要注意哪些问题? 3. Hive与HBase的...
毕业设计基于hadoop+hive+hbase+echarts的招聘信息大数据分析平台源码+文档说明(高分毕设)毕业设计基于hadoop+hive+hbase+echarts的招聘信息大数据分析平台源码+文档说明(高分毕设)毕业设计基于hadoop+hive+...
毕业设计,采用Hadoop+Hive构建数据仓库,使用django+echarts构建前端web网站对业务指标进行可视化呈现 毕业设计,采用Hadoop+Hive构建数据仓库,使用django+echarts构建前端web网站对业务指标进行可视化呈现 毕业...