安装包 网上下载
1. hadoop-2.6.0-cdh5.4.0.tar.gz
2. scala-2.10.4.tgz
3. sqoop-1.4.6.bin__hadoop-2.0.4-alpha.tar.gz
4. apache-hive-1.2.1-bin.tar.gz
5. spark-1.4.1-bin-hadoop2.6.tgz
6. jdk-8u40-ea-bin-b05-linux-x64-10_sep_2014.tar.gz
安装系统环境:
linux
安装步骤:
1.安装JDK (建议JDK7 以上)
步骤一:
解压安装包,通过命令进入JDK压缩包存放目录,解压JDK压缩包,解压命令:tar -zxvf jdk-8u40-ea-bin-b05-linux-x64-10_sep_2014.tar.gz
步骤二:
配置JDK环境变量,在系统目录/etc/profile文件最下添加:
export JAVA_HOME=/$path/jdk1.8.0_40
export CLASSPATH=.:$JAVA_HOME/jre/lib/rt.jar:$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools.jar
export PATH=$PATH:$JAVA_HOME/bin
步骤三:
通过命令 cd /. 回到系统最初目录,执行命令 echo $JAVA_HOME,如显示JDK安装目录,即代表安装成功
2.安装Hadoop 2.6.0(伪分布式,单节点部署)
步骤一:
解压安装包,通过命令进入Hadoop 2.6.0 存放目录,解压安装包,解压命令: tar -zxvf hadoop-2.6.0-cdh5.4.0.tar.gz
步骤二:
1.解压后,找到hadoop安装目录下的hadoop-env.sh文件,绝对地址如下:/$path/hadoop-2.6.0-cdh5.4.0/etc/hadoop/hadoop-env.sh,
修改 export JAVA_HOME=/$path/jdk1.8.0_40
2.找到hadoop安装目录下的core-site.xml文件,绝对地址如下:/$path/hadoop-2.6.0-cdh5.4.0/etc/hadoop/core-site.xml,添加
<!-- HDFS默认地址 -->
<property>
<name>fs.defaultFS</name>
<value>hdfs://localhost.localdomain:8020</value>
</property>
<!-- 缓存目录 -->
<property>
<name>hadoop.tmp.dir</name>
<value>/$path/hadoop-2.6.0-cdh5.4.0/data/tmp</value>
</property>
3.找到hadoop安装目录下的hadoop-env.sh文件,绝对地址如下:/$path/hadoop-2.6.0-cdh5.4.0/etc/hadoop/hdfs-site.xml,
<!-- HDFS文件中文件副本数 -->
<property>
<name>dfs.replication</name>
<value>1</value>
</property>
4.格式化HDFS系统,生成镜像文件,进入hadoop-2.6.0 目录,执行命令:bin/hdfs namenode -format,完成格式化
5.启动Hadoop namenode、datanode节点,在hadoop-2.6.0目录,
执行命令:sbin/hadoop-daemon.sh start namenode
执行命令:sbin/hadoop-daemon.sh start datanode
检查节点启动情况,执行命令: jps,显示结果包含namenode、datanode标识,表明节点启动成功
6.通过浏览器访问地址:服务器IP:50070,如显示hadoop页面,表明Hadoop伪分布式搭建成功
3.安装Scala-2.10.4
步骤一:
解压安装包,通过命令进入Scala-2.10.4 存放目录,解压安装包,解压命令: tar -zxvf scala-2.10.4.tgz
步骤二:
配置JDK环境变量,在系统目录/etc/profile文件最下添加:
export SCALA_HOME=/$path/scala-2.10.4
export PATH=$SCALA_HOME/bin:$PATH
步骤三:
通过命令 cd /. 回到系统最初目录,执行命令 echo $SCALA_HOME,如显示Scala安装目录,即代表安装成功
4.安装spark-1.4.1(Standalone集群模式)
步骤一:
解压安装包,通过命令进入spark-1.4.1 存放目录,解压安装包,解压命令: tar -zxvf spark-1.4.1-bin-hadoop2.6.tgz
步骤二:
spark-env.sh 文件是由spark-env.sh.template 模板复制命名过来的。
1.找到spark安装目录下的spark-env.sh文件,绝对地址如下:/$path/spark-1.4.1-bin-hadoop2.6/conf/spark-env.sh,添加
#JDK安装目录
JAVA_HOME=/$path/jdk1.8.0_40
#Scala安装目录
SCALA_HOME=/$path/scala-2.10.4
#Hadoop HDFS节点中的conf配置文件路径
export HADOOP_CONF_DIR=/$path/hadoop-2.6.0-cdh5.4.0/etc/hadoop
#spark master IP地址
SPARK_MASTER_IP=localhost.localdomain
#spark master 端口号(默认: 7077)
SPARK_MASTER_PORT=7077
#spark master Web端口(默认: 8080)
SPARK_MASTER_WEBUI_PORT=8080
#Spark worker占用CPU核心数量(默认: 所有可用的)
SPARK_WORKER_CORES=1
#Spark worker占用内存大小(默认: 所有RAM去掉给操作系统用的1 GB。注意:每个作业自己的内存空间由SPARK_MEM决定。)
SPARK_WORKER_MEMORY=1000m
#Spark worker端口(默认:随机))
SPARK_WORKER_PORT=7078
#Spark Web UI端口(默认: 8081)
SPARK_WORKER_WEBUI_PORT=8081
#Spark worker运行数量(默认: 1,注意:当你有一个非常强大的计算机的时候和需要多个Spark worker进程的时候你可以修改这个默认值大于1 . 如果你设置了这个值。要确保SPARK_WORKER_CORE 明确限制每一个r worker的核心数, 否则每个worker 将尝试使用所有的核心)
SPARK_WORKER_INSTANCES=1
2.找到spark安装目录下的slaves.template文件,指定worker节点地址,绝对地址如下:/$path/$path/spark-1.4.1-bin-hadoop2.6/conf/slaves.template,
因当前配置模式为伪分布式,子父节点在同一台机器上,所以将locahost修改为为当前服务器主机名称或者IP地址,修改后,删除文件.template后缀名
3.找到spark安装目录下的spark-defaults.conf.template文件,指定worker节点地址,绝对地址如下:/$path/$path/spark-1.4.1-bin-hadoop2.6/conf/spark-defaults.conf.template,
添加 spark.master spark://localhost.localdomain:7077 (注意这里需要写 ip 地址)
添加后删除文件.template后缀名
步骤三:
启动Spark,进入Spark安装目录,
执行命令:sbin/start-master.sh
执行命令:sbin/start-slaves.sh
执行完毕后,执行:jsp命令,检查进程,如有Master、Worker进行,则代表启动成功
步骤三:
通过浏览器访问地址:服务器IP:8080,如显示Spark页面,表明Spark Standalone集群模式搭建成功
6.安装Hive(集成Mysql作为元数据库,数据库编码集必须为lantan1)
步骤一:
解压安装包,通过命令进入Hive 存放目录,解压安装包,解压命令: tar -zxvf apache-hive-1.2.1-bin.tar.gz
步骤二:
1.找到Hive安装目录下的hive-env.sh.template文件,绝对地址如下:/$path/apache-hive-1.2.1-bin/conf/hive-env.sh.template,添加
#好像是数据检索大小(默认-Xmx4096m )
export HADOOP_HEAPSIZE=1024
#Hadoop安装目录
HADOOP_HOME=/$path/hadoop-2.6.0-cdh5.4.0
#Hive配置文件目录
export HIVE_CONF_DIR=/$path/apache-hive-1.2.1-bin/conf
#Hive Jar支持目录
export HIVE_AUX_JARS_PATH=/$path/apache-hive-1.2.1-bin/lib
添加完毕后,删除文件.template后缀名
2.找到Hive安装目录下的hive-default.xml.template文件,绝对地址如下:/$path/apache-hive-1.2.1-bin/conf/hive-default.xml.template,修改
<!-- 元数据库地址 -->
<property>
<name>javax.jdo.option.ConnectionURL</name>
<value>jdbc:mysql://IP:PORT/DataBase?createDatabaseIfNotExist=true</value>
</property>
<!-- 元数据库驱动 -->
<property>
<name>javax.jdo.option.ConnectionDriverName</name>
<value>com.mysql.jdbc.Driver</value>
</property>
<!-- 元数据库账户 -->
<property>
<name>javax.jdo.option.ConnectionUserName</name>
<value>hive</value>
</property>
<!-- 元数据库密码 -->
<property>
<name>javax.jdo.option.ConnectionPassword</name>
<value>mysql</value>
</property>
<!---hive.querylog.location----目录>
<property>
<name>hive.querylog.location</name>
<value>/opt/apache-hive-1.2.1-bin/iotmp</value> ---iotmp 目录自己创建,并要有写入数据权限
<description>Location of Hive run time structured log file</description>
</property>
<!-- hive.server2.logging.operation.log.location 日志目录-->
<property>
<name>hive.server2.logging.operation.log.location</name>
<value>/opt/apache-hive-1.2.1-bin/iotmp/operation_logs</value>
<description>Top level directory where operation logs are stored if logging functionality is enabled</description>
</property>
<!---hive.downloaded.resources.dir-- >
<property>
<name>hive.downloaded.resources.dir</name>
<value>/opt/apache-hive-1.2.1-bin/iotmp/${hive.session.id}_resources</value>
<description>Temporary local directory for added resources in the remote file system.</description>
</property>
添加完毕后,修改文件名称为:hive-site.xml,删除文件.template后缀
4.将Mysql JDBC支持包放入/$path/apache-hive-1.2.1-bin/lib
步骤三:
hive CLI启动时报错:(hadoop-2.5.2 + HIVE 1.1.0)
root@ubuntu:/hadoop-2.5.2/etc/hadoop# hive
Logging initialized using configuration in jar:file:/hive/apache-hive-1.1.0-bin/lib/hive-common-1.1.0.jar!/hive-log4j.properties
SLF4J: Class path contains multiple SLF4J bindings.
SLF4J: Found binding in [jar:file:/hadoop-2.5.2/share/hadoop/common/lib/slf4j-log4j12-1.7.5.jar!/org/slf4j/impl/StaticLoggerBinder.class]
原因为 是hadoop目录下存在老版本jline: http://www.mamicode.com/info-detail-516526.html
解决办法:
第1步,进入到 hadoop的目录 /opt/hadoop-2.6.1/share/hadoop/yarn/lib 将jline-0.9.94.jar 包 重名为为 jline-0.9.94.jar.bak
然后将hive 目录中/opt/apache-hive-1.2.1-bin/lib 中的jline-2.12.jar 拷贝到 /opt/hadoop-2.6.1/share/hadoop/yarn/lib 中
进行Hive安装目录,执行命令:bin/hive,启动hive,执行完毕后,命令行切换为 hive>,表示启动成功,在hive>命令行中执行 show tables;
结果显示:
OK
Time taken: 1.988 seconds
表示Hive搭建成功
7.Spark SQL集成HIVE
步骤一:
找到Spark安装目录下的spark-env.sh文件,绝对地址如下:/$path/spark-1.4.1-bin-hadoop2.6/conf/spark-env.sh,添加
export HIVE_CONF_DIR=/$path/apache-hive-1.2.1-bin/conf
export SPARK_CLASSPATH=/$path/apache-hive-1.2.1-bin/lib/mysql-connector-java-5.1.24.jar
步骤二:
将Hive /$path/apache-hive-1.2.1-bin/conf/目录下的hive-site.xml,拷贝到/$path/spark-1.4.1-bin-hadoop2.6/conf/下,因Spark和Hive配置文件识别格式不同,
需要将拷贝到Spark下的hive-site.xml进行修改,配置文件中,部分时间参数通过s、ms来标明时间,包含s的删除掉s,后增000,例如6s,修改为6000。包含ms的,直接
删除。
步骤三:
进入Spark目录,执行命令:bin/spark-sql,执行完毕后,命令行切换为spark-sql>,标识启动成功,在spark-sql命令行中执行 show tables;
执行正常,无错误,则标识集成成功
8.搭建Sqoop环境(实现Mysql数据表导入HDFS、Hive)
步骤一:
解压安装包,通过命令进入Sqoop 存放目录,解压安装包,解压命令: tar -zxvf sqoop-1.4.6.bin__hadoop-2.0.4-alpha.tar.gz
步骤二:
找到Sqoop安装目录下的sqoop-env.sh文件,绝对地址如下:/$path/sqoop-1.4.6.bin__hadoop-2.0.4-alpha/conf/sqoop-env.sh,添加
#Hadoop安装目录
export HADOOP_COMMON_HOME=/$path/hadoop-2.6.0-cdh5.4.0
#Hadoop mapreduce目录
export HADOOP_MAPRED_HOME=/$path/hadoop-2.6.0-cdh5.4.0/share/hadoop/mapreduce
#HIVE 安装目录
export HIVE_HOME=/$path/apache-hive-1.2.1-bin
步骤三:
1.导入Hadoop支持包,导入目录为/$path/sqoop-1.4.6.bin__hadoop-2.0.4-alpha/lib,jar包分别为:
hadoop-common-2.6.0-cdh5.4.0.jar(/opt/hadoop-2.6.0-cdh5.4.0/share/hadoop/mapreduce1/lib/hadoop-common-2.6.0-cdh5.4.0.jar)
hadoop-core-2.6.0-mr1-cdh5.4.0.jar(/$path/hadoop-2.6.0-cdh5.4.0/share/hadoop/mapreduce1/hadoop-core-2.6.0-mr1-cdh5.4.0.jar)
2.Sqoop Hive同步libthrift-0.9.2.jar包,保持(
/$path/sqoop-1.4.6.bin__hadoop-2.0.4-alpha/lib ,
/$path/apache-hive-1.2.1-bin/lib下)
libthrift-0.9.2.jar版本一致
步骤四:
进入Sqoop目录,执行命令
sqoop import --connect jdbc:mysql://192.168.1.204:3339/bi_gxqdc_kh --username bi --password 111111 --table oa_basic_menu --hive-import -m 5
该命令支持从MySQL导出数据到HDFS、创建Hive表格、导入数据到Hive三步。
步骤五:
进入Spark目录,执行命令:bin/spark-sql,执行完毕后,命令行切换为spark-sql>,标识启动成功,在spark-sql命令行中执行 show tables;
执行结束后,显示导入表格后,则表示导入成功,Sqoop搭建成功
相关推荐
在本文档中,我们将详细介绍如何搭建一个大数据集群环境,包括 Hadoop、HBase、Hive 和 Sqoop 的安装配置及使用。该文档将分为四部分:Hadoop 集群环境搭建、HBase 集群环境搭建、Hive 集群环境搭建和 Sqoop 集成...
小牛学堂-大数据24期-04-Hadoop Hive Hbase Flume Sqoop-12天适合初学者.txt
本压缩包"hadop安装文件.rar"提供了关于Hadoop及其相关组件(如Hive、HBase、Sqoop和MySQL)的安装步骤,这对于初学者和系统管理员来说是一份宝贵的资源。 首先,我们来详细了解一下Hadoop。Hadoop由Apache软件基金...
jdk1.8.0_131、apache-zookeeper-3.8.0、hadoop-3.3.2、hbase-2.4.12 mysql5.7.38、mysql jdbc驱动mysql-connector-java-8.0.8-dmr-bin.jar、 apache-hive-3.1.3 2.本文软件均安装在自建的目录/export/server/下 ...
Hadoop+Hive+Mysql+Zookeeper+Hbase+Sqoop详细安装手册
此外,大数据面试题可能还会涵盖其他相关技术,如HBase、Spark、Pig、Flume、Sqoop等,以及大数据生态系统中的数据流处理、实时分析、数据治理等方面的问题。熟悉这些技术的使用场景、优缺点以及它们与Hadoop和Hive...
在大数据处理领域,Hadoop、HBase和Hive是三个重要的组件,它们分别扮演着不同的角色,共同构建了一个高效、可扩展的数据处理生态系统。本文将详细介绍这三个组件的整合工程和相关文档,帮助读者理解如何在实际项目...
在大数据领域,构建一个完整的生态系统是至关重要的,其中包括多个组件,如Hadoop、Spark、Hive、HBase、Oozie、Kafka、Flume、Flink、Elasticsearch和Redash。这些组件协同工作,提供了数据存储、处理、调度、流...
大数据常用软件安装指南 一、Hadoop 分布式文件存储系统:HDFS 分布式计算框架:MapReduce 集群资源管理器:YARN 单机伪集群环境搭建 集群环境搭建 常用 Shell 命令 Java API 的使用 基于 Zookeeper 搭建 Hadoop 高...
叶梓老师整理的Hadoop2.2.0+Hbase0.98.4+sqoop-1.4.4+hive-0.98.1安装手册,非常实用
安装HBase涉及下载源码、配置Hadoop相关路径、启动Zookeeper以及HBase服务。 3. **Hive**: Hive是基于Hadoop的数据仓库工具,提供SQL-like接口处理大数据。安装Hive需要配置Hadoop路径、安装MySQL(作为元数据...
尚硅谷 大数据 hive oozie sqoop kalfa flume zk hbase Hadoop
标题 "Hadoop、HBase、Hive、Pig、Zookeeper资料整理" 涵盖了大数据处理领域中几个核心的开源项目,这些项目在分布式计算、数据存储和管理方面发挥着重要作用。以下是对这些技术的详细介绍: 1. **Hadoop**:Hadoop...
### Hadoop2.2.0 + HBase0.98.1 + Sqoop1.4.4 + Hive0.13 完全安装手册 #### 前言 随着大数据技术的发展,Hadoop已经成为处理海量数据的核心框架之一。本文旨在为读者提供一套最新的Hadoop2.2.0、HBase0.98.1、...
【大数据与Hadoop基础】 大数据是指那些传统数据处理方式无法有效处理的大量、高速、多样化的信息资产。Hadoop作为大数据处理的核心框架,由Apache软件基金会开发,旨在提供分布式存储和计算能力,解决海量数据的...
综上所述,这个分布式数据库课程设计项目通过整合 Hbase、Hive、MySQL、Sqoop 等工具,实现了从数据采集、存储、分析到可视化的全流程,展现了大数据处理的一般流程和关键技术。通过实际操作,学习者可以深入理解和...
大数据工程师方向面试题库,包括Flink,Hadoop,Hbase,Hive,Kafka,Liunx,Spark,Sqoop,Zookeeper,综合面试题等题库
- **Hadoop生态系统**:深度剖析Hadoop的整体架构和技术组件,如HBase、Hive、Pig、ZooKeeper、Chukwa等,并结合实际案例进行实战演练。 - **云计算基础**:介绍云计算的基本概念和技术框架,探讨Hadoop在云计算环境...
大数据Hadoop常用组建安装配置手册、包含了Hadoop、Hive、HBase、Sqoop、Spark、Storm、Kafka等常用分布系统、查询、计算、分析组件的安装、配置详细步骤,共73页,大数据入门安装利器。