`
samuschen
  • 浏览: 407640 次
  • 性别: Icon_minigender_2
  • 来自: 北京
社区版块
存档分类
最新评论

HDFS+MapReduce+Hive+HBase十分钟快速入门(二)

阅读更多

9.3.    编译 Hive

在编译 Hive 之前,请确保 HADOOP_HOME IVY_HOME 两个环境变量已经生效。

1)         使用 svn http://svn.apache.org/repos/asf/hadoop/hive/trunk 下载 Hive 源代码

2)         将下载来的 Hive 源代码打包,然后上传到 Hadoop-A 机器

3)         解压 Hive 源代码包

4)         修改 shims/ivy.xml

只保留 0.20.0 的配置,否则编译会出错

 

5)         运行 ant 开始编译:

ant -Dtarget.dir=/usr/local/hadoop/hive -Dhadoop.version=0.20.0 package

这步完成之后, Hive 会被安装到 /usr/local/hadoop/hive 目录下

6)         添加 Hive 环境变量,在 /etc/profile 文件中增加如下两行:

export HIVE_HOME=/usr/local/hadoop/hive

export PATH=$HIVE_HOME/bin:$PATH

10.             安装 HBase

1)         http://svn.apache.org/repos/asf/hadoop/hbase/trunk 下载最新的 HBase 源代码

2)         HBase 源代码打包,并上传到 Linux

3)         解压 HBase 源代码包

4)         编译 HBase

ant -Dtarget.dir=/usr/local/hadoop/hbase -Dhadoop.version=0.20.0 package

5)         编译成功之后, HBase 可能并不象 Hive 一样自动安装到 /usr/local/hadoop/hbase 目录下,这个时候需要手工复制到 HBase 安装目录下:将 build/hbase-0.21.0-dev 整个目录复制到 /usr/local/hadoop 目录下,并将 hbase-0.21.0-dev 重命名成 hbase 即可

6)         进入 /usr/local/hadoop/hbase/conf 目录,将 hbase-default.xml 复制一份,并命名成 hbase-site.xml

7)         修改 hbase-site.xml

设置 hbase.rootdir 的值为: hdfs://Hadoop-A:54310/hbase

设置 hbase.master hbase.master 可能为 hbase.master.port )的值为: Hadoop-A:60000

8)         修改 hbase-env.sh

设置环境变量 JAVA_HOME export JAVA_HOME=/usr/local/jre

9)         Master 节点,还需要修改 regionservers ,在这个文件中列出所有的 slave 机器,一行一个机器名:

Hadoop-B

Hadoop-C

这一步不用在 slave 节点上操作。

10)     通过以上操作, HBase 已经安装和配置好,然后应当打包,将它部署到集群的所有节点上

11.             体验

11.1.        启动和停止

11.1.1. hadoop

在启动 Hadoop 集群之前,需要先格式化,在 master 节点上执行下面的命令即可:

hadoop namenode -format

11.1.2. start-all.sh

这个脚本用来启动 Hadoop

可以通过 http://172.25.38.127:50070 来查看 HDFS 的启动情况。

 

可以通过 http://172.25.38.127:50030 来查看 MapReduce 的启动情况。

 

11.1.3. stop-all.sh

这个脚本用来停止 Hadoop

11.2.        体验 HDFS

HDFS 的使用和普通的 Linux 命令差不多,只不过各类操作都必须作为 hadoop 命令的参数,如在 hadoop 上执行 ls 操作:

hadoop fs -ls /

这条命令相当于 Linux 下的 ls /

11.3.        体验 MapReduce

体验 MapReduce ,可以使用 Hadoop 自带的 WordCount ,如:

hadoop jar wordcount.jar /x/x /z

其中 wordcount.jar WordCount 的可执行包, /x/x 是源文件,是一段以逗号分隔的英文片断,而 /z 是结果存放的目录。

11.4.        体验 Hive

Hive 的使用非常简单,照着 http://wiki.apache.org/hadoop/Hive/GettingStarted 上说的来操作就可以了。

 

12.             FAQ

12.1.        如何查看 Hadoop 进程

如果安装了 JDK ,则在 JDK bin 目录下有一个 jps 命令,可以用来查看 java 进程,如:

# jps

27612 NameNode

17369 Jps

16206 HQuorumPeer

15423 HMaster

27761 SecondaryNameNode

27839 JobTracker

其中,第一列为进程号,第二列为进程名称。

12.2.        ssh 端口问题

如果 ssh 不是使用默认端口,则需要修改 hadoop-env.sh 文件中的 HADOOP_SSH_OPTS 环境变量,假设 ssh 端口号为 8000 ,则可以简单设置为: export HADOOP_SSH_OPTS="-p 8000"

如果安装了 HBase ,还应当修改 hbase-env.sh 文件中的 HBASE_SSH_OPTS

12.3.        首次 ssh 登录问题

首次通过 ssh 登录另一台机器时,可能会遇到一个 yes 确认过程,因此在启动之前,应当先手工或使用其它脚本 ssh 成功登录一次,否则容易遇到如下错误:

r# ./start-hbase.sh

DOSS38-127-sles10: Host key not found from database.

DOSS38-127-sles10: Key fingerprint:

DOSS38-127-sles10: xuror-ledab-buhim-zohok-tanop-cyrig-tysac-gyhyp-refan-semim-pyxex

DOSS38-127-sles10: You can get a public key's fingerprint by running

DOSS38-127-sles10: % ssh-keygen -F publickey.pub

DOSS38-127-sles10: on the keyfile.

DOSS38-127-sles10: warning: tcgetattr failed in ssh_rl_set_tty_modes_for_fd: fd 1: Invalid argument

 

分享到:
评论

相关推荐

    HDFS+MapReduce+Hive+HBase十分钟快速入门.pdf

    HDFS+MapReduce+Hive+HBase十分钟快速入门.pdf

    HDFS+MapReduce+Hive+HBase十分钟快速入门

    HDFS+MapReduce+Hive+HBase十分钟快速入门,包括这几个部分的简单使用

    HDFS+MapReduce+Hive+HBase十分钟快速入门.zip_hbase_hdfs_hive_mapReduce

    本资料“HDFS+MapReduce+Hive+HBase十分钟快速入门”旨在帮助初学者迅速理解这些技术的基础概念和应用场景。 **HDFS(Hadoop Distributed File System)**: HDFS是Apache Hadoop项目的核心部分,是一种分布式文件...

    详解Hadoop核心架构HDFS+MapReduce+Hbase+Hive

    通过对Hadoop分布式计算平台最核心的分布式文件系统HDFS、MapReduce处理过程,以及数据仓库工具Hive和分布式数据库Hbase的介绍,基本涵盖了Hadoop分布式平台的所有技术核心。通过这一阶段的调研总结,从内部机理的...

    《hadoop-HDFS+MapReduce+Hive+Hbase快速入门》

    《hadoop-HDFS+MapReduce+Hive+Hbase快速入门》,一门入门hadoop的经典书籍,相信能够给学习云计算的大家带来帮助。

    基于Python+SpringBoot+Vue+HDFS+MapReduce+HBase+Hive+Kafka+Sp.zip

    标题中的“基于Python+SpringBoot+Vue+HDFS+MapReduce+HBase+Hive+Kafka+Spark”提到了一系列技术,它们都是大数据处理、分布式系统和Web开发的重要组件。接下来,我们将深入探讨这些技术及其在实际项目中的应用。 ...

    mapreduce方式入库hbase hive hdfs

    mapreduce方式入库hbase hive hdfs,速度很快,里面详细讲述了代码的编写过程,值得下载

    Hadoop+Spark+Hive+HBase+Oozie+Kafka+Flume+Flink+ES+Redash等详细安装部署

    在大数据领域,构建一个完整的生态系统是至关重要的,其中包括多个组件,如Hadoop、Spark、Hive、HBase、Oozie、Kafka、Flume、Flink、Elasticsearch和Redash。这些组件协同工作,提供了数据存储、处理、调度、流...

    hdfs2-7_3+hbase1_2_5 HA withQJM环境搭建

    QJM是一种在Hadoop中实现NameNode HA的关键组件,它通过协调JournalNodes来持久化HDFS的元数据变更,从而在主NameNode故障时能快速切换到备用NameNode。 首先,我们要理解HDFS HA的基本概念。HDFS HA提供了一对活动...

    大数据实习hdfs+flume+kafka+spark+hbase+hive项目.zip

    在大数据领域,HDFS、Flume、Kafka、Spark、HBase和Hive是关键的组件,它们共同构建了一个高效、可靠的数据处理和分析体系。下面将分别介绍这些技术及其在实际项目中的应用。 1. HDFS(Hadoop Distributed File ...

    spark+clickhouse+hive+kafka+vue+hbase大型分析系统

    基于Flink+ClickHouse构建的分析平台,涉及 Flink1.9.0 、ClickHouse、Hadoop、Hbase、Kafka、Hive、Jmeter、Docker 、HDFS、MapReduce 、Zookeeper 等技术

    scala-hive-HBASE-Api.7z

    2. 配置连接:设置Hive和HBase的配置参数,如Zookeeper地址、HDFS路径等,以便正确地连接到服务。 3. 创建连接:通过API创建Hive和HBase的连接实例,如HiveConnection和HBaseAdmin。 4. 执行操作:使用提供的API进行...

    Hadoop、HBase、Hive、Pig、Zookeeper资料整理

    - **Hadoop-0.20.0-HDFS+MapReduce+Hive+HBase十分钟快速入门.doc**:这与前面的快速入门文档类似,可能对Hadoop的早期版本进行了快速介绍。 - **Hbase_分析报告白皮书.doc**:这可能是一份关于HBase在某个具体场景...

    hadoop,hive,hbase学习资料

    Reduce的过程解析.doc**、**Hadoop学习总结之五:Hadoop的运行痕迹.doc**、**Hadoop学习总结之二:HDFS读写过程解析.doc**:这些文档详细介绍了Hadoop分布式文件系统(HDFS)的基本概念、工作流程以及MapReduce的...

    大数据技术 Hadoop开发者第二期 MapReduce HDFS Hive Mahout HBase 共64页.pdf

    ### 大数据技术 Hadoop开发者第二期 MapReduce HDFS Hive Mahout HBase 相关知识点解析 #### 一、Hadoop 业界资讯 - **InfoWorld 授予 Apache Hadoop 年度技术创新奖章** - **背景**:2010年1月,InfoWorld 授予 ...

    大数据Hadoop+HBase+Spark+Hive集群搭建教程(七月在线)1

    在构建大数据处理环境时,Hadoop、HBase、Spark和Hive是四个核心组件,它们协同工作以实现高效的数据存储、处理和分析。本教程将详细介绍如何在Ubuntu系统上搭建这些组件的集群。 1. **Hadoop**:Hadoop是Apache...

    hive、Hbase、mysql的区别.docx

    【Hive、Hbase、MySQL的区别】 Hive、Hbase和MySQL是三种不同类型的数据库系统,它们各自在数据处理和存储方面有着独特的特性和应用场景。 1. Hive与Hbase的区别: - Hive是一个基于Hadoop的数据仓库工具,它允许...

Global site tag (gtag.js) - Google Analytics