- 浏览: 406039 次
- 性别:
- 来自: 北京
文章分类
最新评论
-
秦时明月黑:
深入浅出,楼主很有功底
hive编译部分的源码结构 -
tywo45:
感觉好多错误,但还是支持!
HDFS+MapReduce+Hive+HBase十分钟快速入门 -
xbbHistory:
解析的很棒!!
Linux-VFS -
darrendu:
执行这个命令,bin/hadoop fs -ls /home/ ...
Hadoop示例程序WordCount运行及详解 -
moudaen:
请问楼主,我执行总后一条语句时,执行的是自带的1.sql,你当 ...
TPC-H on Hive
9.3. 编译 Hive
在编译 Hive 之前,请确保 HADOOP_HOME 和 IVY_HOME 两个环境变量已经生效。
1) 使用 svn 从 http://svn.apache.org/repos/asf/hadoop/hive/trunk 下载 Hive 源代码
2) 将下载来的 Hive 源代码打包,然后上传到 Hadoop-A 机器
3) 解压 Hive 源代码包
4) 修改 shims/ivy.xml :
只保留 0.20.0 的配置,否则编译会出错
5) 运行 ant 开始编译:
ant -Dtarget.dir=/usr/local/hadoop/hive -Dhadoop.version=0.20.0 package
这步完成之后, Hive 会被安装到 /usr/local/hadoop/hive 目录下
6) 添加 Hive 环境变量,在 /etc/profile 文件中增加如下两行:
export HIVE_HOME=/usr/local/hadoop/hive
export PATH=$HIVE_HOME/bin:$PATH
10. 安装 HBase
1) 从 http://svn.apache.org/repos/asf/hadoop/hbase/trunk 下载最新的 HBase 源代码
2) 将 HBase 源代码打包,并上传到 Linux 上
3) 解压 HBase 源代码包
4) 编译 HBase :
ant -Dtarget.dir=/usr/local/hadoop/hbase -Dhadoop.version=0.20.0 package
5) 编译成功之后, HBase 可能并不象 Hive 一样自动安装到 /usr/local/hadoop/hbase 目录下,这个时候需要手工复制到 HBase 安装目录下:将 build/hbase-0.21.0-dev 整个目录复制到 /usr/local/hadoop 目录下,并将 hbase-0.21.0-dev 重命名成 hbase 即可
6) 进入 /usr/local/hadoop/hbase/conf 目录,将 hbase-default.xml 复制一份,并命名成 hbase-site.xml
7) 修改 hbase-site.xml :
设置 hbase.rootdir 的值为: hdfs://Hadoop-A:54310/hbase ;
设置 hbase.master ( hbase.master 可能为 hbase.master.port )的值为: Hadoop-A:60000
8) 修改 hbase-env.sh :
设置环境变量 JAVA_HOME : export JAVA_HOME=/usr/local/jre
9) 在 Master 节点,还需要修改 regionservers ,在这个文件中列出所有的 slave 机器,一行一个机器名:
Hadoop-B
Hadoop-C
这一步不用在 slave 节点上操作。
10) 通过以上操作, HBase 已经安装和配置好,然后应当打包,将它部署到集群的所有节点上
11. 体验
11.1. 启动和停止
11.1.1. hadoop
在启动 Hadoop 集群之前,需要先格式化,在 master 节点上执行下面的命令即可:
hadoop namenode -format
11.1.2. start-all.sh
这个脚本用来启动 Hadoop 。
可以通过 http://172.25.38.127:50070 来查看 HDFS 的启动情况。
可以通过 http://172.25.38.127:50030 来查看 MapReduce 的启动情况。
11.1.3. stop-all.sh
这个脚本用来停止 Hadoop 。
11.2. 体验 HDFS
HDFS 的使用和普通的 Linux 命令差不多,只不过各类操作都必须作为 hadoop 命令的参数,如在 hadoop 上执行 ls 操作:
hadoop fs -ls /
这条命令相当于 Linux 下的 ls / 。
11.3. 体验 MapReduce
体验 MapReduce ,可以使用 Hadoop 自带的 WordCount ,如:
hadoop jar wordcount.jar /x/x /z
其中 wordcount.jar 是 WordCount 的可执行包, /x/x 是源文件,是一段以逗号分隔的英文片断,而 /z 是结果存放的目录。
11.4. 体验 Hive
Hive 的使用非常简单,照着 http://wiki.apache.org/hadoop/Hive/GettingStarted 上说的来操作就可以了。
12. FAQ
12.1. 如何查看 Hadoop 进程
如果安装了 JDK ,则在 JDK 的 bin 目录下有一个 jps 命令,可以用来查看 java 进程,如:
# jps
27612 NameNode
17369 Jps
16206 HQuorumPeer
15423 HMaster
27761 SecondaryNameNode
27839 JobTracker
其中,第一列为进程号,第二列为进程名称。
12.2. ssh 端口问题
如果 ssh 不是使用默认端口,则需要修改 hadoop-env.sh 文件中的 HADOOP_SSH_OPTS 环境变量,假设 ssh 端口号为 8000 ,则可以简单设置为: export HADOOP_SSH_OPTS="-p 8000"
如果安装了 HBase ,还应当修改 hbase-env.sh 文件中的 HBASE_SSH_OPTS 。
12.3. 首次 ssh 登录问题
首次通过 ssh 登录另一台机器时,可能会遇到一个 yes 确认过程,因此在启动之前,应当先手工或使用其它脚本 ssh 成功登录一次,否则容易遇到如下错误:
r# ./start-hbase.sh
DOSS38-127-sles10: Host key not found from database.
DOSS38-127-sles10: Key fingerprint:
DOSS38-127-sles10: xuror-ledab-buhim-zohok-tanop-cyrig-tysac-gyhyp-refan-semim-pyxex
DOSS38-127-sles10: You can get a public key's fingerprint by running
DOSS38-127-sles10: % ssh-keygen -F publickey.pub
DOSS38-127-sles10: on the keyfile.
DOSS38-127-sles10: warning: tcgetattr failed in ssh_rl_set_tty_modes_for_fd: fd 1: Invalid argument
发表评论
-
Hadoop的Secondary NameNode方案
2012-11-13 10:39 1284http://book.51cto.com/art/20120 ... -
hadoop
2011-10-08 12:20 1109hadoop job解决 ... -
hadoop作业调优参数整理及原理
2011-04-15 14:02 13131 Map side tuning 参数 ... -
Job运行流程分析
2011-03-31 11:04 1672http://www.cnblogs.com/forfutur ... -
hadoop作业运行部分源码
2011-03-31 10:51 1421一、客户端 Map-Reduce的过程首先是由客户端提交 ... -
eclipse中编译hadoop(hive)源码
2011-03-24 13:20 3422本人按照下面编译Hadoop 所说的方法在eclipse中编 ... -
Configuration Parameters: What can you just ignore?
2011-03-11 15:16 866http://www.cloudera.com/blog/20 ... -
7 Tips for Improving MapReduce Performance
2011-03-11 15:06 1004http://www.cloudera.com/blog ... -
hadoop 源码分析一
2011-02-22 15:29 1206InputFormat : 将输入的 ... -
hadoop参数配置(mapreduce数据流)
2011-01-14 11:08 2904Hadoop配置文件设定了H ... -
混洗和排序
2011-01-05 19:33 3254在mapreduce过程中,map ... -
hadoop中每个节点map和reduce个数的设置调优
2011-01-05 19:28 8386map red.tasktracker.map.tasks. ... -
hadoop profiling
2010-12-20 20:52 2638和debug task一样,profiling一个运行在分布 ... -
关于JVM内存设置
2010-12-20 20:49 1352运行map、reduce任务的JVM内存调整:(我当时是在jo ... -
HADOOP报错Incompatible namespaceIDs
2010-12-14 12:56 1010HADOOP报错Incomp ... -
node1-node6搭建hadoop
2010-12-13 18:42 1130环境: node1-node6 node1为主节点 ... -
hadoop启动耗时
2010-12-07 17:28 1325http://blog.csdn.net/AE86_FC/ar ... -
namenode 内部关键数据结构简介
2010-12-07 16:35 1283http://www.tbdata.org/archiv ... -
HDFS常用命令
2010-12-04 14:59 1318文件系统检查 bin/hadoop fsck [pa ... -
HDFS添加和删除节点
2010-12-04 14:45 2015From http://developer.yahoo.co ...
相关推荐
HDFS+MapReduce+Hive+HBase十分钟快速入门.pdf
HDFS+MapReduce+Hive+HBase十分钟快速入门,包括这几个部分的简单使用
本资料“HDFS+MapReduce+Hive+HBase十分钟快速入门”旨在帮助初学者迅速理解这些技术的基础概念和应用场景。 **HDFS(Hadoop Distributed File System)**: HDFS是Apache Hadoop项目的核心部分,是一种分布式文件...
通过对Hadoop分布式计算平台最核心的分布式文件系统HDFS、MapReduce处理过程,以及数据仓库工具Hive和分布式数据库Hbase的介绍,基本涵盖了Hadoop分布式平台的所有技术核心。通过这一阶段的调研总结,从内部机理的...
《hadoop-HDFS+MapReduce+Hive+Hbase快速入门》,一门入门hadoop的经典书籍,相信能够给学习云计算的大家带来帮助。
标题中的“基于Python+SpringBoot+Vue+HDFS+MapReduce+HBase+Hive+Kafka+Spark”提到了一系列技术,它们都是大数据处理、分布式系统和Web开发的重要组件。接下来,我们将深入探讨这些技术及其在实际项目中的应用。 ...
mapreduce方式入库hbase hive hdfs,速度很快,里面详细讲述了代码的编写过程,值得下载
在大数据领域,构建一个完整的生态系统是至关重要的,其中包括多个组件,如Hadoop、Spark、Hive、HBase、Oozie、Kafka、Flume、Flink、Elasticsearch和Redash。这些组件协同工作,提供了数据存储、处理、调度、流...
QJM是一种在Hadoop中实现NameNode HA的关键组件,它通过协调JournalNodes来持久化HDFS的元数据变更,从而在主NameNode故障时能快速切换到备用NameNode。 首先,我们要理解HDFS HA的基本概念。HDFS HA提供了一对活动...
在大数据领域,HDFS、Flume、Kafka、Spark、HBase和Hive是关键的组件,它们共同构建了一个高效、可靠的数据处理和分析体系。下面将分别介绍这些技术及其在实际项目中的应用。 1. HDFS(Hadoop Distributed File ...
基于Flink+ClickHouse构建的分析平台,涉及 Flink1.9.0 、ClickHouse、Hadoop、Hbase、Kafka、Hive、Jmeter、Docker 、HDFS、MapReduce 、Zookeeper 等技术
2. 配置连接:设置Hive和HBase的配置参数,如Zookeeper地址、HDFS路径等,以便正确地连接到服务。 3. 创建连接:通过API创建Hive和HBase的连接实例,如HiveConnection和HBaseAdmin。 4. 执行操作:使用提供的API进行...
- **Hadoop-0.20.0-HDFS+MapReduce+Hive+HBase十分钟快速入门.doc**:这与前面的快速入门文档类似,可能对Hadoop的早期版本进行了快速介绍。 - **Hbase_分析报告白皮书.doc**:这可能是一份关于HBase在某个具体场景...
Reduce的过程解析.doc**、**Hadoop学习总结之五:Hadoop的运行痕迹.doc**、**Hadoop学习总结之二:HDFS读写过程解析.doc**:这些文档详细介绍了Hadoop分布式文件系统(HDFS)的基本概念、工作流程以及MapReduce的...
二、Hive 简介及核心概念 Linux 环境下 Hive 的安装部署 CLI 和 Beeline 命令行的基本使用 常用 DDL 操作 分区表和分桶表 视图和索引 常用 DML 操作 数据查询详解 三、Spark Spark Core Spark SQL Spark Streaming ...
### 大数据技术 Hadoop开发者第二期 MapReduce HDFS Hive Mahout HBase 相关知识点解析 #### 一、Hadoop 业界资讯 - **InfoWorld 授予 Apache Hadoop 年度技术创新奖章** - **背景**:2010年1月,InfoWorld 授予 ...
在构建大数据处理环境时,Hadoop、HBase、Spark和Hive是四个核心组件,它们协同工作以实现高效的数据存储、处理和分析。本教程将详细介绍如何在Ubuntu系统上搭建这些组件的集群。 1. **Hadoop**:Hadoop是Apache...