1、HBase版本hbase-0.20.5,Hadoop的版本hadoop-0.20.2,JDK1.6
2、如果想通过MR对hbase进行一些操作,首先是需要做一些配置内容的,配置的流程如下:
a、默认安装完成了hadoop和hbase
b、首先引入环境变量(修改/etc/profile文件,在文件末尾追加下面内容):
# set java environment
export JAVA_HOME=/usr/java/jdk1.6.0_20
export JRE_HOME=/usr/java/jdk1.6.0_20/jre
export CLASSPATH=.:$JAVA_HOME/lib:$JRE_HOME/lib:$CLASSPATH
export PATH=$JAVA_HOME/bin:$PATH
export HADOOP_HOME=/jz/hadoop-0.20.2
export PATH=$HADOOP_HOME/bin:$PATH
export HBASE_HOME=/jz/hbase-0.20.5
export PATH=$PATH:$HBASE_HOME/bin
export ZOOKEEPER_HOME=/jz/zookeeper-3.3.1
export PATH=$PATH:$ZOOKEEPER_HOME/bin
export HIVE_HOME=/jz/hive-0.5.0-bin
export PATH=$PATH:$HIVE_HOME/bin
export HADOOP_CLASSPATH=$HBASE_HOME/hbase-0.20.5.jar:$HBASE_HOME/hbase-0.20.5-test.jar:$HBASE_HOME/conf:${HBASE_HOME}/lib/zookeeper-3.2.2.jar
c、将/jz/hbase-0.20.5/conf下的hbase-site.xml拷贝到hadoop的conf目录下,同时在/jz/hbase-0.20.5目录下,将hbase-0.20.5.jar、hbase-0.20.5-test.jar和/jz/hbase-0.20.5/lib/zookeeper-3.2.2.jar拷贝到hadoop/lib目录下。
d、至此,配置完成,可以开始试下了!
3、如果大家英文好,可以看看wiki的链接http://hbase.apache.org/docs/current/api/org/apache/hadoop/hbase/mapreduce/package-summary.html#package_description
4、如何使用M/R来操hbase,最典型的应用就是录入数据,可以参看hadoop权威指南,中关于hbase的介绍单元。
5、改完配置之后,记得重启hadoop集群和hbase服务。
6、如果有问题或是疑问,可以发邮件dajuezhao@gmail.com共同讨论。
分享到:
相关推荐
标题“hadoop map reduce hbase 一人一档”揭示了这个系统的核心组成部分。Hadoop MapReduce是一种分布式计算框架,用于处理和存储大规模数据集。它通过将复杂任务分解为可并行处理的“映射”和“化简”阶段,使得在...
由于Map/Reduce在HBase上的性能比在HDFS上慢3到4倍,启动开销大,且依赖磁盘计算,不适合快速查找。 接下来,文章描述了如何实现交互式查询。它介绍了HBase SQL的架构视图,其中包括了Hive和HBase SQL执行引擎,...
使用 HBase 和 Map Reduce 的迭代 k 均值 问题陈述 通过迭代运行 Map Reduce 作业,在 HBase 平台上使用 K-means 对能源效率数据集 ( ) 进行聚类。 数据加载到 Hbase 由 DataLoader 类执行。 该类将 Energy ...
这个示例,"MR_HBase-Hadoop中的MapReduce使用示例,输入(DBInputFormat),输出(DBOutputFormat)",主要展示了如何利用MapReduce与HBase进行交互,进行数据的读取和写入。下面将详细介绍相关的知识点。 1. **...
spark本地模式访问hbase表进行map reduce操作
2. 数据查询:通过MapReduce实现对HBase表的查询,可以在Map阶段进行过滤,Reduce阶段进行聚合操作。 3. 数据更新:在Map阶段定位到需要更新的行,然后在Reduce阶段完成更新操作。 4. 数据删除:Map阶段标识出需要...
### Hadoop、Hive、HBase 的安装配置详解 #### 一、Hadoop 安装配置 ##### 1. 创建用户与安装 JDK 在安装 Hadoop 前,首先需要创建一个专用的用户账户用于运行 Hadoop 相关服务,并确保 Java 环境已经正确安装。 ...
Hadoop本身,实现的是分布式的文件系统HDFS,和分布式的计算(Map/Reduce)框架,此外,它还不是一个人在战斗,Hadoop包含一系列扩展项目,包括了分布式文件数据库HBase(对应Google的BigTable),分布式协同服务...
HQL是一种类SQL语言,这种语言最终被转化为Map/Reduce。HIVE提供了SQL查询功能,但是HIVE不能进行交互查询,因为它只能在Hadoop上批量执行MapReduce任务。HIVE被分区为表格,表格又被进一步分割为列簇。列簇必须使用...
2. **代码示例**:提供实际的Java代码,演示如何编写Map和Reduce函数来处理HBase中的数据,以及如何使用HBaseInputFormat和HBaseOutputFormat与HBase交互。 3. **数据准备**:可能包含一些模拟数据或实际数据,用于...
- 包括下载和安装所需软件,配置Hadoop集群(包括配置文件、克隆系统、验证集群状态),部署和配置Hbase,运行MapReduce程序,以及使用Java API操作Hbase数据库。 通过这个实验,学生可以深入理解分布式计算和...
可通过Map / Reduce或接口机制(例如Apache Hive和Impala)或某些“本机” SQL技术(例如Apache Phoenix)进行对HBase数据SQL访问。 尽管前者的实现和使用成本通常较低,但它们的延迟和效率通常无法与后者相提并论...
2. Map阶段:定义Map函数,该函数将从HBase表中读取数据,并对数据进行预处理,形成键值对(key-value pairs)。 3. Shuffle阶段:MapReduce框架自动处理,将Map输出的键值对根据键(key)进行排序和分组,然后传递...
在这篇题为“一种靶场环境监测数据分布式处理方法”的文章中,作者分析了靶场环境监测数据的特点,并提出了使用传感器网络的监测项目。文章重点介绍了一种基于Map/Reduce模式的分布式处理方法,并根据电磁数据进行了...
设计了适合通信社会网络数据特色的 Map/Reduce算法。通过MaP和Reduee函数实现了数据的并行查询和处理。在数据查询过程中,还将数据遍历过程放Reduce函数中,从而使广度优先搜索算法的层次遍历过程也能够并行运行。这...
DStream 由一系列连续的 Tuples(时间窗口内的数据块)组成,可以进行各种转换和操作,如 map、reduce 和 join。 在本示例中,你需要设置 Spark Streaming 连接到 Kafka 集群。这通常涉及配置 Kafka 的 `bootstrap....
MapReduce是Hadoop的计算框架,用于处理和生成大规模数据集,通过“映射”(map)和“化简”(reduce)两个阶段来实现分布式计算。 在HBase的开发中,常常需要使用到一系列的jar包,这些jar包涵盖了HBase本身及其...