`

hbase bulkloader实例入门

阅读更多

一、使用mr生成对应hbase table的hfile

maper中写入库逻辑,reduce是用hbase自带的,outputformat用的是hfileoutputformat

 

 

                        Configuration conf = new Configuration();
                        Job jobAfter = new Job(conf2);
                        jobAfter.setJarByClass(Test.class);
                        jobAfter.setMapperClass(LogicMapper.class);//在mapper中写业务逻辑
                        jobAfter.setMapOutputKeyClass(ImmutableBytesWritable.class);//只能是ImmutableBytesWritable类
                        jobAfter.setMapOutputValueClass(Put.class);//只能是put或keyvalue类型
                        FileOutputFormat.setOutputPath(jobAfter, new Path("/user/hadoop/bulkload/data"));
                        jobAfter.setOutputFormatClass(HFileOutputFormat.class);
                        HTable table=new HTable(conf,conf.get("tableName"));
                        HFileOutputFormat.configureIncrementalLoad(jobAfter, table);//根据map输出key和value设置reduce class;根据htable的region数,设置reduce数
                        jobAfter.waitForCompletion(true);

 

 

 

 

二、

将hfile导入到hbase中 

hadoop jar hbase-VERSION.jar completebulkload hdfs://localhost:8020/user/hadoop/bulkload/data testtable

 

bulkload实例二

当hbase集群和hadoop(跑MR的)集群不在一起时,就需要知道zk ip和port了

第一步

生成hfile的时候,需要hbase-site位置,里边有zk的ip和port

 

第二步

 

 

hadoop jar /home/q/hadoop/hbase-0.98.0-hadoop2/lib/hbase-server-0.98.0-hadoop2.jar  completebulkload  -Dhbase.zookeeper.quorum=192.168.xx.xx -Dhbase.zookeeper.property.clientPort=2181 hdfs://192.168.xxx.xxx:8020/user/hadoop/wfdata/testoutput xxx_table
 

 

 

192.168.xx.xx这是zk的ip 2181是zk的port

 

192.168.xxx.xxx这是hdfs上hfile的位置

 

 

 

分享到:
评论

相关推荐

    Hbase项目实例相关资料

    《HBase项目实例详解》 HBase,全称为Hadoop Database,是一款开源的分布式列式存储系统,基于Google的Bigtable设计思想构建,是Apache Hadoop生态中的重要组成部分。本资料将围绕一个具体的HBase项目实例,深入...

    HDFS+MapReduce+Hive+HBase十分钟快速入门.pdf

    HDFS+MapReduce+Hive+HBase十分钟快速入门.pdf

    HBase MapReduce完整实例.rar

    通过这个实例,学习者可以深入了解HBase与MapReduce的整合过程,掌握如何利用MapReduce进行HBase数据的批处理,以及如何设计和优化MapReduce任务以提高处理效率。这对于大数据开发人员来说,是一份非常有价值的参考...

    hbase 开发实例

    hbase 开发实例

    HDFS+MapReduce+Hive+HBase十分钟快速入门

    HDFS+MapReduce+Hive+HBase十分钟快速入门,包括这几个部分的简单使用

    Hadoop之Hbase从入门到精通

    ### Hadoop之Hbase从入门到精通 #### HBase技术介绍与概述 HBase是一种分布式、高可靠性且高性能的列式存储系统,它基于Hadoop生态体系构建,并且能够支持大规模的数据存储需求。HBase的设计灵感来源于Google的...

    大数据云计算技术系列 Hadoop之Hbase从入门到精通(共243页).pdf

    《大数据云计算技术系列:Hadoop之Hbase从入门到精通》 HBase,全称Hadoop Database,是一款基于Hadoop生态系统的分布式列式存储系统,旨在处理海量结构化数据。它借鉴了Google Bigtable的设计思想,但开源并适应了...

    HBase实战实例

    《HBase实战实例——GISMaster篇》 在大数据领域,HBase作为一种分布式、列式存储的NoSQL数据库,因其高效处理海量数据的能力而备受青睐。本篇将深入探讨HBase在GIS(地理信息系统)领域的应用实例,即GISMaster...

    Hadoop之Hbase从入门到精通.doc

    Hadoop之HBase从入门到精通 本文将详细介绍HBase技术,从基础概念到高级应用,旨在帮助读者快速掌握HBase技术。 一、HBase技术介绍 HBase是Hadoop Database,是一个高可靠性、高性能、面向列、可伸缩的分布式存储...

    hadoop hbase从入门到精通

    《Hadoop之HBase从入门到精通》是一个深入学习Hadoop和HBase的全面指南,旨在帮助初学者和有经验的开发者快速掌握这两个强大的大数据处理工具。Hadoop是Apache软件基金会开发的一个开源分布式计算框架,它允许在廉价...

    Flume+Kafka+HBase实例

    在这个“Flume+Kafka+HBase实例”中,我们将深入探讨如何在电信客服项目中整合这三个工具,以实现高效的数据处理和存储。 Flume是Apache的一款开源工具,专门用于高效、可靠地收集、聚合和移动大量日志数据。在电信...

    hbase-2.3.5单机一键部署工具

    deploy.sh build single 构建并启动一个hbase单实例 deploy.sh start single 启动hbase实例 deploy.sh stop single 停止hbase实例 deploy.sh check single 检测hbase实例状态 deploy.sh connect single 连接...

    hbase-2.2.2单机一键部署工具

    deploy.sh build single 构建并启动一个hbase单实例 deploy.sh start single 启动hbase实例 deploy.sh stop single 停止hbase实例 deploy.sh check single 检测hbase实例状态 deploy.sh connect single 连接...

    hbase0基础入门教程

    在大数据处理领域,HBase是一个非常重要的非关系型数据库系统,尤其适用于大规模数据集的实时读写操作。HBase遵循Google的Bigtable模型,是Apache的Hadoop项目的一个子项目。本教程将介绍HBase的基础知识,包括其...

    hbase从入门到编程 - 文档.pdf

    ### HBase从入门到编程——核心知识点解析 #### 一、HBase简介 **HBase** 是一个构建在 **Hadoop** 分布式文件系统 (HDFS) 之上的分布式、可扩展、高性能的列族数据库。它为海量数据提供了灵活的存储方式,并支持...

    Hadoop之Hbase从入门到精通 .doc

    "Hadoop之Hbase从入门到精通" HBase 是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统,利用 HBase 技术可在廉价 PC Server 上搭建起大规模结构化存储集群。HBase 是 Google Bigtable 的开源实现,类似 ...

    HDFS+MapReduce+Hive+HBase十分钟快速入门.zip_hbase_hdfs_hive_mapReduce

    本资料“HDFS+MapReduce+Hive+HBase十分钟快速入门”旨在帮助初学者迅速理解这些技术的基础概念和应用场景。 **HDFS(Hadoop Distributed File System)**: HDFS是Apache Hadoop项目的核心部分,是一种分布式文件...

Global site tag (gtag.js) - Google Analytics