`
bobboy007
  • 浏览: 31503 次
  • 性别: Icon_minigender_1
  • 来自: 淄博
社区版块
存档分类
最新评论

Hadoop2.5.2导出数据到Hbase

 
阅读更多

留作备份用,本分类下所有例子都是自己亲自测试过的。

package jyw.test;

import java.io.IOException; 
import java.util.Iterator; 
import java.util.StringTokenizer; 
 
import org.apache.hadoop.conf.Configuration; 
import org.apache.hadoop.fs.Path; 
import org.apache.hadoop.hbase.HBaseConfiguration; 
import org.apache.hadoop.hbase.HColumnDescriptor; 
import org.apache.hadoop.hbase.HTableDescriptor;
import org.apache.hadoop.hbase.client.HTable;
import org.apache.hadoop.hbase.client.Result;
import org.apache.hadoop.hbase.client.Get;
import org.apache.hadoop.hbase.KeyValue; 

import org.apache.hadoop.hbase.client.HBaseAdmin;

import org.apache.hadoop.hbase.client.Put;

import org.apache.hadoop.hbase.mapreduce.TableOutputFormat; 
import org.apache.hadoop.hbase.mapreduce.TableReducer; 
import org.apache.hadoop.hbase.util.Bytes; 
import org.apache.hadoop.io.IntWritable; 
import org.apache.hadoop.io.LongWritable; 
import org.apache.hadoop.io.Text; 
import org.apache.hadoop.io.NullWritable; 
import org.apache.hadoop.mapreduce.Job; 
import org.apache.hadoop.mapreduce.Mapper; 
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat; 
import org.apache.hadoop.mapreduce.lib.input.TextInputFormat; 
 /*
  * 简单map reduce算数
  * */
public class WordCountHBase { 
 
  /* 实现 Map 类    
   *   输入类型 默认文件读取到的索引位置  long类型
   *   输入值类型   字符串
   *   输出 类型  字符串
   *   输出值类型   数字
  */
  public static class Map extends 
      Mapper<LongWritable, Text, Text, IntWritable> { 
    private final static IntWritable one = new IntWritable(1); 
    private Text word = new Text(); 
 
    public void map(LongWritable key, Text value, Context context) 
        throws IOException, InterruptedException { 
      StringTokenizer itr = new StringTokenizer(value.toString()); 
      while (itr.hasMoreTokens()) { 
        word.set(itr.nextToken()); 
        context.write(word, one); 
      } 
    } 
  } 
 
  /* 实现 Reduce 类
   * map 的输出类型
   * map 的输出值类型
   * tablereduce 输出类型是null,
   * 输出值类型 put 
  */
  public static class Reduce extends 
      TableReducer<Text, IntWritable, NullWritable> { 
	    
	  public static Configuration configuration = null;
	    static
	    {
	        configuration = HBaseConfiguration.create();
	        //configuration.set("hbase.master", "192.168.0.201:60000");
	     //   configuration.set("hbase.zookeeper.quorum", "idc01-hd-nd-03,idc01-hd-nd-04,idc01-hd-nd-05");
	        //configuration.set("hbase.zookeeper.property.clientPort", "2181");
	    }
	    public  String  selectRowKey(String tablename, String rowKey) throws IOException
	    {
	        HTable table = new HTable(configuration, tablename);
	        Get g = new Get(rowKey.getBytes());
	        Result rs = table.get(g);
            String retstr="";
	        for (KeyValue kv : rs.raw())
	        {
	         
	          retstr= new String(kv.getValue());
	        }
	        return retstr;
	    }   
	  
    public void reduce(Text key, Iterable<IntWritable> values, 
        Context context) throws IOException, InterruptedException { 
 
      int sum = 0; 
 
      Iterator<IntWritable> iterator = values.iterator(); 
      while (iterator.hasNext()) { 
        sum += iterator.next().get(); 
      } 
    //测试查询
      String result = selectRowKey("wordcount","product");
      
      
      // Put 实例化,每个词存一行 
      Put put = new Put(Bytes.toBytes((result+"_"+key).toString())); 
      // 列族为 content,列修饰符为 count,列值为数目 
      put.add(Bytes.toBytes("content"), Bytes.toBytes("count"), 
          Bytes.toBytes(String.valueOf(sum))); 
      
      context.write(NullWritable.get(), put); 
    } 
  
     
  } 
 
  // 创建 HBase 数据表 
  public static void createHBaseTable(String tableName)  
throws IOException { 
    // 创建表描述 
    HTableDescriptor htd = new HTableDescriptor(tableName); 
    // 创建列族描述 
    HColumnDescriptor col = new HColumnDescriptor("content"); 
    htd.addFamily(col); 
 
    // 配置 HBase 
    Configuration conf = HBaseConfiguration.create(); 
 
    //conf.set("hbase.zookeeper.quorum","127.0.0.1"); 
    //conf.set("hbase.zookeeper.property.clientPort", "2181"); 
    HBaseAdmin hAdmin = new HBaseAdmin(conf); 
 
    if (hAdmin.tableExists(tableName)) { 
      System.out.println("该数据表已经存在。"); 
   //   hAdmin.disableTable(tableName); 
   //   hAdmin.deleteTable(tableName); 
    }else { 
  
    	System.out.println("创建表:" + tableName); 
    	hAdmin.createTable(htd);
    }
  } 
 
  public static void main(String[] args) throws Exception { 
    String tableName = "wordcount"; 
    // 第一步:创建数据库表 
    WordCountHBase.createHBaseTable(tableName); 
 
    // 第二步:进行 MapReduce 处理 
    // 配置 MapReduce 
    Configuration conf = new Configuration(); 
    // 这几句话很关键 
   // conf.set("mapred.job.tracker", "master:9001"); 
    //conf.set("hbase.zookeeper.quorum","master"); 
    //conf.set("hbase.zookeeper.property.clientPort", "2181"); 
    conf.set(TableOutputFormat.OUTPUT_TABLE, tableName); 
 
    Job job = new Job(conf, "New Word Count"); 
    job.setJarByClass(WordCountHBase.class); 
 
    // 设置 Map 和 Reduce 处理类 
    job.setMapperClass(Map.class); 
    job.setReducerClass(Reduce.class); 
 
    // 设置输出类型 
    job.setMapOutputKeyClass(Text.class); 
    job.setMapOutputValueClass(IntWritable.class); 
 
    // 设置输入和输出格式 
    job.setInputFormatClass(TextInputFormat.class); 
    job.setOutputFormatClass(TableOutputFormat.class); 
 
    // 设置输入目录 
    FileInputFormat.addInputPath(job, new Path("hdfs://192.168.0.42:9000/user/jiayongwei/input/")); 
    System.exit(job.waitForCompletion(true) ? 0 : 1); 
 
  } 
} 

 

分享到:
评论

相关推荐

    eclipse开发hadoop2.5.2所用到都jar

    标题 "eclipse开发hadoop2.5.2所用到的jar" 指的是在Eclipse中进行Hadoop 2.5.2开发时所需的特定版本的JAR文件集合。这些JAR文件通常包括以下几个部分: 1. Hadoop Common:这是Hadoop的基础模块,包含了一般用途的...

    hadoop-2.5.2.tar.gz

    Hadoop生态系统还包括HBase、Hive、Pig、Oozie等工具,它们分别提供了NoSQL数据库服务、SQL查询接口、数据流处理和工作流调度等功能,共同构建了一个强大的大数据处理平台。 总结来说,“hadoop-2.5.2.tar.gz”是...

    hadoop 2.5.2 64位native包

    hadoop 2.5.2 64位native包

    hadoop 2.5.2 源码

    Hadoop 2.5.2源码分析 Hadoop是一个开源框架,主要用于处理和存储大量数据,它由Apache软件基金会开发并维护。Hadoop 2.5.2是Hadoop发展过程中的一个重要版本,它引入了许多改进和优化,旨在提高系统的稳定性和性能...

    hadoop2.5.2window下eclipse环境搭建

    ### hadoop2.5.2在Windows下的Eclipse环境搭建详解 #### 一、Hadoop简介 Hadoop是由Apache基金会所开发的一个开源分布式计算框架,主要用于处理和存储大规模数据集。它通过分布式文件系统(HDFS)和MapReduce编程...

    hadoop2.5.2 +eclipse +win32位环境安装全套资源及说明

    hadoop2.5.2 + eclipse + win32位环境安装及开发环境搭建全套资源及说明 Hi:发帖目的是因为Hadoop开发环境搭建太麻烦了,涉及很多版本和工具组件的问题,自己也走了不少弯路,把资源集中一下,让大家少走弯路,也...

    hadoop2.5.2插件

    eclipse环境下集成hadoop2.5.2时候需要的jar包 ant已经编译好了的可以直接用

    Hadoop 2.5.2安装和部署

    在IT行业中,Hadoop是一个广泛使用的开源框架,用于存储和...在部署完成后,可以考虑学习和掌握Hadoop的数据处理框架如MapReduce和Spark,以及Hadoop生态中的其他工具,如Hive、Pig和HBase等,以充分发挥Hadoop的潜力。

    hadoop-2.5.2

    总的来说,Hadoop 2.5.2是大数据处理领域的重要里程碑,它的出现推动了大数据分析技术的发展,使得企业和研究机构能够更加高效地处理PB级别的数据。无论是从分布式文件系统的设计,还是从并行计算模型的实现,Hadoop...

    hbase和hadoop数据块损坏处理

    * hbase org.apache.hadoop.hbase.snapshot.ExportSnapshot -snapshot 'snap_test' -copyto /data/huang_test:将快照导出到 HDFS * clone_snapshot 'snap_test', 'test':将快照恢复到 HBase 表中 五、手动修复 ...

    windows64位平台的hadoop2.5.2插件包(hadoop.dll,winutils.exe)

    网上百度的最高只有hadoop2.4的,于是自己想着也编译一版来,于是就基于hadoop2.5.2的源码在windows8 64位系统安装时自己编译的 包含 hadoop.dll hadoop.pdb hadoop.lib hadoop.exp winutils.exe winutils.pdb ...

    hadoop-2.5.2.zip

    这个名为“hadoop-2.5.2.zip”的压缩包文件提供了预配置的Hadoop 2.5.2环境,特别适用于在Linux操作系统上快速搭建Hadoop集群或进行大数据分析。 Hadoop 2.5.2是Hadoop发展中的一个重要版本,它包含了许多关键的...

    Hadoop2.5.2集群安装

    以上知识点提供了一个从零开始搭建Hadoop2.5.2集群的完整流程,涵盖了从集群架构设计到安装测试的每一个关键步骤,为读者提供了一个清晰的安装和配置指南。尽管文章中有一部分通过OCR扫描产生的文字识别错误,但是...

    Hadoop2.5.2+Sqoop-1.4.6

    【Hadoop2.5.2+Sqoop-1.4.6】的组合主要用于在大数据环境中实现MySQL数据库数据的导入到Hadoop的分布式文件系统(HDFS)中。Hadoop是一个开源的分布式计算框架,而Sqoop是一款专门用于在关系型数据库与Hadoop之间...

    hadoop-2.7.2-hbase-jar.tar.gz

    集成Hadoop和HBase时,通常会将HBase的JAR包添加到Hadoop的类路径中,确保Hadoop集群能够识别并处理HBase的相关操作。这个过程可能涉及到配置Hadoop的环境变量,如HADOOP_CLASSPATH,以及修改HBase的配置文件,如...

    CentOS上搭建Hadoop2.5.2_CentOS搭建hadoop_云计算_源码

    在搭建Hadoop 2.5.2环境的过程中,选择CentOS作为操作系统是一个常见的选择,因为其稳定性和与开源软件的良好兼容性。以下是基于CentOS 7.0搭建Hadoop 2.5.2的详细步骤,以及涉及的相关知识点: 1. **系统准备**: ...

    Hadoop2.5.2搭建真分布式

    Hadoop2.5.2搭建真分布式,利用三台虚拟机搭建的简单真分布式例子

    hadoop2.73-eclipse开发hbase所需要的所有jar包

    在Java开发环境中,Eclipse是一款广泛使用的集成开发环境(IDE),而Hadoop和HBase是大数据处理领域的重要组件。Hadoop是一个开源的分布式计算框架,主要用于处理和存储大规模数据;HBase则是建立在Hadoop之上的...

Global site tag (gtag.js) - Google Analytics