`
ganliang13
  • 浏览: 252541 次
  • 性别: Icon_minigender_1
  • 来自: 北京
社区版块
存档分类
最新评论

mapreduce编程模型之mysql 输入数据至hbase表数据

阅读更多

1.Hbase shell中创建表
create 'tab1','f','i'/*表名,行名,列族*/

2.导出mysql数据到文本
select gid,a,b,c,d,e,f,g
from itemprofile where a='1234' into outfile '/tmp/data' FIELDS TERMINATED BY '\t';

2.1.将导出的文件放入hdfs的/user/aaa/

3.转存文件为Hfile格式
hbase org.apache.hadoop.hbase.mapreduce.ImportTsv -Dimporttsv.columns=HBASE_ROW_KEY,i:a,i:b,i:c,i:d,i:e,i:f,i:g -Dimporttsv.bulk.output=/user/aaa/hbase/aaaa tab1 /user/aaa/
注意:其中a,b,c,d,e,f,g是列族的子列名,2.1的数据行第一个默认为rowkey
4.导入到Hbase
hadoop jar hbase-0.94.7-security.jar completebulkload /user/aaa/hbase/aaaa tab1

分享到:
评论

相关推荐

    Hive、MySQL、HBase数据互导

    5. **HBase Java API编程**:掌握如何使用Java编程接口与HBase交互,包括创建表、插入数据、查询数据等操作。 6. **Eclipse开发工具使用**:熟悉Eclipse环境下的Java项目配置和调试,以便编写和测试HBase的Java程序...

    hadoop的mapreduce把oracle/mysq导入到hbase和hdfs中的程序

    MapReduce是Hadoop的核心组件之一,它是一种编程模型,用于大规模数据集(大于1TB)的并行计算。在本场景中,Map阶段将原始数据分割成小块,并在集群的不同节点上并行处理。Reduce阶段则负责聚合这些处理结果,生成...

    高速铁路道岔异构数据在Hbase上的云存储方案.pdf

    MapReduce是Hadoop框架下用于大规模数据处理的编程模型,它将大任务拆分为小任务并行处理。在这个方案中,MapReduce用于将大型图像数据分割成多个小块,便于在Hbase中高效存储和检索。这种方法能够显著提高存储速度...

    云应用系统开发第二次项目(mapreduce)

    MapReduce 是一个编程模型,用于大规模数据处理,它将复杂的数据处理任务分解成许多小任务,并将其分布式地处理在多台机器上。MapReduce 编程模型由两个阶段组成:Map 阶段和 Reduce 阶段。在 Map 阶段,Map 函数将...

    java2hbase.rar

    2. **数据转换**:由于MySQL和HBase的模型不同,数据需要进行转换以适应HBase的列族(Column Family)、列(Column)和行键(Row Key)结构。可能需要将关系型数据模型转换为宽行模型,优化查询性能。 3. **数据...

    Hadoop+Spark+Hive+HBase+Oozie+Kafka+Flume+Flink+ES+Redash等详细安装部署

    HDFS提供了高容错性和高吞吐量的数据存储,而MapReduce则是用于处理和生成大规模数据集的编程模型。在安装Hadoop时,通常需要配置集群环境,包括主节点和从节点,并确保所有节点之间的网络通信畅通。 Spark是大数据...

    读写数据库数据的mr程序

    在大数据处理领域,MapReduce是一种广泛使用的编程模型,尤其在Hadoop生态系统中,它被用于处理和生成大规模数据集。本程序的标题是"读写数据库数据的mr程序",这意味着我们将探讨如何利用MapReduce来从MySQL数据库...

    面向海量天文数据的分布式MySQL锥形检索研究.pdf

    MapReduce编程模型是这些系统中用于处理大数据的关键技术之一,通过映射(map)和归约(reduce)的操作,MapReduce能够将大数据集分解成小部分并行处理,然后合并处理结果,从而有效地处理大规模数据集。 文章在...

    电影推荐网站(基于hadoop生态的大数据项目,使用hbase和MySQL数据库,利用协同过滤算法给出用户电影推荐).zip

    3. **MapReduce**:MapReduce是一种编程模型,用于大规模数据集的并行计算。在电影推荐项目中,可能会用MapReduce进行数据预处理,例如统计用户对电影的偏好,计算电影间的相似度等。 4. **HBase**:HBase是一个...

    hadoop,hive,hbase学习资料

    1. **Hadoop学习总结之三:Map-Reduce入门.doc**:这是一份关于MapReduce的入门文档,MapReduce是Hadoop的核心计算模型,它将大型数据集划分为小块,并在分布式集群上并行处理。 2. **Hadoop学习总结之一:HDFS简介...

    基于hadoop框架的大数据处理与分析系统.pdf

    Hadoop框架的核心组件包括HDFS(Hadoop Distributed File System)和MapReduce编程模型。HDFS负责数据的存储,MapReduce则负责数据的计算。Hadoop生态中也包含了其他子项目,如HBase、Hive、Zookeeper等,分别负责...

    基于GIS的电网地理信息分布式数据挖掘.pdf

    接下来,文章探讨了采用MapReduce编程模型来处理这些海量GIS数据。MapReduce模型是一种能够有效处理大数据并行计算任务的编程模型,尤其适用于需要大规模数据集的电网GIS数据处理场景。在该模型下,大数据被划分为...

    mr程序代码

    在大数据处理领域,MapReduce是一种广泛使用的编程模型,由Google提出并被Apache Hadoop采纳,用于处理和生成大规模数据集。本代码集主要是关于MR(MapReduce)程序的实现,涵盖了对文件操作、Hive数据仓库处理、...

    Ch6-HBase与Hive程序设计-04201

    1. **行式存储与列族**:HBase的数据模型是基于行的,每一行都有一个唯一的行键(Row Key),数据以列族的形式存储,每个列族可以包含多个列,列族内的列是动态扩展的,允许添加新的列。 2. **时间戳**:每个值都带...

    基于Hadoop数据分析系统设计(优秀毕业设计).docx

    2. MapReduce:MapReduce是一个并行计算编程模型,用于处理大规模数据集。它由Mapper和Reducer组成,Mapper负责数据的Split和Mapping,而Reducer负责数据的Aggregation和输出。 3. YARN:YARN是一个资源管理器,负责...

    大数据-面试宝典.pdf

    Hadoop是大数据处理的核心技术,本部分详细介绍了Hadoop的架构、HDFS文件系统、MapReduce编程模型、数据处理流程等知识点。同时还对Hadoop的性能优化、故障排除和安全机制进行了详细的介绍。 三、MapReduce阶段 ...

    Impala-Kudu-HBase-Spark安装文档

    **MySQL**的安装通常用于提供元数据存储,例如Hive和HBase的元数据信息。在CentOS中,可能需要先卸载自带的MySQL,再安装指定版本的MySQL5.6。 最后,是**Hive**的安装和配置,Hive是一个基于Hadoop的数据仓库工具...

    第四十九章:Hive数据仓库工具1

    Hive 提供了一种 SQL-like 查询语言(HiveQL,也称为 HQL),使得用户能够方便地对存储在 Hadoop 分布式文件系统(HDFS)上的结构化数据进行查询和分析,即使这些用户不熟悉 MapReduce 编程。Hive 的设计目标是支持...

Global site tag (gtag.js) - Google Analytics