`
kavy
  • 浏览: 896481 次
  • 性别: Icon_minigender_1
  • 来自: 上海
社区版块
存档分类
最新评论

HBase导出CSV格式数据的方法

 
阅读更多

 

转自:https://www.cppentry.com/bencandy.php?fid=118&id=187016

 

本文的测试环境为hbase-0.96.0 + yarn(hadoop-2.0.3-alpha) + pig-0.12.0。在测试前,先创建了一张名为test的hbase表,它内容非常简单,就只有一行数据:

HBase export工具导出的数据的格式是sequence file。比如,在执行完命令“bin/hbase org.apache.hadoop.hbase.mapreduce.Export test test-output-001”后,hbase会启动一个MapReduce作业,作业完成后会在hdfs上面会生成sequence file格式的数据文件:

当然,对于这类Sequence file格式的数据文件,HBase是可以直接将它导入到HBase的表里面的。

比如,我们创建另外一张hbase空表,名为test-01。命令为:“create 'test-01','cf'”。此时,表test-01的内容为空。

然后,执行命令“bin/hbase org.apache.hadoop.hbase.mapreduce.Import test-01 test-output-001”,随后hbase会启动一个MapReduce 作业:

此时,我们可以看到表test-01中已经成功导入了数据:

 

如果想从HBase中直接导出CSV格式的数据文件,可以借助Pig。步骤为:

a) 编辑名为ExportHbase.pig的文件:

REGISTER ${HBASE_HOME}/lib/htrace-core-2.01.jar;
REGISTER ${PIG_HOME}/contrib/piggybank/java/piggybank.jar;
x = LOAD 'hbase://test' USING org.apache.pig.backend.hadoop.hbase.HBaseStorage('cf:c1');
STORE x INTO 'test-tbl-data.csv' USING PigStorage('$');

b) 执行命令“bin/pig -x mapreduce ExportHbase.pig”,然后Pig会启动一个MapReduce job,执行完毕后会在hdfs上生成CSV格式的数据:

 

除了利用Pig,还可以用别的方法从HBase 导出CSV格式的数据:

- 编写Java程序,调用HBase API。

具体方法可以参考http://blog.csdn.net/macyang/article/details/8522677.

- 把HBase生成的Sequence file转化成CSV格式的文件

 

分享到:
评论

相关推荐

    hbase导出csv,文本,html文件

    标题“hbase导出csv,文本,html文件”指的是从HBase中导出数据并转换为常见的文本格式,如CSV、文本和HTML,以便于进一步的分析或报告生成。这个过程通常涉及到多个步骤,包括HBase与Hive的交互,以及数据的迁移和...

    hbase存储csv数据的代码实现

    在将CSV数据导入HBase之前,我们通常需要进行预处理,这包括数据清洗、转换以及将其格式化为适合HBase的键值对。以下是一个简单的Python示例,展示如何使用HappyBase库(一个Python HBase客户端)来实现这个过程: ...

    Hbase数据库界面管理器

    4. 导入导出:工具提供数据导入和导出功能,允许用户将数据从CSV或其他格式导入到HBase,或将HBase中的数据导出到文件系统,便于数据分析和备份恢复。 5. 权限管理:对于多用户环境,权限管理是必不可少的。该管理...

    Hbase 可视化客户端工具(非phoenix连接)

    用户可以将CSV或Excel文件批量导入到HBase表中,也可以将数据导出为各种格式,便于数据分析或备份。这对于数据迁移和数据交换场景非常有用。 在管理层面,此工具可能还包括权限管理、监控和报警功能。例如,可以...

    HbaseExplorer可视化工具

    - **数据导入导出**:允许用户批量导入或导出HBase表数据到CSV或其他格式,便于数据分析或迁移。 - **权限管理**:可以设置不同用户对HBase表的读写权限,实现数据安全控制。 - **元数据管理**:创建、删除、修改...

    HBase相关资料.zip

    这个目录可能包含了一些用于实践操作的数据文件,例如CSV、JSON或其他格式,这些数据可以用于填充HBase表,进行数据处理和查询实验,从而加深对HBase数据处理能力的理解。 综上所述,这个HBase相关资料包是一个...

    基于Hadoop的Web日志分析,包括日志的清洗、日志的统计分析、统计结果的导出、指标数据的Web展示.zip

    结果导出通常涉及将HDFS中的数据转换为适合其他系统使用的格式,如CSV或JSON。Hadoop的HDFS提供了丰富的数据导出工具,如sqoop,它可以将数据导入到关系型数据库,或者直接导出到文件系统。 4. **指标数据的Web...

    hbase运维手册

    Export工具允许将HBase中的数据导出到其他格式,如CSV文件,这有助于数据分析和处理。此外,它还可以用来将数据迁移到不同的HBase集群或其他数据库系统中。 ##### 1.1.6 Import 与Export相反,Import工具用于将外部...

    HBaseXplorer-master.zip

    3. **数据导入导出**:支持CSV文件导入和导出,使得数据迁移和备份变得简单。用户只需选择相应的文件,即可完成数据的导入导出操作。 4. **过滤与搜索**:提供了强大的查询过滤功能,用户可以根据需求设置过滤条件...

    基于Hadoop豆瓣电影数据分析实验报告

    数据通常以文本或CSV格式存在,需先导入Hadoop的Hive数据仓库进行预处理。Hive提供了SQL-like的语言来查询和管理数据,便于非程序员进行数据分析。 实验步骤如下: 1. **环境准备**:启动Hadoop集群,包括HDFS、...

    HareDB HBase Client:用于HBase的GUI工具(包括PIG和高速Hive查询)-开源

    3. 数据导入导出:便捷地导入和导出数据到HBase,支持不同格式如CSV或JSON。 4. 表管理:创建、删除、修改HBase表,管理列族和列。 5. 安全性:可能提供访问控制和权限管理,确保数据安全。 6. 性能监控:实时查看...

    python大数据处理与分析数据集与源代码.zip

    8. **数据导入与导出**: 数据通常存储在各种格式如CSV、JSON、数据库等,Python的csv、json、pandas等库可以帮助我们方便地读取和写入数据。 9. **大数据存储**: 如MongoDB、Cassandra等NoSQL数据库,以及HBase这样...

    离线数据处理练习表数据

    DataFrame是一种分布式的、可以进行优化的表格数据结构,支持多种数据源,包括HDFS、Cassandra、HBase等。 gy_pub.sql和ds_pub.sql可能是两个SQL脚本文件,分别包含了对特定数据集的查询或操作。这些文件可能包含...

    第二章---数据化运营的数据来源1

    这些文件中存储的数据可能是结构化的,比如数据库导出,也可能是非结构化的,如文本或图像。结构化数据易于分析和处理,而非结构化数据需要更复杂的解析技术来提取价值。 数据库是另一种关键的数据来源,尤其在企业...

    大数据Loader架构原理.pdf

    4. External DataSource:外部数据源,包括JDBC驱动支持的关系型数据库和文本文件(支持GZ压缩和CSV格式)。 Loader的部署原则要求Loader必须部署在NodeManager所在的节点上,并且至少在两个节点上部署以实现主备...

    Hive案例数据集.rar

    这些数据集通常以CSV、JSON或Parquet等格式存储,便于Hive进行解析和处理。 三、Hive数据模型 Hive的数据模型基于传统的关系型数据库模型,包括数据库(Database)、表(Table)、分区(Partition)和桶(Bucket)...

    H3C DataEngine ETL手册V1.1.docx

    - **OratoMPP使用**:配置好Oracle客户端后,用户可以通过OratoMPP进行数据抽取设置,指定要导出的表和字段,最后将数据导出为文件,例如CSV、XML或二进制格式。 4. **数据库自带工具抽取数据(数据库到文件)** ...

    大数据平台日志存储分析系统解决方案.docx

    Spark Streaming是Apache Spark的一部分,它提供了一种处理实时数据流的方法。在这里,Spark Streaming负责从Kafka读取日志数据,并将其写入到HBase,HBase是一个高度可扩展的NoSQL数据库,特别适合存储大规模非结构...

Global site tag (gtag.js) - Google Analytics