`
yangfuchao418
  • 浏览: 163259 次
  • 性别: Icon_minigender_1
  • 来自: 上海
社区版块
存档分类
最新评论

MySQL向Hive/HBase的迁移工具

阅读更多
Apache Hive是目前大型数据仓库的免费首选产品之一,使用Apache Hive的人是不会期望在小数据量上做什么文章,例如把MySQL中的数据搬到Hive/HBase中去,那样的话原先很快能执行完毕的SQL,估计在Hive上运行跟原来相比时间延长10倍都不止。但如果你有MySQL数据可以把大量的数据向Hive导入,如果上亿条的数据量再加上复杂的SQL查询条件对于MySQL来说是一件比较头疼的事情,此时相比而言对于Hive来说还算比较easy没有那么非常的头痛,但是两者之间缺少一个沟通的桥梁。

                                              http://public.bay.livefilestore.com/y1p60OKte_dOFw7ZYaJxmWbVsmeD9khYFhlFKAFPqOg1Tg1utFKgemKSCsvkBOkvJMnU73WqnN_HXypPGmLo6oJtw/mysql-sqoop-hive.png?psid=1

而然伟大的云计算公司cloudera.com也是Hadoop强力支持者推出了Sqoop,Sqoop顾名思义SQL-to-Hadoop,在sqoop中通过 ManagerFactory 抽象类对多种数据库类型进行了抽象,可以做到 Hsqldb、MySQL、Oracle、PostgreSQL 这些数据库中的数据可以向Hive中写入。
http://public.bay.livefilestore.com/y1pKunc2kOxZ0w1tVFtqFGKBJhHLXyhqCi3OgRu4r_KCnGR4OEnxHeXiZHJwCLwnIwoeTV-yLxROi-2n_3mBiD0HA/mysql-sqoop-hive-2.png?psid=1

   从导出/导入所有数据一条命令即可,而且可以对表和数据的筛选,开发的效率提升和配置的简洁是这个工具的特色所在,同样的机器配置、机器数量、数据量和数据内容,但是换了不同的环境得到了不同的执行效率,通过对RMDBS到Hadoop的迁移,带来了性能的提升,所以就体现了sqoop的价值。

在一次开发大会上提到的Sqoop主要功能
    JDBC-based implementation
        ▪ Works with many popular database vendors
    Auto-generation of tedious user-side code
        ▪ Write MapReduce applications to work with your data, faster
    Integration with Hive
        ▪ Allows you to stay in a SQL-based environment
    Extensible backend
        ▪ Database-specific code paths for better performance

http://public.bay.livefilestore.com/y1pKunc2kOxZ0y2Pt8yOPnxCxLDqYhdKYcnyzq0g3mYjyyat1WZPHAyA4tWkH2DR7rYwENP9xdRVb8XTmOczMsx6Q/mysql-sqoop-hive-1.png

具体操作手册相见:
http://archive.cloudera.com/cdh/3/sqoop/SqoopUserGuide.html (官方)

http://www.javabloger.com/article/hadoop-hive-mysql-sqoop.html
分享到:
评论

相关推荐

    aquila:迁移工具,目标是Oracle,MySQL,SqlServer到PostgreSQL单项迁移,PostgreSQL和大数据平台Hive,Hbase,Impala等的双向迁移

    aquila 迁移工具,目标是Oracle,MySQL,SqlServer到PostgreSQL单项迁移,PostgreSQL和大数据平台Hive,Hbase,Impala等的双向迁移。

    分布式数据库课程设计+基于Hbase的滴滴出行数据分析+Hive+Hadoop+Mysql+Sqoop+可视化

    2.2.3 Sqoop 数据迁移工具 Sqoop 是一个用来在 Hadoop 和传统数据库之间进行数据迁移的工具,它可以将数据导入到 Hadoop 的 HDFS 中,也可以将 Hadoop 中的数据导出到关系型数据库中。在滴滴出行项目中,Sqoop 负责...

    sqoop把mysql数据导入hbase2.1.6

    首先,Sqoop不仅支持将数据从关系型数据库如MySQL导入到HDFS或Hive,还能直接导入到HBase。关键在于正确使用参数: 1. `--hbase-table`:此参数用于指定导入的数据应存储在哪个HBase表中。不指定的话,数据将被导入...

    Sqoop中文文档

    Sqoop是一款功能强大且广泛应用于大数据领域的数据导入工具,该工具可以将关系数据库中的数据导入到Hadoop生态系统中,如Hive、HBase等。本文档旨在为读者提供一个全面的Sqoop中文手册,涵盖了Sqoop的使用、codegen...

    Sqoop安装与使用

    Sqoop 安装与使用 ...Sqoop 工具是一个非常有用的数据迁移工具,可以帮助用户将传统型数据库中的数据迁移到 Hadoop 中,并进行数据分析和处理。但是,Sqoop 工具的安装和配置需要一定的技术基础和经验。

    大数据-sqoop.pptx

    Sqoop是一款开源的工具,主要用于在Hadoop(Hive)与传统的数据库(Mysql、Postgresql...)间进行数据的传递,可以将一个关系 型数据库(例如 : MySQL ,Oracle ,Postgres等)中的数据导进到Hadoop的HDFS中,也可以将...

    23-Sqoop数据导入导出1

    总结,Sqoop是大数据生态中重要的数据迁移工具,它简化了数据库与Hadoop之间的数据交互。理解其工作原理和操作步骤,能够有效地在不同系统间迁移和管理数据。在实际应用中,应结合具体场景,灵活运用各种优化策略,...

    第8章-大数据采集.pptx

    它的主要功能包括将数据从MySQL、Oracle等RDBMS导入到HDFS、HIVE、HBASE,以及将HDFS、HIVE、HBASE中的数据导出回关系数据库。Sqoop利用MapReduce的并行性和高容错性,确保高效的数据迁移。当前存在两个版本:Sqoop1...

    HADOOP1+xdashuju模拟题

    这些题目涵盖了Hadoop生态系统中的多个知识点,包括操作系统基础、Hadoop安装配置、Hadoop版本区别、核心配置文件、MapReduce工作原理以及相关的辅助工具如Hive、HBase、ZooKeeper和Sqoop等。下面是对这些知识点的...

    阿里云ossjava源码-DataX-Migration:基于阿里巴巴DataX3.0的全数据库迁移工具

    阿里云 ...MySQL、Oracle、SqlServer、Postgre、HDFS、Hive、ADS、HBase、OTS、ODPS 等各种异构数据源之间高效的数据同步功能。 DataX 在阿里巴巴集团内被广泛使用,承担了所有大数据的离线同步业务,

    大数据平台运维架构实践.pdf

    魅族大数据平台架构包括AnyStream Agent、Flume Collector、Metaq、Spark Streaming、DB、AnyStream Agent、HDFS、Zookeeper、YARN、MR、Hive/Pig、Kerberos、LDAP、Spark、Mysql、Oracle、Vertica、Hbase等组件。...

    datax-es:从mysql导入es 重写代码

    DataX 是阿里巴巴集团内被广泛使用的离线数据同步工具/平台,实现包括 MySQL、Oracle、SqlServer、Postgre、HDFS、Hive、ADS、HBase、TableStore(OTS)、MaxCompute(ODPS)、DRDS 等各种异构数据源之间高效的数据同步...

    sqoop的原理及概念

    Sqoop 的架构非常简单,整合了 Hive、Hbase 和 Oozie,通过 map-reduce 任务来传输数据,从而提供并发特性和容错。 二、Sqoop 的工作流程 Sqoop 的工作流程可以分为以下几个步骤: 1. 读取要导入数据的表结构,...

    大数据工程师简历3份.docx

    10. **Sqoop数据迁移**:熟悉数据迁移工具Sqoop,能将数据在不同存储之间灵活迁移。 11. **Linux系统**:具备Linux基础,熟练使用shell命令,能在Linux环境下搭建开发环境。 12. **Java技术**:精通Java SE,包括...

    sqoop.pptx

    - Sqoop2在安全性方面进行了增强,支持Kerberos集成,但在某些功能上如从RDBMS到Hive或HBase的直接传输,以及从Hive或HBase回传RDBMS,需要通过多步骤操作实现。 **Sqoop的用途:** Sqoop的主要应用场景是在HDFS和...

    Java EE企业级应用向Hadoop平台迁移的技术研究.pdf

    此外,Hadoop生态系统还包括许多扩展项目,如HBase、Cassandra等分布式数据库,以及Spark、Hive等数据分析工具,这些工具进一步增强了Hadoop的功能。 在迁移过程中,首要任务是数据迁移。对于存储在关系型数据库...

    Apache Sqoop.docx

    它支持多种数据库系统,包括 MySQL、Oracle、PostgreSQL 等,并且能够与 Hive、HBase 等 Hadoop 生态系统组件无缝集成。通过 Sqoop,用户可以方便地执行全量或增量数据迁移,同时具备将数据转换为适合 Hadoop 处理的...

    sqoop安装手册

    Sqoop 是 Apache Hadoop 生态系统中的一个工具,主要用于在 Hadoop 和关系型数据库之间进行数据迁移。这篇安装手册详细介绍了如何在服务器上安装和配置 Sqoop,以便于新手能够顺利进行操作。 首先,你需要从 Apache...

    大数据技术之Sqoop.doc

    Sqoop,全称为SQL-to-Hadoop,是一款专为大数据处理设计的开源工具,主要用于在Hadoop(Hive)与传统的关系型数据库之间进行数据传递。它的主要功能包括将关系型数据库(如MySQL, Oracle, PostgreSQL等)中的数据...

Global site tag (gtag.js) - Google Analytics