`
yangfuchao418
  • 浏览: 167177 次
  • 性别: Icon_minigender_1
  • 来自: 上海
社区版块
存档分类
最新评论

MySQL向Hive/HBase的迁移工具

阅读更多
Apache Hive是目前大型数据仓库的免费首选产品之一,使用Apache Hive的人是不会期望在小数据量上做什么文章,例如把MySQL中的数据搬到Hive/HBase中去,那样的话原先很快能执行完毕的SQL,估计在Hive上运行跟原来相比时间延长10倍都不止。但如果你有MySQL数据可以把大量的数据向Hive导入,如果上亿条的数据量再加上复杂的SQL查询条件对于MySQL来说是一件比较头疼的事情,此时相比而言对于Hive来说还算比较easy没有那么非常的头痛,但是两者之间缺少一个沟通的桥梁。

                                              http://public.bay.livefilestore.com/y1p60OKte_dOFw7ZYaJxmWbVsmeD9khYFhlFKAFPqOg1Tg1utFKgemKSCsvkBOkvJMnU73WqnN_HXypPGmLo6oJtw/mysql-sqoop-hive.png?psid=1

而然伟大的云计算公司cloudera.com也是Hadoop强力支持者推出了Sqoop,Sqoop顾名思义SQL-to-Hadoop,在sqoop中通过 ManagerFactory 抽象类对多种数据库类型进行了抽象,可以做到 Hsqldb、MySQL、Oracle、PostgreSQL 这些数据库中的数据可以向Hive中写入。
http://public.bay.livefilestore.com/y1pKunc2kOxZ0w1tVFtqFGKBJhHLXyhqCi3OgRu4r_KCnGR4OEnxHeXiZHJwCLwnIwoeTV-yLxROi-2n_3mBiD0HA/mysql-sqoop-hive-2.png?psid=1

   从导出/导入所有数据一条命令即可,而且可以对表和数据的筛选,开发的效率提升和配置的简洁是这个工具的特色所在,同样的机器配置、机器数量、数据量和数据内容,但是换了不同的环境得到了不同的执行效率,通过对RMDBS到Hadoop的迁移,带来了性能的提升,所以就体现了sqoop的价值。

在一次开发大会上提到的Sqoop主要功能
    JDBC-based implementation
        ▪ Works with many popular database vendors
    Auto-generation of tedious user-side code
        ▪ Write MapReduce applications to work with your data, faster
    Integration with Hive
        ▪ Allows you to stay in a SQL-based environment
    Extensible backend
        ▪ Database-specific code paths for better performance

http://public.bay.livefilestore.com/y1pKunc2kOxZ0y2Pt8yOPnxCxLDqYhdKYcnyzq0g3mYjyyat1WZPHAyA4tWkH2DR7rYwENP9xdRVb8XTmOczMsx6Q/mysql-sqoop-hive-1.png

具体操作手册相见:
http://archive.cloudera.com/cdh/3/sqoop/SqoopUserGuide.html (官方)

http://www.javabloger.com/article/hadoop-hive-mysql-sqoop.html
分享到:
评论

相关推荐

    Sqoop数据采集工具简介、安装、使用学习笔记(配合Hive和Hbase)

    它支持多种关系型数据库,如 MySQL、Oracle、PostgreSQL 等,并且能够很好地与 Hadoop 生态系统中的其他组件(例如 Hive 和 HBase)协同工作。 本篇笔记主要围绕 Sqoop 的使用场景、安装步骤以及如何配合 Hive 和 ...

    Sqoop安装及MySQL、HDFS、Hive、HBase 数据迁移实验

    文中介绍了通过 Sqoop 在 MySQL 和 HDFS 之间、MySQL 和 Hive 之间以及 MySQL 和 HBase 之间的数据互导过程,包括如何处理常见的错误。同时,也详细记录了 MySQL 用户创建、授权、数据插入和 Sqoop 配置的相关细节。...

    hadoop安装文件.rar,内涵hadoop安装的步骤word,hadoop、hive、hbase、sqoop、mysql等

    本压缩包"hadop安装文件.rar"提供了关于Hadoop及其相关组件(如Hive、HBase、Sqoop和MySQL)的安装步骤,这对于初学者和系统管理员来说是一份宝贵的资源。 首先,我们来详细了解一下Hadoop。Hadoop由Apache软件基金...

    sqoop把mysql数据导入hbase2.1.6

    首先,Sqoop不仅支持将数据从关系型数据库如MySQL导入到HDFS或Hive,还能直接导入到HBase。关键在于正确使用参数: 1. `--hbase-table`:此参数用于指定导入的数据应存储在哪个HBase表中。不指定的话,数据将被导入...

    aquila:迁移工具,目标是Oracle,MySQL,SqlServer到PostgreSQL单项迁移,PostgreSQL和大数据平台Hive,Hbase,Impala等的双向迁移

    Aquila是一款专业的数据库迁移工具,主要用于帮助用户将数据从Oracle、MySQL、SQL Server等传统关系型数据库迁移到PostgreSQL,并且支持从PostgreSQL向大数据平台如Hive、Hbase、Impala等进行双向迁移。这款工具是用...

    分布式数据库课程设计+基于Hbase的滴滴出行数据分析+Hive+Hadoop+Mysql+Sqoop+可视化

    2.2.3 Sqoop 数据迁移工具 Sqoop 是一个用来在 Hadoop 和传统数据库之间进行数据迁移的工具,它可以将数据导入到 Hadoop 的 HDFS 中,也可以将 Hadoop 中的数据导出到关系型数据库中。在滴滴出行项目中,Sqoop 负责...

    hive-1.1.0-cdh5.14.2.tar.gz和mysql-connector-java-5.1.38.jar连接包

    这个版本的驱动对应的是MySQL 5.1系列,提供了JDBC接口,使得Hive可以与MySQL数据库进行连接,例如作为元数据存储或者数据迁移的中间环节。 在使用这两个组件时,我们需要了解以下关键知识点: 1. **Apache Hive**...

    yinian_hive_increase:datax从mysql同步数据到hive

    "yinian_hive_increase"项目专注于如何利用DataX工具高效地将MySQL中的数据同步到Hive中。DataX是阿里巴巴开源的一款强大的数据同步框架,支持多种数据源之间的数据迁移,如关系型数据库(如MySQL)与大数据存储(如...

    hbase导出csv,文本,html文件

    这个过程通常涉及到多个步骤,包括HBase与Hive的交互,以及数据的迁移和转换。 描述中提到的方法是首先通过HBase的条件查询功能筛选出所需的数据,然后将这些数据导出到Hive中。Hive提供了更灵活的数据处理能力,...

    hive.ziphive数据迁移和数据分析

    1. **数据源准备**:数据迁移的第一步是确定数据源,可能来自关系型数据库(如MySQL、Oracle等)、NoSQL存储(如HBase)或其他HDFS文件。Hive支持多种数据导入方式,如`LOAD DATA`命令、`INSERT OVERWRITE`语句、`...

    hive-1.1.0-cdh5.9.3

    4. SQL兼容性:Hive的HQL语言进一步向SQL靠近,使得传统数据库的用户能更轻松地迁移和使用。 5. 动态分区:动态分区功能允许用户在插入数据时自动创建新的分区,提高了数据管理的灵活性。 6. 安全性:CDH5.9.3版本的...

    Doris介绍、原理、安装、集成hive

    例如,海底捞使用Doris构建了统一数仓,替代了原有的复杂架构(Spark、Hive、Kudu、HBase、Phoenix等),显著简化了数据处理流程。 ##### 4. 数据湖联邦查询 - **联合分析**:无需数据复制即可查询存储在Hive、Ice...

    mysql-5.6.50-linux-glibc2.12-x86_64.tar.gz

    这可能涉及设置数据迁移工具,如sqoop,用于在Hadoop和MySQL之间高效地移动数据,或者使用Apache Kylin等工具创建针对MySQL数据的交互式分析层。 总结起来,"mysql-5.6.50-linux-glibc2.12-x86_64.tar.gz"是一个...

    Sqoop中文文档

    Sqoop是一款功能强大且广泛应用于大数据领域的数据导入工具,该工具可以将关系数据库中的数据导入到Hadoop生态系统中,如Hive、HBase等。本文档旨在为读者提供一个全面的Sqoop中文手册,涵盖了Sqoop的使用、codegen...

    藏经阁-HBase 在有赞的平台实践和应用.pdf

    在提升效率的工具上,有赞开发了Hive到HBase的批量加载工具,实现了HBase集群间的数据同步,以及MySQL到HBase的数据迁移。同时,提供了在线查询工具,便于用户进行adhoc查询。这些工具大大提高了数据处理和迁移的...

    Sqoop安装与使用

    Sqoop 安装与使用 ...Sqoop 工具是一个非常有用的数据迁移工具,可以帮助用户将传统型数据库中的数据迁移到 Hadoop 中,并进行数据分析和处理。但是,Sqoop 工具的安装和配置需要一定的技术基础和经验。

    23-Sqoop数据导入导出1

    总结,Sqoop是大数据生态中重要的数据迁移工具,它简化了数据库与Hadoop之间的数据交互。理解其工作原理和操作步骤,能够有效地在不同系统间迁移和管理数据。在实际应用中,应结合具体场景,灵活运用各种优化策略,...

    sqoop组件部署.doc

    Sqoop是一款专为Hadoop设计的数据迁移工具,它使得在传统的关系型数据库(如MySQL、Oracle、Postgres等)与Hadoop的HDFS之间进行数据传输变得更加便捷。自2009年启动以来,Sqoop经历了从Hadoop的第三方模块到独立...

    sqoop工具_202006041735481.docx

    ### Apache Sqoop 数据迁移工具详解 #### Sqoop 概述 Apache Sqoop 是一款开源工具,专注于实现关系型数据库管理系统(RDBMS)与Hadoop生态之间的高效数据交换。它支持将传统数据库中的数据导入Hadoop及其相关组件...

Global site tag (gtag.js) - Google Analytics