`
phz50
  • 浏览: 106488 次
  • 性别: Icon_minigender_1
社区版块
存档分类
最新评论

Hadoop学习全程记录——使用sqoop将mysql中数据导入到hive中

阅读更多
接上一篇文章:Hadoop学习全程记录——hive入门

hive是Facebook的产品,最早研发它的目的是用它来对Facebook网站每天产生的海量日志进行分析。有时我们需要分析的数据可能存在数据库中,这时我们可以利用sqoop将mysql中数据导入到hive中。

操作系统:在windows下使用wubi安装了ubuntu 10.10
hadoop版本:hadoop-0.20.2.tar.gz
zookeeper版本:zookeeper-3.3.3.tar.gz
hive版本:hive-0.6.0 .tar.gz
sqoop版本:sqoop-1.2.0-CDH3B4.tar.gz

其中sqoop是将mysql数据导入hive的工具。这篇文章http://archive.cloudera.com/cdh/3/sqoop-1.2.0-CDH3B4/SqoopUserGuide.html比较详细得介绍了sqoop的使用。

主要的使用命令为:
$ sqoop import --connect jdbc:mysql://IP:PORT/DATABASE --username USERNAME --password PASSWORD --table TABLE --hive-import


通过上面的命令我们就能把数据库DATABASE中的TABLE表导入到hive中了,在hive环境使用命令:
hive> show tables;

就能发现多了一个TABLE表了,接下来就可以使用hive对表中数据进行分析了。

在使用过程中可能遇到的问题:
  • sqoop依赖zookeeper,所以必须配置ZOOKEEPER_HOME到环境变量中。
  • sqoop-1.2.0-CDH3B4依赖hadoop-core-0.20.2-CDH3B4.jar,所以你需要下载hadoop-0.20.2-CDH3B4.tar.gz,解压缩后将hadoop-0.20.2-CDH3B4/hadoop-core-0.20.2-CDH3B4.jar复制到sqoop-1.2.0-CDH3B4/lib中。
  • sqoop导入mysql数据运行过程中依赖mysql-connector-java-*.jar,所以你需要下载mysql-connector-java-*.jar并复制到sqoop-1.2.0-CDH3B4/lib中。


只要注意这几点,我们就能使用sqoop将mysql中的表数据导入到hive进行并行计算分析了,当然只有在mysql中存在海量数据时才使用这个方法,一般数据量时,使用mysql的SQL语句已经足够了。
分享到:
评论

相关推荐

    hadoop安装文件.rar,内涵hadoop安装的步骤word,hadoop、hive、hbase、sqoop、mysql等

    通过Sqoop,我们可以将结构化的数据导入到Hadoop的HDFS中,或者将Hadoop中的数据导出到关系数据库。安装Sqoop需要确保已安装Hadoop和JDBC驱动,配置相关环境变量,如SQOOP_HOME,然后下载并解压Sqoop的源码或二进制...

    使用sqoop抽取mysql数据

    Sqoop 是一个用于在 Hadoop 和关系型数据库之间进行数据导入导出的工具,它使得在大数据处理场景下,能够方便地将结构化的数据从 MySQL 这样的 RDBMS(关系型数据库管理系统)转移到 Hadoop 的 HDFS(Hadoop 分布式...

    2、sqoop导入(RMDB-mysql、sybase到HDFS-hive)

    在本主题中,我们将深入探讨 Sqoop 的导入功能,特别是如何将数据从 MySQL 和 Sybase 数据库导入到 HDFS,并进一步加载到 Hive 表中。 ### 一、Sqoop 导入介绍 1. **语法结构**: Sqoop 导入数据的基本语法如下:...

    数据同步Sqoop用法之mysql与Hive导入导出.docx

    Sqoop 是一个专门用于将 Hadoop 和关系型数据库中的数据相互转移的工具,可以将一个关系型数据库(例如:MySQL、Oracle、Postgres 等)中的数据导进到 Hadoop 的 HDFS 中,也可以将 HDFS 的数据导进到关系型数据库...

    sqoop把mysql数据导入hbase2.1.6

    首先,Sqoop不仅支持将数据从关系型数据库如MySQL导入到HDFS或Hive,还能直接导入到HBase。关键在于正确使用参数: 1. `--hbase-table`:此参数用于指定导入的数据应存储在哪个HBase表中。不指定的话,数据将被导入...

    hadoop软件1,和hive_3,sqoop_2搭配使用

    例如,我们可以先使用Sqoop将关系数据库中的数据导入到Hadoop的HDFS中,然后通过Hive对这些数据进行清洗、转换和分析。分析完成后,如果需要将结果数据返回到数据库,同样可以利用Sqoop完成导出操作。这种组合应用...

    Sqoop安装及MySQL、HDFS、Hive、HBase 数据迁移实验

    内容概要:本文档提供了详细的 Sqoop 安装指南以及在 Ubuntu 上运行 Sqoop 实验的具体步骤,涵盖从环境搭建、 Sqoop 基础配置、 MySQL 连接器获取到常见数据迁移操作。文中介绍了通过 Sqoop 在 MySQL 和 HDFS 之间、...

    yinian_hive_increase_sqoop:sqoop从mysql同步数据到hive

    【标题】"yinian_hive_increase_sqoop:sqoop从mysql同步数据到hive" 描述了一种使用Apache Sqoop工具将数据从MySQL数据库高效地导入到Hadoop的Hive数据仓库的过程。这个过程在大数据处理中至关重要,因为它允许用户...

    分布式数据库课程设计+基于Hbase的滴滴出行数据分析+Hive+Hadoop+Mysql+Sqoop+可视化

    Sqoop 是一个用来在 Hadoop 和传统数据库之间进行数据迁移的工具,它可以将数据导入到 Hadoop 的 HDFS 中,也可以将 Hadoop 中的数据导出到关系型数据库中。在滴滴出行项目中,Sqoop 负责将 Hive 中经过分析的数据...

    sqoop 使用手册

    5. 执行 MapReduce 任务:Hadoop 分布式集群执行这些任务,将数据导入到 HDFS 或导出到 RDBMS。 三、Sqoop 常用命令及选项 1. `import` 命令:用于从 RDBMS 导入数据。例如: ``` sqoop import --connect jdbc:...

    mysql数据抽取,自动生成hive建表语句

    7. **数据导入**:使用ETL工具(如Apache Sqoop)或编写脚本,将MySQL数据导入到Hive中。这一步可能涉及数据格式转换、数据清洗等操作。 8. **验证与优化**:导入数据后,进行数据校验,确保数据一致性。根据业务...

    Sqoop安装与使用

    在将 mysql 数据库中的表导入到 HDFS 中时,需要启动 hadoop,登录 mysql 数据库,查看 hive 数据库中有哪些表,然后使用 sqoop 命令将 hive 数据库中的表导入到 HDFS 中。最后,查看是否导入 HDFS 中。 Sqoop ...

    Hive、MySQL、HBase数据互导

    使用Sqoop将数据从Hive导入MySQL**: - 使用Sqoop连接到Hive并指定要导出的表。 - 设置目标MySQL数据库的连接信息,包括用户名、密码、数据库名和表名。 - 执行Sqoop命令,将Hive表的数据导入到MySQL中。 **3. ...

    一个简单的Hive项目,使用了Sqoop、Hadoop、Hive、MySQL,对电商数据进行分析-BI_project.zip

    在这个项目中,可能使用了Sqoop将电商数据库中的交易记录、用户信息等导入到Hadoop的分布式文件系统(HDFS)中。通过编写SQL查询或者配置文件,Sqoop能够批量导入数据,同时支持各种数据库类型,确保数据迁移的灵活...

    mysql-connector-5.1.39,配合sqoop1.4.7和hive2.1.1使用

    4. **数据分析**:在Hadoop集群上,Hive可以读取由Sqoop导入的MySQL数据进行大规模的分析工作,利用Hadoop的分布式计算能力处理大量数据,然后将结果通过Sqoop返回到MySQL,或者直接在MySQL中进行进一步的处理和展示...

    hadoop搭建 zookeeper_hbase_hive_sqoop_mysql_spark_hdfs.doc

    安装Hive需要配置Hadoop路径、安装MySQL(作为元数据存储)、创建Hive库并启动Hive服务。 4. **MySQL**: MySQL作为Hive的元数据存储,需要安装MySQL服务器,创建Hive相关的数据库和表,并配置Hive连接MySQL的连接...

    23-Sqoop数据导入导出1

    3. **MapReduce作业**: Sqoop启动MapReduce作业,使用DataDrivenDBInputFormat将数据划分给多个Map任务,通常选择主键作为划分列以提高性能。 4. **数据处理**: Map任务执行SQL查询,将ResultSet中的数据反序列...

    sqoop 从 hive 导到mysql遇到的问题.docx

    例如,list-databases 命令用于列出 MySQL 数据库中的所有数据库,list-tables 命令用于列出指定数据库中的所有表格,import 命令用于将数据从 MySQL 导入到 Hive,export 命令用于将数据从 Hive 导出到 MySQL。...

    Sqoop数据采集工具简介、安装、使用学习笔记(配合Hive和Hbase)

    对于 Sqoop2,可以通过先将数据导入 HDFS,然后再使用 Load 或 Put 命令将数据加载到 Hive 或 HBase 中来解决。 - **Hive/HBase -> RDBMS**:两者均不支持直接转换,但可以通过以下步骤实现:先将数据从 Hive 或 ...

    基于Sqoop+Hive+Spark+MySQL+AirFlow+Grafana的工业大数据离线数仓项目

    在本项目中,Sqoop负责将工厂的生产数据从MySQL数据库导入到Hadoop的分布式文件系统(HDFS),以便后续的大数据处理。 接着,Hive作为基于Hadoop的数据仓库工具,允许用户通过SQL-like查询语言(HQL)对存储在HDFS...

Global site tag (gtag.js) - Google Analytics