`
reb12345reb
  • 浏览: 50162 次
  • 性别: Icon_minigender_1
  • 来自: 杭州
社区版块
存档分类
最新评论

Hadoop组件之-Sqoop

 
阅读更多

前置条件

已经成功安装配置HadoopMysql数据库服务器,如果将数据导入或从Hbase导出,还应该已经成功安装配置Hbase。

下载sqoopMysqlJDBC驱动

sqoop-1.2.0-CDH3B4.tar.gz http://archive.cloudera.com/cdh/3/sqoop-1.2.0-CDH3B4.tar.gz

mysql-connector-java-5.1.28

安装sqoop

[hadoop@appserver ~]$ tar -zxvf sqoop-1.2.0-CDH3B4.tar.gz

配置环境变量

拷贝Hadoop核心包和MYSQL驱动包到sqooplib目录

[hadoop@appserver ~]$ cp hadoop-1.1.2/hadoop-core-1.1.2.jar sqoop-1.2.0-CDH3B4/lib/

[hadoop@appserver ~]$ cp  mysql-connector-java-5.1.28-bin.jar sqoop-1.2.0-CDH3B4/lib/

 

配置sqoop-1.2.0-CDH3B4/bin/configure-sqoop文件

注释掉hbase和zookeeper检查(除非准备使用HABASE等HADOOP组件)

启动hadoop集群

启动mysql

创建sqoop用户

 

建立sqoop库,test表,并构造测试数据

测试sqoop连接

[hadoop@appserver ~]$ sqoop list-databases --connect jdbc:mysql://10.120.10.11:3306/ --username sqoop --password sqoop

列出mysql中所有数据库的名称

mysql导入到hdfs

sqoop ##sqoop命令

import ##表示导入

--connect jdbc:mysql://ip:3306/sqoop ##告诉jdbc,连接mysql的url

--username sqoop ##连接mysql的用户名

--password sqoop ##连接mysql的密码

--table test ##从mysql导出的表名称

--fields-terminated-by '\t' ##指定输出文件中的行的字段分隔符

-m 1 ##复制过程使用1个map作业

 

[hadoop@appserver ~]$ sqoop import --connect jdbc:mysql://10.120.10.11:3306/sqoop --username sqoop --password sqoop --table test --fields-terminated-by ':' -m 1

Hadoop中查看导入结果

hdfs导出到mysql

sqoop

export ##表示数据从hive复制到mysql中

--connect jdbc:mysql://ip:3306/sqoop

--username sqoop

--password sqoop

--table test ##mysql中的表,即将被导入的表名称

--export-dir '/user/root/aa/part-m-00000' ##hive中被导出的文件

--fields-terminated-by '\t' ##hive中被导出的文件字段的分隔符

[hadoop@appserver ~]$ sqoop export --connect jdbc:mysql://10.120.10.11:3306/sqoop --username sqoop --password sqoop --table test --export-dir '/user/hadoop/test/part-m-00000' --fields-terminated-by ':' -m 1

Mysql中查看导出结果

Mysql导入到Hbase

参数说明:

Ø hbase_tablename指定要导成hbase的表名

Ø key_col_name指定mysql数据库表中哪一列作为hbase新表的rowkey

Ø col_fam_name是除rowkey之外的所有列的列族名

[hadoop@appserver ~]$ sqoop import --connect jdbc:mysql://10.120.10.11:3306/sqoop --username sqoop --password sqoop --table test --hbase-create-table --hbase-table mysql_sqoop_test --column-family info --hbase-row-key id -m 1

Hbase中查看结果

分享到:
评论

相关推荐

    sqoop-1.4.6.bin__hadoop-2.0.4-alpha.tar.gz

    这个压缩包 "sqoop-1.4.6.bin__hadoop-2.0.4-alpha.tar.gz" 包含了 Sqoop 的 1.4.6 版本,它已针对 Hadoop 2.0.4-alpha 版本进行了优化。让我们深入了解一下 Sqoop 的核心功能、工作原理以及如何在 Hadoop 环境中...

    sqoop-1.4.6.bin__hadoop-2.0.4-alpha.tar.zip

    这个压缩包 "sqoop-1.4.6.bin__hadoop-2.0.4-alpha.tar.zip" 包含了 Sqoop 1.4.6 版本,该版本是为 Hadoop 2.0.4-alpha 版本定制的。Sqoop 的主要功能是让大数据分析师和开发人员能够方便地导入和导出数据,它弥补了...

    sqoop-1.4.2.bin__hadoop-2.0.0-alpha.tar

    这个压缩包 "sqoop-1.4.2.bin__hadoop-2.0.0-alpha.tar" 提供的是 Sqoop 1.4.2 版本,适用于与 Hadoop 2.0.0-alpha 版本集成。以下是对这个版本 Sqoop 的详细介绍以及相关的知识点: 1. **Sqoop 的作用**:Sqoop 是...

    Apache Hadoop---HBase.docx

    3. **HBase总体架构组件** - **HMaster**: 管理全局的HBase集群,负责HRegion的分配、RegionServer监控、负载均衡和清理垃圾文件。 - **HRegionServer**: 实际处理数据读写请求的节点,可以包含多个HRegion,共享...

    apache-atlas-2.2.0-sqoop-hook.tar.gz

    `apache-atlas-2.2.0-sqoop-hook.tar.gz` 是Apache Atlas的一个特定版本(2.2.0)与Sqoop集成的钩子(hook)包。这个钩子允许Atlas跟踪通过Sqoop操作的数据流动,从而增强元数据管理和血缘追踪的能力。Sqoop Hook...

    hadoop_sqoop-1.4.6.bin__hadoop-2.0.4-alpha.rar limux用

    首先,我们来看一下标题中的"hadoop_sqoop-1.4.6.bin__hadoop-2.0.4-alpha.rar",这表明我们将要操作的是Hadoop_Sqoop的1.4.6版本,这是针对Hadoop 2.0.4-alpha版本的一个特别打包。这个rar压缩文件包含了所有必要的...

    sqoop-1.4.5.bin__hadoop-2.0.4-alpha.tar

    《全面解析:Sqoop-1.4.5在Hadoop-2.0.4-alpha环境下的安装与使用》 Sqoop是一款开源的数据迁移工具,它主要用于在关系型数据库(如MySQL、Oracle等)和Hadoop之间进行数据的导入导出。在大数据处理中,Sqoop扮演...

    hadoop-0.20.2-CDH3B4.tar.gz下载

    本文将围绕"Hadoop-0.20.2-CDH3B4.tar.gz"这一压缩包,深入探讨解压后的内容及其在sqoop-1.2.0环境中的应用。 首先,"hadoop-0.20.2-CDH3B4.tar.gz"是一个针对CDH3(Cloudera Distribution Including Apache Hadoop...

    hadoop-2.6.0-cdh5.7.0版本.zip

    这里的“hadoop-2.6.0-cdh5.7.0版本”指的是Cloudera的Hadoop发行版,CDH(Cloudera Distribution Including Apache Hadoop)5.7.0中的Hadoop组件为2.6.0版本。这个版本包含了Hadoop生态系统中的多个关键组件,如...

    hadoop-2.0.0-cdh4.2.1的src

    - Sqoop:用于在Hadoop和传统数据库之间导入导出数据。 6. **源码分析** 深入研究`src`目录下的源代码,可以了解Hadoop的内部工作机制,如: - `hadoop-common`包含Hadoop的基础组件和服务,如网络通信、配置、...

    flinkx-1.10-sqoop-1.4.7.zip

    1. **sqoop-1.4.7.bin__hadoop-2.6.0.tar.gz**:这是一个包含Sqoop 1.4.7二进制文件的压缩包,与Hadoop 2.6.0版本兼容。用户可以通过解压此文件来安装和配置Sqoop,以便在Hadoop集群上使用。 2. **flinkx-1.10.zip**...

    安装笔记:hadoop+hbase+sqoop2+phoenix+kerberos

    【标题】:“安装笔记:hadoop+hbase+sqoop2+phoenix+kerberos” 【描述】:在本文中,我们将探讨如何在两台云主机(实际环境可能需要三台或更多)上安装Hadoop、HBase、Sqoop2、Phoenix以及Kerberos的详细过程,...

    hadoop-2.6.0-cdh5.10.1.tar.gz

    7. **Sqoop**:Sqoop是一个工具,专门设计用来在Hadoop和传统的关系型数据库之间进行数据导入导出。它可以高效地将结构化数据从RDBMS导入到Hadoop HDFS,反之亦然。 8. **Azkaban**:Azkaban是一个工作流作业调度...

    sqoop-1.4.7.bin__hadoop-2.6.0.tar

    这个压缩包 "sqoop-1.4.7.bin__hadoop-2.6.0.tar" 包含了 Sqoop 的 1.4.7 版本,该版本是针对 Hadoop 2.6.0 的。对于那些不想通过官方网站下载的用户,这是一个方便的选择。 在 Hadoop 生态系统中,Sqoop 提供了一...

    linux下编译过的hadoop jar包--hadoop-2.7.2.zip

    - Sqoop:用于在Hadoop和传统数据库间导入导出数据。 七、Hadoop的版本更新 Hadoop 2.x引入了YARN(Yet Another Resource Negotiator),作为新的资源管理和调度器,提高了系统的灵活性和效率。Hadoop 2.7.2是在...

    大数据实践-sqoop数据导入导出.doc

    5. 创建并编辑`sqoop-env.sh`文件,设置Hadoop、HBase、Hive等相关路径,确保Sqoop能够找到这些组件。 6. 注释掉`configure-sqoop`文件中与Accumulo和Zookeeper相关的检查,如果这些组件未安装或不需要使用。 7. ...

    Hadoop2.5.2+Sqoop-1.4.6

    【Hadoop2.5.2+Sqoop-1.4.6】的组合主要用于在大数据环境中实现MySQL数据库数据的导入到Hadoop的分布式文件系统(HDFS)中。Hadoop是一个开源的分布式计算框架,而Sqoop是一款专门用于在关系型数据库与Hadoop之间...

    big-data-101:大数据101 Hadoop-Python-Jupyter Notebook-Sqoop-Hive

    在大数据领域,"big-data-101"通常是指对大数据技术基础的全面介绍,而这个压缩包文件涉及了几个关键组件,包括Hadoop、Python、Jupyter Notebook、Sqoop和Hive。这些工具和技术是大数据处理和分析的核心,下面将...

    Hadoop集群HDP-2.6.4的部署

    - **Sqoop**:用于在Hadoop和关系型数据库之间高效传输大量数据的工具。 - **Flume**:用于收集、聚合和移动大量日志数据的高可靠、高性能的服务。 #### 二、系统环境介绍 ##### 2.1 系统主机名 本文档涉及的主机...

Global site tag (gtag.js) - Google Analytics