`
dacoolbaby
  • 浏览: 1267166 次
  • 性别: Icon_minigender_1
  • 来自: 广州
社区版块
存档分类
最新评论

Sqoop1.4.2数据同步工具基础使用

阅读更多

我们使用Sqoop主要是用作数据库和HDFS之间的数据同步操作。

那么在HDFS中主要使用的管理工具是HIVE。

 

目前,使用Sqoop使用 hive-import功能是有异常的。

在使用hive-import功能的时候,会自动生成CREATE TABLE 脚本。

而无法根据Hive的Metadata来进行操作。

 

而在使用-query功能,也就是通过查询脚本进行数据导入时,是必须要指定--target-dir的。

而且使用-query中,query里面必须要加上$CONDITIONS (注意S)

这一点在结合Hive使用的时候会带来一些麻烦。

 

那么这里先展示一下从Oracle导入数据的脚本(注意,使用Oracle脚本的时候使用英文大写!):

sqoop import --connect jdbc:oracle:thin:@xx.xx.xx.xx:1582:test\
       --username aaaaaa  \
       --password xxxxx  \
      --query "SELECT A,B,C FROM TEST WHERE \$CONDITIONS" \
      -m 1   \
      --target-dir /user/daxingyu930/warehouse/test  \
      --fields-terminated-by '\t' --lines-terminated-by '\n'  \
      --append  \
      --verbose

--verbose是显示debug信息

--append表示不会覆盖原有的HDFS数据,而是增加数据。

--fields & lines...这个就指定分隔符和换行符。

在Hive建表后再导入对应的数据,好指定对应的分隔符换行符。 

 

关于使用Sqoop进行数据导出。是不支持读取Hive的元数据功能的。

所以HDFS中是什么样的字段顺序,那么导出就是怎样的顺序。

 

sqoop export --connect jdbc:oracle:thin:@xx.xx.xx.xx:1582:test  \
  --username aaaaaa --password xxxxx   \ 
  --table PA18ODSDATA.TEST  \  
  --export-dir /user/daxingyu930/warehouse/test \ 
  --input-fields-terminated-by '\t'

 

PS.QUEST公司由一个Sqoop对应Oracle数据同步工具,有网友测试效率相当喜人。 

 

 

 

分享到:
评论

相关推荐

    sqoop-1.4.2.bin__hadoop-2.0.0-alpha.tar

    Sqoop 是 Apache Hadoop 生态系统中的一个工具,主要用于在关系型数据库(如 MySQL、Oracle 等)和 Hadoop...理解和熟练掌握 Sqoop 的使用,能极大地提升数据导入和导出的效率,为后续的大数据分析工作打下坚实的基础。

    sqoop导入数据到hive中,数据不一致

    在大数据处理领域,Sqoop和Hive是两个重要的工具,分别用于数据迁移和数据仓库管理。当使用Sqoop将数据导入Hive时,有时可能会遇到数据不一致的问题,这可能是由于多种原因引起的。本文将深入探讨这个问题,并提供...

    Sqoop安装与使用

    Sqoop 安装与使用 Sqoop 是一款方便的在传统型数据库与 Hadoop 之间进行数据迁移的工具,充分利用 MapReduce 并行特点以批处理的方式加快数据传输。...但是,Sqoop 工具的安装和配置需要一定的技术基础和经验。

    数据11sqoop-数据仓库工具箱 数据挖掘.docx

    ..数据》11sqoop--数据仓库工具箱 数据挖掘.docx

    数据11sqoop-数据仓库工具箱 数据挖掘.pdf

    ..数据》11sqoop--数据仓库工具箱 数据挖掘.pdf

    使用sqoop抽取mysql数据

    Sqoop 是一个用于在 Hadoop 和关系型数据库之间进行数据导入导出的工具,它使得在大数据处理场景下,能够方便地将结构化的数据从 MySQL 这样的 RDBMS(关系型数据库管理系统)转移到 Hadoop 的 HDFS(Hadoop 分布式...

    sqoop导入数据到hdfs路径

    Sqoop是一款开源工具,主要用于在Hadoop和关系型数据库之间高效地传输大量数据。它利用MapReduce作业来提取、转换和加载(ETL)数据。通过Sqoop,用户可以从关系型数据库(如MySQL、Oracle等)中抽取数据并存储到...

    Sqoop数据采集工具简介、安装、使用学习笔记(配合Hive和Hbase)

    ### Sqoop 数据采集工具简介 #### 一、概述 **Sqoop** 是一款开源的工具,主要用于在 **Hadoop** 和传统的数据库之间高效地传输大量数据。它支持多种关系型数据库,如 MySQL、Oracle、PostgreSQL 等,并且能够很好...

    sqoop把mysql数据导入hbase2.1.6

    在这个过程中,我们需要使用Apache Sqoop工具,它是一个用于在Hadoop和传统数据库间进行数据迁移的工具。在本文中,我们将详细介绍如何进行这个操作,以及解决可能出现的问题。 首先,Sqoop不仅支持将数据从关系型...

    星环大数据平台_Sqoop数据导入.pdf

    星环大数据平台使用的Sqoop是一种在Hadoop与传统关系数据库之间进行数据迁移的工具。Sqoop利用MapReduce的分布式并行处理机制来实现数据的高效导入导出。在星环大数据平台中使用Sqoop,可以实现对数据的批量迁移,这...

    sqoop的数据导入

    Sqoop 是 Apache 开源项目中一个用于在关系型数据库(如 MySQL、Oracle 等)与 Hadoop 之间进行数据迁移的工具。它的主要功能是将结构化数据从传统数据库导入到 Hadoop 的 HDFS(Hadoop Distributed File System),...

    sqoop测试数据

    mysql数据库商品表、品牌和品牌分类表数据,该数据完全是个人自己创建的数据。

    大数据技术基础实验报告-sqoop的安装配置与应用.doc

    Sqoop是一款用于在Apache Hadoop和关系型数据库之间传输数据的工具,它简化了大量数据的导入导出过程。本实验报告将详细介绍如何安装配置Sqoop以及如何使用它进行数据的导入导出。 **一、Sqoop安装** 1. 首先,你...

    实战Sqoop数据导入及大数据用户行为案例分析

    实战Sqoop数据导入及大数据用户行为案例分析(全套视频+代码+工具+课件讲义) 内容包括: 01_CDH版本框架的介绍 02_CDH版本框架的环境部署 03_Sqoop的介绍及其实现原理 04_Sqoop的安装部署及连接测试 05_Sqoop将...

    sqoop 使用手册

    Sqoop 是 Apache 开源项目中的一款工具,专门用于在关系型数据库(如 MySQL、Oracle 等)和 Hadoop 的 HDFS 之间进行数据传输。它简化了大数据环境中的数据导入和导出过程,使传统数据库的数据能方便地融入到 Hadoop...

    2018最新高清大数据协作框架全套视频教程(Sqoop,Flume,Oozie,WEB工具Hue)

    第1章 数据转换工具Sqoop 1.02_02_01_01 大数据Hadoop 2.x协作.框架的功能 网页.mp4 1.02_02_01_02 Sqoop 功能概述和版本、架构讲解 网页.mp4 1.02_02_01_03 Sqoop 使用要点(核心)及企业版本讲解.mp4 1.02_02_01_...

    大数据系列2020-数据迁移工具资料汇总(sqoop、kettle、datax).zip

    本资料汇总主要聚焦于三大常用的数据迁移工具:Sqoop、Kettle和DataX,它们各有特色,广泛应用于不同的场景。接下来,我们将深入探讨这三个工具的核心功能、应用场景以及使用技巧。 Sqoop 是Apache开发的一款用于...

    SearchEngine-sqoop数据导入

    sqoop数据导入 sqoop数据导入 sqoop数据导入 sqoop数据导入 sqoop数据导入

    23-Sqoop数据导入导出1

    Sqoop是一个用于在关系型数据库和Hadoop之间传输数据的工具,它利用Hadoop的MapReduce框架实现大规模数据的高效导入和导出。本篇将详细介绍Sqoop的导入和导出过程,以及在MySQL、HDFS、Hive和HBase之间的具体操作。 ...

    实验13-sqoop数据集成.docx

    Sqoop提供了一个命令行接口,用户可以使用Sqoop工具将数据从关系型数据库中导入到Hadoop分布式文件系统中,也可以将数据从Hadoop分布式文件系统中导出到关系型数据库中。 本实验的主要目的就是熟悉Sqoop数据集成,...

Global site tag (gtag.js) - Google Analytics