`
085567
  • 浏览: 219106 次
  • 性别: Icon_minigender_1
  • 来自: 北京
社区版块
存档分类
最新评论

Sqoop

阅读更多

Sqoop是什么?

它是一个工具,一个在Hadoop和关系型数据库之间进行数据导入导出,它将这个过程中的大部分步骤自动执行,简化了使用者的。
同时,它将整个数据导入导出过程用MapReduce进行实现,充分利用了Hadoop分布式的优点.

实例场景

广告PV记录,包含广告ID,PV时间,访问IP三项信息
数据规模:1700万
原始位置:本机MySQL数据库

Sqoop从DB到HDFS

格式:

sqoop import (generic-args) (import-args)

常用参数:
–connect (jdbc-uri)       Specify JDBC connect string
–driver (class-name)     Manually specify JDBC driver class to use
–hadoop-home (dir)     Override $HADOOP_HOME
–help     Print usage instructions
-P     Read password from console
–password (password)     Set authentication password
–username (username)     Set authentication username
–verbose     Print more information while working

实例:

将数据导入HDFS:
sqoop import –connect jdbc:mysql://localhost:3306/sqoop_test –direct –table adpv –username root -P

此条语句会将adpv整个表导入到hdfs中,位置默认为/user/`whoami`/adpv
指定存放位置:
–target-dir
–direct参数是为了使用dump工具以提高导出速度
若要指定导出的列:–columns (col,col,col…)
若要指定条件:–where (where clause)
将数据导入Hive
sqoop import –connect jdbc:mysql://localhost:3306/sqoop_test –direct –table adpv –username root -P –hive-import [--hive-overwrite] –hive-table adpv_tmp
注意:此时sqoop会自动在hive中建立临时表,要保证此表不存在! 并且需要hdfs里使用一个同名临时文件夹

Sqoop从Hdfs到DB

格式

sqoop export (generic-args) (import-args)

相关参数:
–direct       Use direct export fast path
–export-dir (dir)     HDFS source path for the export
-m,–num-mappers (n)     Use n map tasks to export in parallel
–table (table-name)     Table to populate

实例

将数据从hdfs导入db
sqoop export –connect jdbc:mysql://localhost:3306/sqoop_test –table adpv –direct –export-dir adpv –username root -P

分享到:
评论
3 楼 help 2011-12-19  
[root@hadoop-namenode 1 5 /usr/local/sqoop-1.4.0-incubating/bin]#./sqoop --help
Warning: /usr/lib/hbase does not exist! HBase imports will fail.
Please set $HBASE_HOME to the root of your HBase installation.
Exception in thread "main" java.lang.NoSuchMethodError: org.apache.hadoop.conf.Configuration.getInstances(Ljava/lang/String;Ljava/lang/Class;)Ljava/util/List;
at org.apache.sqoop.tool.SqoopTool.loadPlugins(SqoopTool.java:139)
at org.apache.sqoop.Sqoop.runTool(Sqoop.java:210)
at org.apache.sqoop.Sqoop.runTool(Sqoop.java:229)
at org.apache.sqoop.Sqoop.main(Sqoop.java:238)
at com.cloudera.sqoop.Sqoop.main(Sqoop.java:57)
[root@hadoop-namenode 1 6 /usr/local/sqoop-1.4.0-incubating/bin]#
2 楼 085567 2011-04-08  
lvshuding 写道
请问,sqoop 安装时不用配置什么吗?

如果你不需要调整参数设置的话,不需要配置什么配置。
1 楼 lvshuding 2011-04-07  
请问,sqoop 安装时不用配置什么吗?

相关推荐

    Sqoop安装与使用

    Sqoop 安装与使用 Sqoop 是一款方便的在传统型数据库与 Hadoop 之间进行数据迁移的工具,充分利用 MapReduce 并行特点以批处理的方式加快数据传输。Sqoop 工具是 Hadoop 下连接关系型数据库和 Hadoop 的桥梁,支持...

    sqoop1-1.4.6 documentation 英文文档

    ### Sqoop 1.4.6 用户指南 #### 1. 引言 Sqoop 是一个用于在 Hadoop 和关系型数据库之间高效传输大规模数据的工具。它支持多种数据库,并且能够利用 MapReduce 进行并行化操作,极大地提高了数据导入导出的速度。 ...

    sqoop-1.4.7(可直接下载学习使用)附有安装配置教程!

    内容概要:Sqoop 1.4.7 安装包主要包括以下内容:Sqoop 命令行工具:用于执行数据迁移任务的客户端工具。连接器:Sqoop 支持多种数据库连接器,包括 MySQL、PostgreSQL、Oracle 等,用于连接目标数据库。元数据驱动...

    sqoop-1.4.7.zip

    Sqoop是Apache Hadoop生态中的一个工具,用于在关系型数据库和Hadoop之间高效地导入导出数据。在这个场景中,我们遇到了一个关于Sqoop运行时的问题,即"找不到或无法加载主类 org.apache.sqoop.sqoop"。这个问题通常...

    星环大数据平台_Sqoop数据导入.pdf

    星环大数据平台使用的Sqoop是一种在Hadoop与传统关系数据库之间进行数据迁移的工具。Sqoop利用MapReduce的分布式并行处理机制来实现数据的高效导入导出。在星环大数据平台中使用Sqoop,可以实现对数据的批量迁移,这...

    hue平台oozie工作流操作sqoop,把mysql.pdf

    本文主要讲述在Hue平台使用Oozie工作流操作Sqoop工具将MySQL数据库的数据传输到HDFS中,并最终导入到Hive表中的经验。以下是详细知识点: 1. Hue平台和Oozie工作流简介: Hue是一种开源的用户界面,用于简化与...

    大数据技术基础实验报告-sqoop的安装配置与应用.doc

    【大数据技术基础实验报告——Sqoop的安装配置与应用】 Sqoop是一款用于在Apache Hadoop和关系型数据库之间传输数据的工具,它简化了大量数据的导入导出过程。本实验报告将详细介绍如何安装配置Sqoop以及如何使用...

    sqoop-1.4.2.bin__hadoop-2.0.0-alpha.tar

    Sqoop 是 Apache Hadoop 生态系统中的一个工具,主要用于在关系型数据库(如 MySQL、Oracle 等)和 Hadoop 分布式文件系统(HDFS)之间高效地传输数据。这个压缩包 "sqoop-1.4.2.bin__hadoop-2.0.0-alpha.tar" 提供...

    sqoop-1.4.6.bin-hadoop-2.0.4-alpha版本的压缩包,直接下载到本地,解压后即可使用

    Sqoop(发音:skup)是一款开源的工具,主要用于在Hadoop(Hive)与传统的数据库(mysql、postgresql...)间进行数据的传递,可以将一个关系型数据库(例如 : MySQL ,Oracle ,Postgres等)中的数据导进到Hadoop的HDFS中,...

    2、sqoop导入(RMDB-mysql、sybase到HDFS-hive)

    Apache Sqoop 是一个用于在关系型数据库(如 MySQL 和 Sybase)与 Hadoop 分布式文件系统(HDFS)之间高效传输数据的工具。在大数据处理中,Sqoop 提供了方便的数据导入和导出功能,它能够将结构化的数据从传统...

    sqoop安装与使用

    ### Sqoop 安装与使用详解 #### 一、Sqoop功能概述 Sqoop是一款用于在Hadoop和关系型数据库之间高效传输数据的工具。它能够便捷地将关系型数据库管理系统(RDBMS)中的数据导入到HDFS或从HDFS导出到RDBMS中,同时也...

    Sqoop-sqlserver-hdfs.rar

    Sqoop是Apache Hadoop生态中的一个工具,专门用于在关系型数据库(如SQL Server)与Hadoop Distributed File System(HDFS)之间传输数据。在这个"Sqoop-sqlserver-hdfs.rar"压缩包中,我们有两个关键文件:sqljdbc....

    sqoop-1.4.6-cdh5.5.0.tar.gz

    《Sqoop 1.4.6 在 CDH 5.5.0 中的应用与详解》 Sqoop 是 Apache Hadoop 生态系统中的一个重要组件,它主要用于在关系型数据库(如 MySQL、Oracle 等)与 Hadoop 分布式文件系统(HDFS)之间进行数据迁移。 Sqoop 的...

    sqoop-1.4.7.bin__hadoop-2.6.0.tar

    Sqoop 是一个开源工具,主要用于在关系数据库管理系统(RDBMS)与 Apache Hadoop 之间进行数据迁移。这个压缩包 "sqoop-1.4.7.bin__hadoop-2.6.0.tar" 包含了 Sqoop 的 1.4.7 版本,该版本是针对 Hadoop 2.6.0 的。...

    sqoop-1.4.4-cdh5.0.6.tar

    Sqoop 是 Apache 开源项目中一个用于在关系数据库与 Hadoop 之间进行数据导入导出的工具。在大数据处理场景中,Sqoop 提供了一种高效、方便的方式将结构化数据从传统数据库如 MySQL、Oracle 等迁移到 Hadoop 的 HDFS...

    Sqoop集群搭建.

    Sqoop集群搭建指南 Sqoop是一款开源的数据转换工具,由 Apache 软件基金会开发,主要用于在 Hadoop 集群和结构化数据存储之间移动数据。Sqoop 集群搭建是指在 Hadoop 集群环境中安装和配置 Sqoop,以实现数据的高效...

    sqoop-1.4.6.bin__hadoop-2.0.4-alpha.tar.gz

    Sqoop 是一个用于在 Apache Hadoop 和传统关系型数据库之间高效传输数据的工具。这个压缩包 "sqoop-1.4.6.bin__hadoop-2.0.4-alpha.tar.gz" 包含了 Sqoop 的 1.4.6 版本,它已针对 Hadoop 2.0.4-alpha 版本进行了...

    sqoop-cdh安装包

    Sqoop是Apache Hadoop生态中的一个工具,用于在Hadoop和关系型数据库之间高效地导入导出数据。在CDH(Cloudera Distribution Including Apache Hadoop)环境下安装和使用Sqoop,可以方便地将结构化数据从传统的...

    sqoop-1.4.6.bin__hadoop-2.0.4-alpha.tar.zip

    Sqoop 是一个开源工具,主要用于在关系型数据库(如 MySQL、Oracle 等)与 Hadoop 的 HDFS(Hadoop Distributed File System)之间进行数据迁移。这个压缩包 "sqoop-1.4.6.bin__hadoop-2.0.4-alpha.tar.zip" 包含了 ...

    Sqoop学习文档(1){Sqoop基本概念、Sqoop的安装配置}.docx

    Sqoop 是一个用于在 Apache Hadoop 和传统关系型数据库之间进行数据迁移的工具。它主要负责将结构化的数据从 RDBMS(例如 MySQL)导入到 Hadoop 分布式文件系统(HDFS)、HBase 或 Hive,同时也能将数据从 Hadoop ...

Global site tag (gtag.js) - Google Analytics