`
kavy
  • 浏览: 888278 次
  • 性别: Icon_minigender_1
  • 来自: 上海
社区版块
存档分类
最新评论

Sqoop-1.4.6安装部署及详细使用介绍

 
阅读更多

之所以选择Sqoop1是因为Sqoop2目前问题太多。无法正常使用,综合比较后选择Sqoop1。

Sqoop1安装配置比较简单

一、安装部署

(1)、下载地址:http://archive.cloudera.com/cdh5/cdh/5/sqoop-1.4.6-cdh5.5.2.tar.gz

解压到/opt/cdh5/sqoop

(2)、拷贝MySQL的jdbc驱动包mysql-connector-Java-5.1.31-bin.jar到sqoop/lib目录下。

(3)、配置环境变量

#sqoop

export SQOOP_HOME=/opt/cdh5/sqoop

export PATH=$PATH:$SQOOP_HOME/bin

(4)、复制sqoop/conf/sqoop-env-template.sh为sqoop-env.sh

添加相关的配置

#Setpath to where bin/Hadoop is available

exportHADOOP_COMMON_HOME=/opt/cdh5/hadoop

#Setpath to where hadoop-*-core.jar isavailable

exportHADOOP_MAPRED_HOME=/opt/cdh5/hadoop

#setthe path to where bin/hbase isavailable

exportHBASE_HOME=/opt/cdh5/hbase 

#Setthe path to where bin/hive is available

exportHIVE_HOME= /opt/cdh5/hive

#Setthe path for where zookeper config diris

exportZOOCFGDIR= /opt/cdh5/zookeeper

(5)、测试Sqoop

发现有警告

修改$SQOOP_HOME/bin/configure-sqoop

注释掉HCatalog,Accumulo检查(除非你准备使用HCatalog,Accumulo等HADOOP上的组件) 

## Moved to be a runtime check in sqoop.

#if [ ! -d "${HCAT_HOME}" ]; then

# echo "Warning: $HCAT_HOME does not exist! HCatalog jobs willfail."

# echo 'Please set $HCAT_HOME to the root of your HCatalog installation.'

#fi

#if [ ! -d "${ACCUMULO_HOME}" ];then

# echo "Warning: $ACCUMULO_HOME does not exist! Accumulo imports willfail."

# echo 'Please set $ACCUMULO_HOME to the root of your Accumuloinstallation.'

#fi 

再次执行sqoop version

你也可以查看某一个命令的使用说明:

$ sqoopimport --help

$ sqoophelp import

sqoop import 的一个示例如下:

$ sqoop import --connect jdbc:mysql://192.168.56.121:3306/metastore --username hiveuser --password redhat --table TBLS

你还可以使用 --options-file 来传入一个文件,使用这种方式可以重用一些配置参数:

$ sqoop --options-file /users/homer/work/import.txt --table TEST

/users/homer/work/import.txt 文件内容如下:

import
--connect
jdbc:mysql://192.168.56.121:3306/metastore
--username
hiveuser
--password 
redhat

二、Sqoop使用说明

1、测试连接:

(1)显示mysql数据库列表

sqoop list-databases –connect jdbc:mysql://hadoop003:3306/--username root –P

 

(2)显示数据库里所有表:

sqoop list-tables --connectjdbc:mysql://hadoop003:3306/EDW --username root -P

 

2、Mysql与HDFS互导

(1)mysql导入到hdfs

把mysql中表fin_cashier_order导入到hdfs,导入之前查询一下fin_cashier_order表中的数据

共:199条

sqoop import --connectjdbc:mysql://hadoop003:3306/ssa --username root --password *****  --table fin_cashier_order --target-dir/user/hadoop/databases/ssa/fin_cashier_order -m 4

-m 表示Map并发数

若是不写--target-dir 则默认是hdfs上的user/username/tablename 路径

如果重复执行,会提示目录已经存在,可以手动删除

运行完mapreduce结束后去HDFS上检查

验证hdfs上导入的数据:

hadoop fs -ls /user/hadoop/databases/ssa/fin_cashier_order

hadoop fs -cat /user/hadoop/databases/ssa/fin_cashier_order/part-m-00000

 

(2)HDFS导入到mysql

把HDFS中数据导入到Mysql表中,mysql中需要预先建立空表fin_cashier_order2,此时该表为空

sqoop export --connectjdbc:mysql://hadoop003:3306/ssa --table fin_cashier_order2 --username root--password ****** --export-dirhdfs://jrtestcluster/user/hadoop/databases/ssa/fin_cashier_order/

运行完显示

16/02/25 16:23:39 INFOmapreduce.ExportJobBase: Transferred 70.4619 KB in 48.3235 seconds (1.4581KB/sec)

16/02/25 16:23:39 INFO mapreduce.ExportJobBase:Exported 199 records.

显示导出199条记录。

到表fin_cashier_order2查看

 

并且正好也是199条。

 

至此,用Sqoop将mysql与HDFS互导功都验证完毕

你还可以指定其他的参数:

参数 说明
--append 将数据追加到hdfs中已经存在的dataset中。使用该参数,sqoop将把数据先导入到一个临时目录中,然后重新给文件命名到一个正式的目录中,以避免和该目录中已存在的文件重名。
--as-avrodatafile 将数据导入到一个Avro数据文件中
--as-sequencefile 将数据导入到一个sequence文件中
--as-textfile 将数据导入到一个普通文本文件中,生成该文本文件后,可以在hive中通过sql语句查询出结果。
--boundary-query <statement> 边界查询,也就是在导入前先通过SQL查询得到一个结果集,然后导入的数据就是该结果集内的数据,格式如:--boundary-query 'select id,no from t where id = 3',表示导入的数据为id=3的记录,或者 select min(<split-by>), max(<split-by>) from <table name>,注意查询的字段中不能有数据类型为字符串的字段,否则会报错
--columns<col,col> 指定要导入的字段值,格式如:--columns id,username
--direct 直接导入模式,使用的是关系数据库自带的导入导出工具。官网上是说这样导入会更快
--direct-split-size 在使用上面direct直接导入的基础上,对导入的流按字节数分块,特别是使用直连模式从PostgreSQL导入数据的时候,可以将一个到达设定大小的文件分为几个独立的文件。
--inline-lob-limit 设定大对象数据类型的最大值
-m,--num-mappers 启动N个map来并行导入数据,默认是4个,最好不要将数字设置为高于集群的节点数
--query,-e <sql> 从查询结果中导入数据,该参数使用时必须指定–target-dir–hive-table,在查询语句中一定要有where条件且在where条件中需要包含 \$CONDITIONS,示例:--query 'select * from t where \$CONDITIONS ' --target-dir /tmp/t –hive-table t
--split-by <column> 表的列名,用来切分工作单元,一般后面跟主键ID
--table <table-name> 关系数据库表名,数据从该表中获取
--delete-target-dir 删除目标目录
--target-dir <dir> 指定hdfs路径
--warehouse-dir <dir> 与 --target-dir 不能同时使用,指定数据导入的存放目录,适用于hdfs导入,不适合导入hive目录
--where 从关系数据库导入数据时的查询条件,示例:--where "id = 2"
-z,--compress 压缩参数,默认情况下数据是没被压缩的,通过该参数可以使用gzip压缩算法对数据进行压缩,适用于SequenceFile, text文本文件, 和Avro文件
--compression-codec Hadoop压缩编码,默认是gzip
--null-string <null-string> 可选参数,如果没有指定,则字符串null将被使用
--null-non-string <null-string> 可选参数,如果没有指定,则字符串null将被使用

示例程序:

$ sqoop import --connect jdbc:mysql://192.168.56.121:3306/metastore --username hiveuser --password redhat --table TBLS --columns "tbl_id,create_time" --where "tbl_id > 1" --target-dir /user/hive/result

使用 sql 语句

参照上表,使用 sql 语句查询时,需要指定 $CONDITIONS

$ sqoop import --connect jdbc:mysql://192.168.56.121:3306/metastore --username hiveuser --password redhat --query 'SELECT * from TBLS where \$CONDITIONS ' --split-by tbl_id -m 4 --target-dir /user/hive/result

上面命令通过 -m 1 控制并发的 map 数。

使用 direct 模式:

$ sqoop import --connect jdbc:mysql://192.168.56.121:3306/metastore --username hiveuser --password redhat --table TBLS --delete-target-dir --direct --default-character-set UTF-8 --target-dir /user/hive/result

指定文件输出格式:

sqoop import --connect jdbc:mysql://192.168.56.121:3306/metastore --username hiveuser --password redhat --table TBLS --fields-terminated-by"\t" --lines-terminated-by "\n" --delete-target-dir --target-dir /user/hive/result

这时候查看 hdfs 中数据(观察分隔符是否为制表符):

$ hadoop fs -ls result
Found 5 items
-rw-r--r--   3 root hadoop          0 2014-08-04 16:07 result/_SUCCESS
-rw-r--r--   3 root hadoop         69 2014-08-04 16:07 result/part-m-00000
-rw-r--r--   3 root hadoop          0 2014-08-04 16:07 result/part-m-00001
-rw-r--r--   3 root hadoop        142 2014-08-04 16:07 result/part-m-00002
-rw-r--r--   3 root hadoop         62 2014-08-04 16:07 result/part-m-00003

$ hadoop fs -cat result/part-m-00000
34  1406784308  8   0   root    0   45  test1   EXTERNAL_TABLE  null    null    null

$ hadoop fs -cat result/part-m-00002
40  1406797005  9   0   root    0   52  test2   EXTERNAL_TABLE  null    null    null
42  1407122307  7   0   root    0   59  test3   EXTERNAL_TABLE  null    null    null

指定空字符串:

$ sqoop import --connect jdbc:mysql://192.168.56.121:3306/metastore --username hiveuser --password redhat --table TBLS --fields-terminated-by "\t" --lines-terminated-by "\n" --delete-target-dir --null-string '\\N' --null-non-string '\\N' --target-dir /user/hive/result

如果需要指定压缩:

$ sqoop import --connect jdbc:mysql://192.168.56.121:3306/metastore --username hiveuser --password redhat --table TBLS --fields-terminated-by "\t" --lines-terminated-by "\n" --delete-target-dir --null-string '\\N' --null-non-string '\\N' --compression-codec "com.hadoop.compression.lzo.LzopCodec" --target-dir /user/hive/result

附:可选的文件参数如下表。

参数 说明
--enclosed-by <char> 给字段值前后加上指定的字符,比如双引号,示例:--enclosed-by '\"',显示例子:"3","jimsss","dd@dd.com"
--escaped-by <char> 给双引号作转义处理,如字段值为"测试",经过 --escaped-by "\\" 处理后,在hdfs中的显示值为:\"测试\",对单引号无效
--fields-terminated-by <char> 设定每个字段是以什么符号作为结束的,默认是逗号,也可以改为其它符号,如句号.,示例如:--fields-terminated-by
--lines-terminated-by <char> 设定每条记录行之间的分隔符,默认是换行串,但也可以设定自己所需要的字符串,示例如:--lines-terminated-by "#" 以#号分隔
--mysql-delimiters Mysql默认的分隔符设置,字段之间以,隔开,行之间以换行\n隔开,默认转义符号是\,字段值以单引号'包含起来。
--optionally-enclosed-by <char> enclosed-by是强制给每个字段值前后都加上指定的符号,而--optionally-enclosed-by只是给带有双引号或单引号的字段值加上指定的符号,故叫可选的

 3、Mysql与Hive互导

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

出现如下错误:

错误1:

ERROR tool.ImportTool: EncounteredIOException running import job: java.io.IOException: DataStreamer Exception:

       atorg.apache.hadoop.hdfs.DFSOutputStream$DataStreamer.run(DFSOutputStream.java:796)

Caused by: java.lang.OutOfMemoryError:unable to create new native thread

       at java.lang.Thread.start0(Native Method)

       at java.lang.Thread.start(Thread.java:714)

       atorg.apache.hadoop.hdfs.DFSOutputStream$DataStreamer.initDataStreaming(DFSOutputStream.java:581)

       at org.apache.hadoop.hdfs.DFSOutputStream$DataStreamer.run(DFSOutputStream.java:669)

 

 

解决方法:

 

net.ipv4.ip_local_port_range = 1024 65000

修改系统参数

echo "100000" > /proc/sys/kernel/threads-max

echo "100000" > /proc/sys/kernel/pid_max (默认32768

echo "200000" > /proc/sys/vm/max_map_count (默认65530

修改/etc/security/limits.conf

* - nproc 999999
* -nofile 999999

PS:nproc是修改系统的max user processes大小;nofile 是修改open files的大小,另外linux 2.6.25内核之前有个宏定义,定义了这个值的最大值,为1024*1024,正好是100万,而在2.6.25内核及其之后,这个值是可以通过/proc/sys/fs/nr_open来设置,不过,999999足够用了。
很多人可能会遇到,只能启动32000多个线程就不能再起更多的线程了,其实就是pid_max = 32768 给限制住了

增加map数量,通过sqoop -m 选项指定更多的map。通过更多的map,降少每个子进程占用的heap space,避免超出hadoop设置的java heap space 大小
sqoop ... -m <map 数量>

错误2:

Caused by: java.lang.RuntimeException:java.sql.SQLException: Access denied for user 'root'@'hadoop003' (usingpassword: YES)

       atorg.apache.sqoop.mapreduce.db.DBInputFormat.getConnection(DBInputFormat.java:220)

       atorg.apache.sqoop.mapreduce.db.DBInputFormat.setConf(DBInputFormat.java:165)

       ... 9 more

程序正常运行,结果也正确。说明数据库连接是正确的,而且单独用mysql连接也是可以的。就是报这个异常错误。 

查询数据库里用户信息

 

JDBC连接的机器名是hadoop003,虽然已经赋予root所有机器的远程访问权限(“%”),但是hadoop003这个账户可能没有开通机器的远程权限。于是给hadoop003这个机器开通远程权限。

GRANT ALL PRIVILEGES ON *.* TO'root'@'hadoop003' IDENTIFIED BY '********' WITH GRANT OPTION;

 

再次执行导入命令。成功。不再出现上面错误。

 

错误3:

 

从mysql导入到Hive里报如下错误:

ERROR hive.HiveConfig: Could not loadorg.apache.hadoop.hive.conf.HiveConf. Make sure HIVE_CONF_DIR is set correctly.

16/02/26 14:43:47 ERROR tool.ImportTool:Encountered IOException running import job: java.io.IOException:java.lang.ClassNotFoundException: org.apache.hadoop.hive.conf.HiveConf

数据已经导入到HDFS。从HDFS移动到Hive里时出错。提示HIVE_CONF_DIR配置不对。

但是将HIVE_CONF_DIR添加到sqoop-env.sh、hadoop-env.sh、hive-env.sh都不起作用。

最终正确的解决方法:

在/etc/profile  里添加下面一句话

exportHADOOP_CLASSPATH=$HADOOP_CLASSPATH:$HIVE_HOME/lib/*

Sqoop-1.4.7版本好像解决了这个问题。期待这个版本

 

 

http://blog.csdn.net/dwld_3090271/article/details/50747639

分享到:
评论

相关推荐

    sqoop-1.4.6.bin-hadoop-2.0.4-alpha版本的压缩包,直接下载到本地,解压后即可使用

    Sqoop项目开始于2009年,最早是作为Hadoop的一个第三方模块存在,后来为了让使用者能够快速部署,也为了让开发人员能够更快速的迭代开发,Sqoop独立成为一个Apache项目。sqoop是什么? sqoop是个传输数据的工具。 ...

    sqoop-1.4.6-cdh5.12.0.tar.gz

    在使用 "sqoop-1.4.6-cdh5.12.0" 这个版本时,需要注意以下几点: 1. 确保你的集群运行的是 CDH 5.12.0 或与其兼容的版本,以避免版本不匹配导致的问题。 2. 在安装 Sqoop 之前,先安装并配置好所有必需的依赖,...

    sqoop-1.4.6.bin__hadoop-1.0.0.tar.gz

    下面将详细介绍 Sqoop 的主要功能、架构、使用场景以及如何在 Hadoop 环境中安装和使用 Sqoop。 1. **Sqoop 简介** Sqoop 是一个用于导入和导出大规模数据的工具,它填补了传统数据库管理系统(RDBMS)与 Hadoop ...

    sqoop-1.4.6-cdh5.5.0.tar.gz

    在本篇中,我们将深入探讨 Sqoop 1.4.6 版本在 Cloudera Distribution Including Hadoop(CDH)5.5.0 平台上的具体应用及使用细节。 首先,Sqoop 1.4.6 是该工具的一个稳定版本,它包含了多项改进和优化,比如增强...

    sqoop-1.4.6-cdh5.9.3

    通过这些文件,用户可以安装、配置并使用 Sqoop 进行数据迁移,实现大数据环境与传统数据库系统的无缝连接。在实际工作中,理解并熟练掌握 Sqoop 的使用,对于提升大数据处理的效率和灵活性具有重要意义。

    hadoop_sqoop-1.4.6.bin__hadoop-2.0.4-alpha.rar limux用

    本文将详细介绍如何在Linux环境下安装并使用Hadoop_Sqoop 1.4.6与Hadoop 2.0.4-alpha的集成。 首先,我们来看一下标题中的"hadoop_sqoop-1.4.6.bin__hadoop-2.0.4-alpha.rar",这表明我们将要操作的是Hadoop_Sqoop...

    Atlas2.3.0依赖: org.restlet/sqoop-1.4.6.2.3.99.0-195

    Sqoop1.4.6版在Apache Atlas 2.3.0中被使用,可能是为了实现数据治理中的ETL(提取、转换、加载)流程,确保数据的准确性和一致性。此外,Sqoop还支持多种数据库类型,如MySQL、Oracle、PostgreSQL等,使得它在不同...

    sqoop安装与使用

    ### Sqoop 安装与使用详解 #### 一、Sqoop功能概述 Sqoop是一款用于在Hadoop和关系型...以上介绍了如何安装和使用Sqoop的基本流程及常用命令,通过这些命令可以帮助用户轻松地在Hadoop与关系型数据库之间迁移数据。

    sqoop组件部署.doc

    本文将详细介绍如何在Ubuntu 14.04系统上部署Sqoop1.4.6。 **一、环境准备** 1. 操作系统:Ubuntu 14.04 2. Sqoop版本:1.4.6 3. Hadoop版本:2.7.2 4. MySQL版本:5.7.15 **二、 Sqoop1.4.6的下载与安装** 1. ...

    Sqoop数据搬运手册.docx

    [root@hop01 opt]# mv sqoop-1.4.6.bin__hadoop-2.0.4-alpha sqoop1.4.6 ``` ##### 2、修改配置文件 - **配置文件路径**:`sqoop1.4.6/conf` - **修改文件名**:`sqoop-env-template.sh` -&gt; `sqoop-env.sh` - **...

    cdh5.7.0.zip

    hadoop-2.6.0-cdh5.7.0.tar.gz hive-1.1.0-cdh5.7.0.tar.gz hbase-1.2.0-cdh5.7.0.tar.gz zookeeper-3.4.5-cdh5.10.0/ flume-ng-1.6.0-cdh5.10.1.tar.gz sqoop-1.4.6-cdh5.10.0.tar.gz ...sqoop-1.4.6-cdh5.7.0.tar.gz

    Hadoop部署实践所需的安装包(Ubuntu下的安装包)

    1、apache-hive-2.3.5-bin.tar.gz 2、hadoop-2.7.3.tar.gz 3、jdk-8u162-linux-x64.tar.gz 4、mysql-connector-java-5.1.24.tar.gz 5、sqoop-1.4.6.bin__hadoop-2.0.4-alpha.tar.gz

    1、Apache Sqoop介绍及部署

    在部署Sqoop之前,你需要确保你的环境已经安装了Java和Hadoop。对于Sqoop的安装,通常步骤包括下载对应版本的安装包,解压缩,然后配置环境变量。例如,在上述描述中, Sqoop 1.4.6版本被下载并解压到/usr/local/big...

Global site tag (gtag.js) - Google Analytics