`

sqoop-1.4.5和hadoop-2.5.2集成

阅读更多

Sqoop安装与配置

Sqoop的运行需要依赖于Hadoop,因此需要首先安装Hadoop2.5.2,并且Sqoop的启动前需要首先安装Hadoop。

 

本文使用如下版本

  • sqoop-1.4.5.bin_hadoop-2.0.4-alpha版本,
  • Hadoop使用2.5.2版本

 

Sqoop安装和配置的步骤

 

1. 从如下地址下载Sqoop 

 

Java代码  收藏代码
  1. http://mirror.bit.edu.cn/apache/sqoop/1.4.5/sqoop-1.4.5.bin__hadoop-2.0.4-alpha.tar.gz  

 

注意安装包中hadoop前面是__(两个下划线) ,把其中的一个_去掉

 

 2.解压sqoop,在系统变量里配置如下变量SQOOP_HOME和PATH

 

 

Java代码  收藏代码
  1. sudo  vim /etc/profile  
  2.   
  3. export SQOOP_HOME=/home/hadoop/software/sqoop-1.4.5.bin_hadoop-2.0.4-alpha  
  4. export PATH=$SQOOP_HOME/bin:$PATH  
  5.   
  6. ###如下两行在sqoop-env.sh配置,在此处将其注释掉  
  7. #export HADOOP_COMMON_HOME=/home/hadoop/software/hadoop-2.5.2  
  8. #export HADOOP_MAPRED_HOME=/home/hadoop/software/hadoop-2.5.2   

3. 修改配置文件

 

Java代码  收藏代码
  1. cp sqoop-env-template.sh sqoop-env.sh  
  2. cp sqoop-site-template.xml sqoop-site.xml   

 

4. 修改sqoop-env.sh文件
Java代码  收藏代码
  1. export HADOOP_COMMON_HOME=/home/hadoop/software/hadoop-2.5.2  
  2.   
  3. export HADOOP_MAPRED_HOME=/home/hadoop/software/hadoop-2.5.2  
  4.   
  5. export HIVE_HOME=/home/hadoop/software/apache-hive-0.14.0-bin  

注意HADOOP_MAPRED_HOME需要配置成home/hadoop/software/hadoop-2.5.2,而不是/home/hadoop/software/hadoop-2.5.2/share/hadoop/mapreduce, 配置成后者在执行sqoop import的时候报Hadoop的类找不到

 

配置Sqoop的jar

 

1. 检查$SQOOP_HOME/lib下是否有sqoop-1.4.5.jar

2. 如果没有则下载到此目录

 

配置MySQL JDBC Driver

 

 1. 检查检查$SQOOP_HOME/lib下是否有MySQL的JDBC驱动有mysql-connector-java-5.1.34.jar
 2. 如果没有则下载到此目录、

启动Hadoop和MySQL

  1. 首先运行Hadoop

  2. 再次运行MySQL

 

使用Sqoop对HDFS的和MySQL双向导入导出

 

1. 查看Sqoop可用的命令参数

 

Java代码  收藏代码
  1. sqoop help  

 

结果:

 

Java代码  收藏代码
  1. Available commands:  
  2.   codegen            Generate code to interact with database records  
  3.   create-hive-table  Import a table definition into Hive  
  4.   eval               Evaluate a SQL statement and display the results  
  5.   export             Export an HDFS directory to a database table  
  6.   help               List available commands  
  7.   import             Import a table from a database to HDFS  
  8.   import-all-tables  Import tables from a database to HDFS  
  9.   job                Work with saved jobs  
  10.   list-databases     List available databases on a server  
  11.   list-tables        List available tables in a database  
  12.   merge              Merge results of incremental imports  
  13.   metastore          Run a standalone Sqoop metastore  
  14.   version            Display version information  

 

 

2. 获取所有的数据库(密码为空)

 

Java代码  收藏代码
  1. ./sqoop list-databases --connect jdbc:mysql://192.168.26.135:3306 --username root  

 

结果

 

Java代码  收藏代码
  1. information_schema  
  2. metadata_store  
  3. mysql  
  4. performance_schema  
  5. sqoop  

 

3. 列出指定数据所有的表

 

Java代码  收藏代码
  1. ./sqoop list-tables --connect jdbc:mysql://192.168.26.135:3306/metadata_store --username root  

 

结果:

 

Java代码  收藏代码
  1. BUCKETING_COLS  
  2. CDS  
  3. COLUMNS_V2  
  4. DATABASE_PARAMS  
  5. DBS  
  6. FUNCS  
  7. FUNC_RU  
  8. GLOBAL_PRIVS  
  9. PARTITIONS  
  10. PARTITION_KEYS  
  11. PARTITION_KEY_VALS  
  12. PARTITION_PARAMS  
  13. PART_COL_STATS  
  14. ROLES  
  15. SDS  
  16. SD_PARAMS  
  17. SEQUENCE_TABLE  
  18. SERDES  
  19. SERDE_PARAMS  
  20. SKEWED_COL_NAMES  
  21. SKEWED_COL_VALUE_LOC_MAP  
  22. SKEWED_STRING_LIST  
  23. SKEWED_STRING_LIST_VALUES  
  24. SKEWED_VALUES  
  25. SORT_COLS  
  26. TABLE_PARAMS  
  27. TAB_COL_STATS  
  28. TBLS  
  29. VERSION  

 

4. 在MySQL中创建测试数据库和表

 

    4.1 创建表

Java代码  收藏代码
  1. mysql> create table person(name varchar(40), age int, job varchar(40));  

 

 

  4.2 插入数据

 

Java代码  收藏代码
  1. mysql> insert into person(name, age, job) values("jack",28,"Teacher");  
  2. Query OK, 1 row affected (0.00 sec)  
  3.   
  4. mysql> insert into person(name, age, job) values("mary",23,"Student");  
  5. Query OK, 1 row affected (0.00 sec)  
  6.   
  7. mysql> insert into person(name, age, job) values("Cloe",33,"Analystics");  
  8. Query OK, 1 row affected (0.00 sec)  

 

   4.3 查询插入结果:

  

 

 

5. MySQL的数据导入到HDFS中

 

5.1 执行导入命令

 

Java代码  收藏代码
  1. ./sqoop import --connect jdbc:mysql://192.168.26.135:3306/sqoop --username root --direct --table person --fields-terminated-by ':' --target-dir /user/hadoop/person -m1  

 

 

参数说明:

--table 指定要导入到HDFS中的表名

--fields-terminated-by 指定保存到HDFS上的每一行使用什么分隔符来分隔MySQL数据行的列

--m1 表示MapperTask的个数为1

--target-dir 表示导入到HDFS中的目录

 

5.2 导入过程

 


 

 

5.3 查看HDFS中的导入状态

 

Java代码  收藏代码
  1. [hadoop@hadoop bin]$ hdfs dfs -cat /user/hadoop/person/part-m-00000  
  2. tom:34:SE  
  3. jack:28:Teacher  
  4. mary:23:Student  
  5. Cloe:33:Analystics  

  

6. HDFS数据导出到MySQL中

 

 

6.1 首先在MySQL中创建表person2

 

Java代码  收藏代码
  1. mysql> create table person2(name varchar(40), age int, job varchar(40));  

 

 

6.2 执行sqoop导出操作

 

 

Java代码  收藏代码
  1. ./sqoop export --connect jdbc:mysql://192.168.26.135:3306/sqoop --username root --table person2 --export-dir '/user/hadoop/person/part-m-00000' --fields-terminated-by ':' -m1  

 

6.3 执行过程




 

 

 

6.4 执行结果



 

 

 

错误处理

1

Java代码  收藏代码
  1. java.net.ConnectException: Connection refused  
  2.         at java.net.PlainSocketImpl.socketConnect(Native Method)  
  3.         at java.net.PlainSocketImpl.doConnect(PlainSocketImpl.java:351)  
  4.         at java.net.PlainSocketImpl.connectToAddress(PlainSocketImpl.java:213)  
  5.         at java.net.PlainSocketImpl.connect(PlainSocketImpl.java:200)  
  6.         at java.net.SocksSocketImpl.connect(SocksSocketImpl.java:366)  
  7.         at java.net.Socket.connect(Socket.java:529)  
  8.         at java.net.Socket.connect(Socket.java:478)  
  9.         at java.net.Socket.<init>(Socket.java:375)  
  10.         at java.net.Socket.<init>(Socket.java:218)  
  11.         at com.mysql.jdbc.StandardSocketFactory.connect(StandardSocketFactory.java:173)  
  12.         at com.mysql.jdbc.MysqlIO.<init>(MysqlIO.java:267)  
  13.         at com.mysql.jdbc.Connection.createNewIO(Connection.java:2739)  
  14.         at com.mysql.jdbc.Connection.<init>(Connection.java:1553)  
  15.         at com.mysql.jdbc.NonRegisteringDriver.connect(NonRegisteringDriver.java:266)  
  16.         at java.sql.DriverManager.getConnection(DriverManager.java:582)  
  17.         at java.sql.DriverManager.getConnection(DriverManager.java:185)  
  18.         at org.apache.sqoop.mapreduce.db.DBConfiguration.getConnection(DBConfiguration.java:278)  
  19.         at org.apache.sqoop.mapreduce.db.DBInputFormat.getConnection(DBInputFormat.java:187)  
  20.         at org.apache.sqoop.mapreduce.db.DBInputFormat.setConf(DBInputFormat.java:162)  
  21.         at org.apache.hadoop.util.ReflectionUtils.setConf(ReflectionUtils.java:62)  
  22.         at org.apache.hadoop.util.ReflectionUtils.newInstance(ReflectionUtils.java:117)  
  23.         at org.apache.hadoop.mapred.MapTask.runNewMapper(MapTask.java:723)  
  24.         at org.apache.hadoop.mapred.MapTask.run(MapTask.java:370)  
  25.         at org.apache.hadoop.mapred.Child$4.run(Child.java:255)  
  26.         at java.security.AccessController.doPrivileged(Native Method)  
  27.         at javax.security.auth.Subject.doAs(Subject.java:396)  
  28.         at org.apache.hadoop.security.UserGroupInformation.doAs(UserGroupInformation.java:1121)  
  29.         at org.apache.hadoop.mapred.Child.main(Child.java:249)  

 

 这个错误是指定sqoop import时报的错,解决办法是把mysql的jdbc连接串,把localhost改为实际的IP或者域名

 

 

2. sqoop导入mysql数据出错

    用sqoop导入mysql数据出现以下错误:

14/12/03 16:37:58 ERROR manager.SqlManager: Error reading from database: java.sql.SQLException: Streaming result set com.mysql.jdbc.RowDataDynamic@54b0a583 is still active. No statements may be issued when any streaming result sets are open and in use on a given connection. Ensure that you have called .close() on any active streaming result sets before attempting more queries.

java.sql.SQLException: Streaming result set com.mysql.jdbc.RowDataDynamic@54b0a583 is still active. No statements may be issued when any streaming result sets are open and in use on a given connection. Ensure that you have called .close() on any active streaming result sets before attempting more queries.

        at com.mysql.jdbc.SQLError.createSQLException(SQLError.java:930)

        at com.mysql.jdbc.MysqlIO.checkForOutstandingStreamingData(MysqlIO.java:2694)

        at com.mysql.jdbc.MysqlIO.sendCommand(MysqlIO.java:1868)

        at com.mysql.jdbc.MysqlIO.sqlQueryDirect(MysqlIO.java:2109)

        at com.mysql.jdbc.ConnectionImpl.execSQL(ConnectionImpl.java:2642)

        at com.mysql.jdbc.ConnectionImpl.execSQL(ConnectionImpl.java:2571)

        at com.mysql.jdbc.StatementImpl.executeQuery(StatementImpl.java:1464)

        at com.mysql.jdbc.ConnectionImpl.getMaxBytesPerChar(ConnectionImpl.java:3030)

        at com.mysql.jdbc.Field.getMaxBytesPerCharacter(Field.java:592)

        at com.mysql.jdbc.ResultSetMetaData.getPrecision(ResultSetMetaData.java:444)

        at org.apache.sqoop.manager.SqlManager.getColumnInfoForRawQuery(SqlManager.java:285)

        at org.apache.sqoop.manager.SqlManager.getColumnTypesForRawQuery(SqlManager.java:240)

        at org.apache.sqoop.manager.SqlManager.getColumnTypes(SqlManager.java:226)

        at org.apache.sqoop.manager.ConnManager.getColumnTypes(ConnManager.java:295)

        at org.apache.sqoop.orm.ClassWriter.getColumnTypes(ClassWriter.java:1773)

        at org.apache.sqoop.orm.ClassWriter.generate(ClassWriter.java:1578)

        at org.apache.sqoop.tool.CodeGenTool.generateORM(CodeGenTool.java:96)

        at org.apache.sqoop.tool.ImportTool.importTable(ImportTool.java:478)

        at org.apache.sqoop.tool.ImportTool.run(ImportTool.java:601)

        at org.apache.sqoop.Sqoop.run(Sqoop.java:143)

        at org.apache.hadoop.util.ToolRunner.run(ToolRunner.java:65)

        at org.apache.sqoop.Sqoop.runSqoop(Sqoop.java:179)

        at org.apache.sqoop.Sqoop.runTool(Sqoop.java:218)

        at org.apache.sqoop.Sqoop.runTool(Sqoop.java:227)

        at org.apache.sqoop.Sqoop.main(Sqoop.java:236)

14/12/03 16:37:58 ERROR tool.ImportTool: Encountered IOException running import job: java.io.IOException: No columns to generate for ClassWriter

        at org.apache.sqoop.orm.ClassWriter.generate(ClassWriter.java:1584)

        at org.apache.sqoop.tool.CodeGenTool.generateORM(CodeGenTool.java:96)

        at org.apache.sqoop.tool.ImportTool.importTable(ImportTool.java:478)

        at org.apache.sqoop.tool.ImportTool.run(ImportTool.java:601)

        at org.apache.sqoop.Sqoop.run(Sqoop.java:143)

        at org.apache.hadoop.util.ToolRunner.run(ToolRunner.java:65)

        at org.apache.sqoop.Sqoop.runSqoop(Sqoop.java:179)

        at org.apache.sqoop.Sqoop.runTool(Sqoop.java:218)

        at org.apache.sqoop.Sqoop.runTool(Sqoop.java:227)

        at org.apache.sqoop.Sqoop.main(Sqoop.java:236)

    这个是由于mysql-connector-javabug造成的,出错时我用的是mysql-connector-java-5.1.10-bin.jar,更新成mysql-connector-java-5.1.32-bin.jar就可以了。mysql-connector-java-5.1.32-bin.jar的下载地址为http://dev.mysql.com/get/Downloads/Connector-J/mysql-connector-java-5.1.32.tar.gz。下载完后解压,在解压的目录下可以找到mysql-connector-java-5.1.32-bin.jar

 

分享到:
评论

相关推荐

    sqoop-1.4.5.bin__hadoop-2.0.4-alpha.tar

    Sqoop-1.4.5是针对Hadoop 2.x系列的一个稳定版本,它提供了与Hadoop的兼容性和优化。在安装之前,确保你的环境中已经正确安装了Java环境和Hadoop,并且Hadoop已经成功运行。 接下来,我们进入安装步骤: 1. 下载...

    sqoop-1.4.5-cdh5.3.6.tar.gz

    总之,"sqoop-1.4.5-cdh5.3.6.tar.gz" 是针对 CDH 5.3.6 版本的一个特定 Sqoop 实现,提供在 Hadoop 和 RDBMS 之间迁移数据的能力。虽然不是最新版本,但对于需要在该版本 CDH 上运行的项目,这是一个可靠的工具。在...

    sqoop-1.4.5.tar.zip

    版本Sqoop是一个用来将Hadoop和关系型数据库中的数据相互转移的工具,可以将一个关系型数据库(例如 : MySQL ,Oracle ,Postgres等)中的数据导进到Hadoop的HDFS中,也可以将HDFS的数据导进到关系型数据库中。...

    sqoop-1.4.5

    总的来说,Sqoop-1.4.5为Hadoop 2.x环境提供了强大而灵活的数据迁移能力,使得数据科学家和数据工程师能够无缝地在传统数据库和Hadoop之间迁移数据,实现大数据分析和处理。正确配置和使用Sqoop,能够有效地提升数据...

    sqoop-1.4.5-cdh5.4.2.tar.gz

    在标题"sqoop-1.4.5-cdh5.4.2.tar.gz"中,我们可以看出这是Sqoop的一个特定版本——1.4.5,针对Cloudera的Distribution包括Hadoop(CDH)的5.4.2版本的打包文件。通常,这种压缩包包含了 Sqoop 源码、二进制文件、...

    sqoop-1.4.5.bin__hadoop-2.6.0.zip

    Sqoop-1.4.5.bin__hadoop-2.6.0.zip 文件是一个包含了 Sqoop 版本 1.4.5 和针对 Hadoop 版本 2.6.0 的预编译二进制包,方便用户在 Hadoop 环境中快速部署和使用 Sqoop。 Sqoop 的主要功能包括: 1. 数据导入:从...

    sqoop-1.4.6-hadoop-2.6最小资源包

    在压缩包中的 "sqoop-1.4.6-hadoop-2.0.4-jar" 文件,很可能是 Sqoop 的 JAR 包,这个 JAR 包包含了 Sqoop 运行所需的所有类和依赖库,可以在 Hadoop 集群上直接运行或者作为 Hadoop 作业提交。需要注意的是,这个...

    sqoop-1.4.6-cdh5.13.2.tar

    mv /usr/local/sqoop-1.4.6-cdh5.13.2/conf/sqoop-env.template.sh /usr/local/sqoop-1.4.6-cdh5.13.2/conf/sqoop-env.sh vi /usr/local/sqoop-1.4.6-cdh5.13.2/conf/sqoop-env.sh export HADOOP_COMMON_HOME=/usr/...

    sqoop-1.4.4-cdh5.0.6.tar

    `sqoop-1.4.4-cdh5.0.6.tar` 是 Cloudera Distribution 包含 Hadoop(CDH)的一个特定版本的 Sqoop 发行版。 1. **Sqoop 的核心功能**: - 数据导入:Sqoop 可以自动创建 MapReduce 任务,将数据库表的数据分片并...

    sqoop-1.4.6-cdh5.5.0.tar.gz

    Sqoop 的设计目标是提供高效率、大规模的数据导入和导出功能,使得 Hadoop 能够更好地集成传统的企业数据仓库。在本篇中,我们将深入探讨 Sqoop 1.4.6 版本在 Cloudera Distribution Including Hadoop(CDH)5.5.0 ...

    sqoop-1.4.5.tar.gz

    1. **配置文件**:在使用 Sqoop 前,需要正确配置 `$SQOOP_HOME/conf/sqoop-site.xml` 文件,指定连接数据库所需的 JAR 包位置和数据库连接信息。 2. **数据类型映射**:不同的数据库系统有不同的数据类型,Sqoop ...

    sqoop-1.4.7.bin__hadoop-2.6.0.tar

    Sqoop 是一个开源工具,主要用于在关系数据库管理...这个压缩包 "sqoop-1.4.7.bin__hadoop-2.6.0.tar" 提供了一个方便的途径,让开发者和数据工程师可以直接使用 Sqoop,而无需从官方源码编译或单独下载每个依赖项。

    sqoop-1.4.6.jar.zip

    sqoop框架开发工具使用的jar sqoop-1.4.6.jar 手动安装到maven &lt;groupId&gt;org.apache.sqoop &lt;artifactId&gt;sqoop &lt;version&gt;1.4.6 &lt;/dependency&gt;

    sqoop-1.4.6.bin__hadoop-2.0.4-alpha.tar.zip

    在解压 "sqoop-1.4.6.bin__hadoop-2.0.4-alpha.tar.gz" 文件后,你将得到 Sqoop 的安装目录,其中包含以下关键文件和目录: 1. **bin**:存放 Sqoop 的可执行脚本,如 `sqoop` 命令行工具。 2. **conf**:配置文件,...

    sqoop-1.4.7.bin-hadoop-2.6.0

    虚拟机linux使用的sqoop-1.4.7版本

    sqoop-1.4.6.bin-hadoop-2.0.4-alpha版本的压缩包,直接下载到本地,解压后即可使用

    Sqoop(发音:skup)是一款开源的工具,主要用于在Hadoop(Hive)与传统的数据库(mysql、postgresql...)间进行数据的传递,可以将一个关系型数据库(例如 : MySQL ,...Apache Sqoop就是这样一款工具,可以在Hadoop和关系

    sqoop-1.4.6.bin__hadoop-2.0.4-alpha.zip

    总的来说,"sqoop-1.4.6.bin__hadoop-2.0.4-alpha.zip" 提供了一个完整的Sqoop版本,用于在Hadoop和关系型数据库之间高效地转移数据,对于需要在大数据分析中集成RDBMS的企业来说,这是一个非常重要的工具。...

    sqoop-1.4.6.bin__hadoop-2.0.4-alpha.tar.gz

    这个压缩包 "sqoop-1.4.6.bin__hadoop-2.0.4-alpha.tar.gz" 包含了 Sqoop 的 1.4.6 版本,它已针对 Hadoop 2.0.4-alpha 版本进行了优化。让我们深入了解一下 Sqoop 的核心功能、工作原理以及如何在 Hadoop 环境中...

    sqoop-1.4.2.bin__hadoop-2.0.0-alpha.tar

    这个压缩包 "sqoop-1.4.2.bin__hadoop-2.0.0-alpha.tar" 提供的是 Sqoop 1.4.2 版本,适用于与 Hadoop 2.0.0-alpha 版本集成。以下是对这个版本 Sqoop 的详细介绍以及相关的知识点: 1. **Sqoop 的作用**:Sqoop 是...

    小牛学堂-大数据24期-04-Hadoop Hive Hbase Flume Sqoop-12天适合初学者

    小牛学堂-大数据24期-04-Hadoop Hive Hbase Flume Sqoop-12天适合初学者.txt

Global site tag (gtag.js) - Google Analytics