`
bit1129
  • 浏览: 1069569 次
  • 性别: Icon_minigender_1
  • 来自: 北京
社区版块
存档分类
最新评论

【Sqoop一】Sqoop1.4.5和Hadoop2.5.2数据集成入门

 
阅读更多

Sqoop安装与配置

Sqoop的运行需要依赖于Hadoop,因此需要首先安装Hadoop2.5.2,并且Sqoop的启动前需要首先安装Hadoop。

 

本文使用如下版本

  • sqoop-1.4.5.bin_hadoop-2.0.4-alpha版本,
  • Hadoop使用2.5.2版本

 

Sqoop安装和配置的步骤

 

1. 从如下地址下载Sqoop

 

http://mirror.bit.edu.cn/apache/sqoop/1.4.5/sqoop-1.4.5.bin__hadoop-2.0.4-alpha.tar.gz

 

注意安装包中hadoop前面是__(两个下划线) ,把其中的一个_去掉

 

 2.解压sqoop,在系统变量里配置如下变量SQOOP_HOME和PATH

 

 

sudo  vim /etc/profile

export SQOOP_HOME=/home/hadoop/software/sqoop-1.4.5.bin_hadoop-2.0.4-alpha
export PATH=$SQOOP_HOME/bin:$PATH

###如下两行在sqoop-env.sh配置,在此处将其注释掉
#export HADOOP_COMMON_HOME=/home/hadoop/software/hadoop-2.5.2
#export HADOOP_MAPRED_HOME=/home/hadoop/software/hadoop-2.5.2 

3. 修改配置文件

 

cp sqoop-env-template.sh sqoop-env.sh
cp sqoop-site-template.xml sqoop-site.xml 

 

4. 修改sqoop-env.sh文件
export HADOOP_COMMON_HOME=/home/hadoop/software/hadoop-2.5.2

export HADOOP_MAPRED_HOME=/home/hadoop/software/hadoop-2.5.2

export HIVE_HOME=/home/hadoop/software/apache-hive-0.14.0-bin

注意HADOOP_MAPRED_HOME需要配置成home/hadoop/software/hadoop-2.5.2,而不是/home/hadoop/software/hadoop-2.5.2/share/hadoop/mapreduce, 配置成后者在执行sqoop import的时候报Hadoop的类找不到

 

配置Sqoop的jar

 

1. 检查$SQOOP_HOME/lib下是否有sqoop-1.4.5.jar

2. 如果没有则下载到此目录

 

配置MySQL JDBC Driver

 

 1. 检查检查$SQOOP_HOME/lib下是否有MySQL的JDBC驱动有mysql-connector-java-5.1.34.jar
 2. 如果没有则下载到此目录、

启动Hadoop和MySQL

  1. 首先运行Hadoop

  2. 再次运行MySQL

 

使用Sqoop对HDFS的和MySQL双向导入导出

 

1. 查看Sqoop可用的命令参数

 

sqoop help

 

结果:

 

Available commands:
  codegen            Generate code to interact with database records
  create-hive-table  Import a table definition into Hive
  eval               Evaluate a SQL statement and display the results
  export             Export an HDFS directory to a database table
  help               List available commands
  import             Import a table from a database to HDFS
  import-all-tables  Import tables from a database to HDFS
  job                Work with saved jobs
  list-databases     List available databases on a server
  list-tables        List available tables in a database
  merge              Merge results of incremental imports
  metastore          Run a standalone Sqoop metastore
  version            Display version information

 

 

2. 获取所有的数据库(密码为空)

 

./sqoop list-databases --connect jdbc:mysql://192.168.26.135:3306 --username root

 

结果

 

information_schema
metadata_store
mysql
performance_schema
sqoop

 

3. 列出指定数据所有的表

 

./sqoop list-tables --connect jdbc:mysql://192.168.26.135:3306/metadata_store --username root

 

结果:

 

BUCKETING_COLS
CDS
COLUMNS_V2
DATABASE_PARAMS
DBS
FUNCS
FUNC_RU
GLOBAL_PRIVS
PARTITIONS
PARTITION_KEYS
PARTITION_KEY_VALS
PARTITION_PARAMS
PART_COL_STATS
ROLES
SDS
SD_PARAMS
SEQUENCE_TABLE
SERDES
SERDE_PARAMS
SKEWED_COL_NAMES
SKEWED_COL_VALUE_LOC_MAP
SKEWED_STRING_LIST
SKEWED_STRING_LIST_VALUES
SKEWED_VALUES
SORT_COLS
TABLE_PARAMS
TAB_COL_STATS
TBLS
VERSION

 

4. 在MySQL中创建测试数据库和表

 

    4.1 创建表

mysql> create table person(name varchar(40), age int, job varchar(40));

 

 

  4.2 插入数据

 

mysql> insert into person(name, age, job) values("jack",28,"Teacher");
Query OK, 1 row affected (0.00 sec)

mysql> insert into person(name, age, job) values("mary",23,"Student");
Query OK, 1 row affected (0.00 sec)

mysql> insert into person(name, age, job) values("Cloe",33,"Analystics");
Query OK, 1 row affected (0.00 sec)

 

   4.3 查询插入结果:

 

 

 

5. MySQL的数据导入到HDFS中

 

5.1 执行导入命令

 

./sqoop import --connect jdbc:mysql://192.168.26.135:3306/sqoop --username root --direct --table person --fields-terminated-by ':' --target-dir /user/hadoop/person -m1

 

 

参数说明:

--table 指定要导入到HDFS中的表名

--fields-terminated-by 指定保存到HDFS上的每一行使用什么分隔符来分隔MySQL数据行的列

--m1 表示MapperTask的个数为1

--target-dir 表示导入到HDFS中的目录

 

5.2 导入过程

 


 

 

5.3 查看HDFS中的导入状态

 

[hadoop@hadoop bin]$ hdfs dfs -cat /user/hadoop/person/part-m-00000
tom:34:SE
jack:28:Teacher
mary:23:Student
Cloe:33:Analystics

  

6. HDFS数据导出到MySQL中

 

 

6.1 首先在MySQL中创建表person2

 

mysql> create table person2(name varchar(40), age int, job varchar(40));

 

 

6.2 执行sqoop导出操作

 

 

./sqoop export --connect jdbc:mysql://192.168.26.135:3306/sqoop --username root --table person2 --export-dir '/user/hadoop/person/part-m-00000' --fields-terminated-by ':' -m1

 

6.3 执行过程




 

 

 

6.4 执行结果



 

 

 

错误处理

 

 

java.net.ConnectException: Connection refused
        at java.net.PlainSocketImpl.socketConnect(Native Method)
        at java.net.PlainSocketImpl.doConnect(PlainSocketImpl.java:351)
        at java.net.PlainSocketImpl.connectToAddress(PlainSocketImpl.java:213)
        at java.net.PlainSocketImpl.connect(PlainSocketImpl.java:200)
        at java.net.SocksSocketImpl.connect(SocksSocketImpl.java:366)
        at java.net.Socket.connect(Socket.java:529)
        at java.net.Socket.connect(Socket.java:478)
        at java.net.Socket.<init>(Socket.java:375)
        at java.net.Socket.<init>(Socket.java:218)
        at com.mysql.jdbc.StandardSocketFactory.connect(StandardSocketFactory.java:173)
        at com.mysql.jdbc.MysqlIO.<init>(MysqlIO.java:267)
        at com.mysql.jdbc.Connection.createNewIO(Connection.java:2739)
        at com.mysql.jdbc.Connection.<init>(Connection.java:1553)
        at com.mysql.jdbc.NonRegisteringDriver.connect(NonRegisteringDriver.java:266)
        at java.sql.DriverManager.getConnection(DriverManager.java:582)
        at java.sql.DriverManager.getConnection(DriverManager.java:185)
        at org.apache.sqoop.mapreduce.db.DBConfiguration.getConnection(DBConfiguration.java:278)
        at org.apache.sqoop.mapreduce.db.DBInputFormat.getConnection(DBInputFormat.java:187)
        at org.apache.sqoop.mapreduce.db.DBInputFormat.setConf(DBInputFormat.java:162)
        at org.apache.hadoop.util.ReflectionUtils.setConf(ReflectionUtils.java:62)
        at org.apache.hadoop.util.ReflectionUtils.newInstance(ReflectionUtils.java:117)
        at org.apache.hadoop.mapred.MapTask.runNewMapper(MapTask.java:723)
        at org.apache.hadoop.mapred.MapTask.run(MapTask.java:370)
        at org.apache.hadoop.mapred.Child$4.run(Child.java:255)
        at java.security.AccessController.doPrivileged(Native Method)
        at javax.security.auth.Subject.doAs(Subject.java:396)
        at org.apache.hadoop.security.UserGroupInformation.doAs(UserGroupInformation.java:1121)
        at org.apache.hadoop.mapred.Child.main(Child.java:249)

 

 这个错误是指定sqoop import时报的错,解决办法是把mysql的jdbc连接串,把localhost改为实际的IP或者域名

 

 

 

 
 
  • 大小: 95.7 KB
  • 大小: 69.9 KB
  • 大小: 8.7 KB
  • 大小: 8 KB
  • 大小: 116.6 KB
  • 大小: 74 KB
分享到:
评论

相关推荐

    Hadoop2.5.2+Sqoop-1.4.6

    总之,Hadoop2.5.2+Sqoop-1.4.6的组合提供了一种有效的方法,将结构化数据从传统数据库迁移到Hadoop的分布式存储中,以便于进行大数据分析。整个过程涉及到多个步骤,包括环境配置、组件安装、文件修改和数据导入,...

    sqoop-1.4.5.tar.zip

    版本Sqoop是一个用来将Hadoop和关系型数据库中的数据相互转移的工具,可以将一个关系型数据库(例如 : MySQL ,Oracle ,Postgres等)中的数据导进到Hadoop的HDFS中,也可以将HDFS的数据导进到关系型数据库中。...

    sqoop-1.4.6.bin-hadoop-2.0.4-alpha版本的压缩包,直接下载到本地,解压后即可使用

    Sqoop是一个在结构化数据和Hadoop之间进行批量数据迁移的工具,结构化数据可以是MySQL、Oracle等RDBMS。Apache框架Hadoop是一个越来越通用的分布式计算环境,主要用来处理大数据。随着云提供商利用这个框架,更多的...

    sqoop-1.4.5.bin__hadoop-2.0.4-alpha.tar

    Sqoop是一款开源的数据迁移工具,它主要用于在关系型数据库(如MySQL、Oracle等)和Hadoop之间进行数据的导入导出。在大数据处理中,Sqoop扮演着至关重要的角色,它提供了高效、灵活且方便的数据传输方式。本文将...

    sqoop-1.4.7.bin-hadoop-2.6.0

    虚拟机linux使用的sqoop-1.4.7版本

    sqoop-1.4.7.bin__hadoop-2.6.0.tar

    Sqoop 是一个开源工具,主要用于在关系数据库管理...这个压缩包 "sqoop-1.4.7.bin__hadoop-2.6.0.tar" 提供了一个方便的途径,让开发者和数据工程师可以直接使用 Sqoop,而无需从官方源码编译或单独下载每个依赖项。

    sqoop-1.4.6.bin__hadoop-2.0.4-alpha安装包

    Sqoop是一个用于在Hadoop和关系数据库或大型机之间传输数据的工具。您可以使用Sqoop将关系数据库管理系统(RDBMS)中的数据导入Hadoop分布式文件系统(HDFS),转换Hadoop MapReduce中的数据,然后将数据导出回RDBMS...

    sqoop-1.4.6.bin__hadoop-2.0.4-alpha.tar.gz

    Sqoop 是一个用于在 Apache Hadoop 和传统关系型数据库之间高效传输数据的工具。这个压缩包 "sqoop-1.4.6.bin__hadoop-2.0.4-alpha.tar.gz" 包含了 Sqoop 的 1.4.6 版本,它已针对 Hadoop 2.0.4-alpha 版本进行了...

    sqoop-1.4.5

    总的来说,Sqoop-1.4.5为Hadoop 2.x环境提供了强大而灵活的数据迁移能力,使得数据科学家和数据工程师能够无缝地在传统数据库和Hadoop之间迁移数据,实现大数据分析和处理。正确配置和使用Sqoop,能够有效地提升数据...

    sqoop-1.4.5-cdh5.4.2.tar.gz

    CDH是Cloudera提供的一种企业级Hadoop发行版,包含多个Hadoop生态系统组件,如HDFS、MapReduce、HBase等,与Sqoop紧密集成,提供了更加稳定和优化的数据迁移体验。 在“压缩包子文件的文件名称列表”中,我们看到...

    sqoop-1.4.5.bin__hadoop-2.6.0.zip

    Sqoop-1.4.5.bin__hadoop-2.6.0.zip 文件是一个包含了 Sqoop 版本 1.4.5 和针对 Hadoop 版本 2.6.0 的预编译二进制包,方便用户在 Hadoop 环境中快速部署和使用 Sqoop。 Sqoop 的主要功能包括: 1. 数据导入:从...

    sqoop-1.4.6.bin__hadoop-2.0.4-alpha.tar.zip

    Sqoop 是一个开源工具,主要用于在关系型数据库(如 MySQL、Oracle 等)与 Hadoop 的 HDFS(Hadoop Distributed File System)之间进行数据迁移。这个压缩包 "sqoop-1.4.6.bin__hadoop-2.0.4-alpha.tar.zip" 包含了 ...

    zookeeper3.4.12+hbase1.4.4+sqoop1.4.7+kafka2.10

    在构建大数据处理环境时,Hadoop集群是核心基础,而`zookeeper3.4.12+hbase1.4.4+sqoop1.4.7+kafka2.10`这一组合则提供了集群中不可或缺的组件。让我们逐一探讨这些组件的功能、作用以及它们之间的协同工作。 **...

    sqoop资源下载 sqoop-1.4.7.bin-hadoop-2.6.0

    sqoop资源下载 sqoop-1.4.7.bin_hadoop-2.6.0

    sqoop-1.4.2.bin__hadoop-2.0.0-alpha.tar

    Sqoop 是 Apache Hadoop 生态系统中的一个工具,主要用于在关系型数据库(如 MySQL、Oracle 等)和 Hadoop 分布式文件系统(HDFS)之间高效地传输数据。这个压缩包 "sqoop-1.4.2.bin__hadoop-2.0.0-alpha.tar" 提供...

    sqoop-1.4.5-cdh5.3.6.tar.gz

    总之,"sqoop-1.4.5-cdh5.3.6.tar.gz" 是针对 CDH 5.3.6 版本的一个特定 Sqoop 实现,提供在 Hadoop 和 RDBMS 之间迁移数据的能力。虽然不是最新版本,但对于需要在该版本 CDH 上运行的项目,这是一个可靠的工具。在...

    sqoop-1.4.5.tar.gz

    在版本 1.4.5 中, Sqoop 提供了稳定性和性能优化,支持多种数据库和数据格式。 Sqoop 的核心功能包括: 1. **数据导入**:Sqoop 可以创建 SQL 查询来抽取所需的数据,然后将这些数据转换为适合 Hadoop MapReduce...

    Hadoop hbase hive sqoop集群环境安装配置及使用文档

    Sqoop 是一个用来在 Hadoop 和关系数据库之间传输数据的工具。Sqoop 的安装配置与 Hadoop 相似,这里不再详细介绍。 我们已经成功搭建了一个大数据集群环境,包括 Hadoop、HBase、Hive 和 Sqoop 的安装配置及使用。...

    Hadoop-Sqoop配置

    * 数据集成:Sqoop 可以将来自不同数据源的数据集成到一起,以便进行更好的数据分析和处理。 * 大数据处理:Sqoop 可以将结构化数据源中的数据导入 Hadoop 中,以便进行大数据处理和分析。 Sqoop 的优点包括: * ...

    sqoop-1.4.6.bin__hadoop-2.0.4-alpha

    Sqoop 是一个开源工具,主要用于在关系型数据库(如MySQL、Oracle等)和Apache Hadoop之间进行数据迁移。它的全称是"SQL to Hadoop",由Cloudera公司开发,首次发布于2009年,现在已经成为了Hadoop生态系统中的重要...

Global site tag (gtag.js) - Google Analytics