大数据系列8：Sqoop – HADOOP和RDBMS数据交换 - 杨尚川的博客

yangshangchuan

浏览: 2479435 次
性别:
来自: 北京

最近访客更多访客>>

wangyy

akingde

feilafei123

wf_chn

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

大数据系列8：Sqoop – HADOOP和RDBMS数据交换

博客分类：

大数据

sqoop 数据迁移大数据搜索引擎网络爬虫

Sqoop1：

wget http://mirrors.ustc.edu.cn/apache/sqoop/1.4.4/sqoop-1.4.4.bin__hadoop-1.0.0.tar.gz

tar -xzvf sqoop-1.4.4.bin__hadoop-1.0.0.tar.gz

mv sqoop-1.4.4.bin__hadoop-1.0.0 sqoop-1.4.4

cd sqoop-1.4.4

sudo vi /etc/profile

增加：

export HADOOP_COMMON_HOME=/home/ysc/hadoop-1.2.1

export HADOOP_MAPRED_HOME=/home/ysc/hadoop-1.2.1

export PATH=$PATH:/home/ysc/sqoop-1.4.4/bin

export HBASE_HOME=/home/ysc/hbase-0.94.12

source /etc/profile

sqoop help

将JDBC驱动mysql-connector-java-5.1.18.jar拷贝到/home/ysc/sqoop-1.4.4/lib

sqoop list-databases --connect jdbc:mysql://host001 --username root --password ysc

sqoop list-tables --connect jdbc:mysql://host001/mysql --username root --password ysc

sqoop import --connect jdbc:mysql://host001/test --username root --password ysc --table person

sqoop import --connect jdbc:mysql://host001/test --username root --password ysc --table person -m 1

sqoop import --connect jdbc:mysql://host001/test --username root --password ysc --table person --direct -m 1

sqoop import-all-tables --connect jdbc:mysql://host001/test --username root --password ysc --direct -m 1

sqoop export --connect jdbc:mysql://host001/test --username root --password ysc --table person --export-dir person

sqoop export --connect jdbc:mysql://host001/test --username root --password ysc --table animal --export-dir animal

Sqoop2：

wget http://mirror.bit.edu.cn/apache/sqoop/1.99.2/sqoop-1.99.2-bin-hadoop100.tar.gz

tar -xzvf sqoop-1.99.2-bin-hadoop100.tar.gz

mv sqoop-1.99.2-bin-hadoop100 sqoop-1.99.2

cd sqoop-1.99.2

sudo apt-get install zip

bin/addtowar.sh -hadoop-version 1.2.1 -hadoop-path /home/ysc/hadoop-1.2.1

bin/addtowar.sh -jars /home/ysc/mysql-connector-java-5.1.18.jar

vi server/conf/sqoop.properties

修改org.apache.sqoop.submission.engine.mapreduce.configuration.directory=/etc/hadoop/conf/为

org.apache.sqoop.submission.engine.mapreduce.configuration.directory=/home/ysc/hadoop-1.2.1/conf/

启动Sqoop 2 server：

bin/sqoop.sh server start

http://host001:12000/sqoop/

停止Sqoop 2 server：

bin/sqoop.sh server stop

客户端连接Sqoop 2 server：

客户端直接解压即可运行

MySQL准备数据库和表:

create database test;

create table history (userId int, command varchar(20));

insert into history values(1, 'ls');

insert into history values(1, 'dir');

insert into history values(2, 'cat');

insert into history values(5, 'vi');

交互模式：

bin/sqoop.sh client

sqoop:000> set server --host host001 --port 12000 --webapp sqoop

sqoop:000> show version --all

sqoop:000> show connector --all

sqoop:000>create connection --cid 1

Name: mysql

JDBC Driver Class: com.mysql.jdbc.Driver

JDBC Connection String:

jdbc:mysql://host001:3306/test?useUnicode=true&characterEncoding=UTF-8&createDatabaseIfNotExist=true&autoReconnect=true

Username: root

Password: ***

entry#回车

Max connections:100

sqoop:000>create job --xid 1 --type import

Name:ImportHistory

Schema name:

Table name: history

Table SQL statement:

Table column names:

Partition column name:userId

Boundary query:

Choose:0

Choose: 0

Output directory: output-sqoop2-history

Extractors:

Loaders:

sqoop:000> submission start --jid 1

sqoop:000> submission status --jid 1

sqoop:000> submission stop --jid 1

批处理模式：

sqoop.sh client /home/ysc/script.sqoop

vi /home/ysc/script.sqoop

输入：

#指定服务器信息

set server --host host001 --port 12000 --webapp sqoop

#执行JOB

submission start --jid 1

APDPlat旗下十大开源项目

mysql-connector-java-5.1.18.jar (771.4 KB)
下载次数: 0

Apache.Sqoop.Cookbook__2013.7_.Kathleen.Ting.pdf (8.8 MB)
下载次数: 53

1
顶

3
踩

分享到：

大数据系列9：Mahout – 机器学习 | 大数据系列7：Storm – 流计算

2013-10-03 00:03
浏览 13341
评论(5)
分类:互联网
查看更多

5 楼 fighting_2013 2013-11-10

yangshangchuan 写道

fighting_2013 写道

bin/sqoop import --connect jdbc:mysql://centos.master:3306/test --username root --password 123456 --table user --direct --target-dir /sqoop/user

结果报错
13/11/08 08:47:50 INFO mapreduce.Job: The url to track the job: http://centos.master:8088/proxy/application_1383902225131_0006/
13/11/08 08:47:50 INFO mapreduce.Job: Running job: job_1383902225131_0006
13/11/08 08:47:54 INFO mapreduce.Job: Job job_1383902225131_0006 running in uber mode : false
13/11/08 08:47:54 INFO mapreduce.Job: map 0% reduce 0%
13/11/08 08:47:54 INFO mapreduce.Job: Job job_1383902225131_0006 failed with state FAILED due to: Application application_1383902225131_0006 failed 2 times due to AM Container for appattempt_1383902225131_0006_000002 exited with exitCode: -1000 due to: Rename cannot overwrite non empty destination directory /home/hadoop/filesystem/hdfs/tmp/nm-local-dir/usercache/hadoop/filecache/16
.Failing this attempt.. Failing the application.
13/11/08 08:47:54 INFO mapreduce.Job: Counters: 0
13/11/08 08:47:54 WARN mapreduce.Counters: Group FileSystemCounters is deprecated. Use org.apache.hadoop.mapreduce.FileSystemCounter instead
13/11/08 08:47:54 INFO mapreduce.ImportJobBase: Transferred 0 bytes in 7.817 seconds (0 bytes/sec)
13/11/08 08:47:54 WARN mapreduce.Counters: Group org.apache.hadoop.mapred.Task$Counter is deprecated. Use org.apache.hadoop.mapreduce.TaskCounter instead
13/11/08 08:47:54 INFO mapreduce.ImportJobBase: Retrieved 0 records.
13/11/08 08:47:54 ERROR tool.ImportTool: Error during import: Import job failed!

请问这是什么问题？怎么样能解决？

删除目录/home/hadoop/filesystem/hdfs/tmp/nm-local-dir/usercache/hadoop/filecache/16再重新运行试试

之前就试过删除，在运行还是报这个错误，只是文件目录换了一个

4 楼 yangshangchuan 2013-11-09

fighting_2013 写道

删除目录/home/hadoop/filesystem/hdfs/tmp/nm-local-dir/usercache/hadoop/filecache/16再重新运行试试

3 楼 fighting_2013 2013-11-09

2 楼 yangshangchuan 2013-11-04

fighting_2013 写道

sqoop 1.4.4 能导入数据到 hadoop 2.2 吗？两者兼容吗？

hadoop2.2.0 + sqoop 1.4.4 没试过

1 楼 fighting_2013 2013-11-04

sqoop 1.4.4 能导入数据到 hadoop 2.2 吗？两者兼容吗？

发表评论

您还没有登录,请您登录后再发表评论

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

大数据系列8：Sqoop – HADOOP和RDBMS数据交换

评论

发表评论

相关推荐

最近访客 更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

大数据系列8：Sqoop – HADOOP和RDBMS数据交换

评论

发表评论

相关推荐

数据生成器

分布式内存文件系统：Tachyon

大数据系列12：Hadoop2 – 全新的Hadoop

大数据系列6：HBase – 基于Hadoop的分布式数据库

大数据系列1：在win7上安装配置Hadoop伪分布式集群

大数据系列11：Gora – 大数据持久化

大数据系列10：Spark – 内存计算

大数据系列5：Pig – 大数据分析平台

大数据系列4：Hive – 基于HADOOP的数据仓库

大数据系列9：Mahout – 机器学习

大数据系列7：Storm – 流计算

大数据系列2：建立开发环境编写HDFS和Map Reduce程序

大数据系列3：用Python编写MapReduce

最近访客更多访客>>