`

sqoop2 与hadoop-2.2.0集成

阅读更多

sqoop是关系型数据库与hadoop之间传递数据的一个工具.

下载sqoop 1.99.3按包里的文档安装,出现了以下一些问题:

1.启动sqoop.sh server start 时,服务器不能启动,查看sqoop.log发现配置的hadoop目录不是正确的目录或权限不正确.我仔细检查了路径,绝对正确.上网GOOGLE也没有找到解决办法,仔细回想,原来我将sqoop server安装到与hadoop namenode/resourcemanager相同的机子上,而配置的hadoop配置目录是解压后etc/hadoop这个目录,当hadoop运行时,也会用到这个目录,会对这个目录进行保护,所以sqoop无权限读取这个目录的配置文件,想通原因后,解决方法很简单:将etc/hadoop目录下的文件拷贝到/home/zhj/hadoopconf目录,再修改sqoop server的配置便可.

 

2.提交一个JOB时,我按文档中的5分钟教程 sqoop:000>submission start --jid 1  提示错误,原来文档里也有错误,正确的命令是:start job --jid 1

参考:http://stackoverflow.com/questions/21244591/what-is-the-syntax-for-starting-a-sqoop2-job

http://archive.cloudera.com/cdh4/cdh/4/sqoop2-1.99.2-cdh4.5.0/CommandLineClient.html#start-command

 

3.提交job后,server报错如下:



 

我猜想的原因是sqoop server与hadoop namenode/resourcemanager运行在同一台机子上,SSH连接时出错

解决办法,

1. ssh-keygen -t rsa
Press enter for each line 
2. cat ~/.ssh/id_rsa.pub >> ~/.ssh/authorized_keys
3. chmod og-wx ~/.ssh/authorized_keys

 参考:http://stackoverflow.com/questions/7439563/hard-how-to-ssh-localhost-without-password

 

sqoop is still not working well due to the follwing errors:

Given job is already running.

 

could not load history file .

原因是HDFS的默认拷贝份数是3,而我只有两个数据节点,增加一个后,问题解决.

 

从sakila数据库导出一个表的数据,JOB不能成功运行,查看日志是拒绝连接.问题的原因是在创建connection时设置有问题,同时mysql默认不能让远程主机进行连接.解决方法:

#sudo vi /etc/mysql/my.cnf

bind_address = ::

 

#sudo service mysql restart

 

#mysql -u root -p

#grant all on sakila.* to 'hadoop-user'@'%';

 

see:http://dev.mysql.com/doc/refman/5.5/en/server-options.html

  • 大小: 380.1 KB
分享到:
评论

相关推荐

    apache-atlas-2.2.0-sqoop-hook.tar.gz

    `apache-atlas-2.2.0-sqoop-hook.tar.gz` 是Apache Atlas的一个特定版本(2.2.0)与Sqoop集成的钩子(hook)包。这个钩子允许Atlas跟踪通过Sqoop操作的数据流动,从而增强元数据管理和血缘追踪的能力。Sqoop Hook...

    Hadoop2.2.0+Hbase0.98.4+sqoop-1.4.4+hive-0.98.1安装手册(All)_ZCX

    叶梓老师整理的Hadoop2.2.0+Hbase0.98.4+sqoop-1.4.4+hive-0.98.1安装手册,非常实用

    Hadoop2.2.0Hbase0.98.1Hive0.13完全安装手册

    ### Hadoop2.2.0 + HBase0.98.1 + Sqoop1.4.4 + Hive0.13 完全安装手册 #### 前言 随着大数据技术的发展,Hadoop已经成为处理海量数据的核心框架之一。本文旨在为读者提供一套最新的Hadoop2.2.0、HBase0.98.1、...

    Hadoop云计算平台搭建方案2..doc

    该平台旨在利用Hadoop-2.2.0进行大数据存储和分析,通过部署在4个物理节点上的Hadoop集群,实现对海量数据的深层加工和处理,以揭示隐藏的业务模式,为电力企业的决策提供数据支持。平台运行在Linux操作系统(Ubuntu...

    Hadoop云计算平台搭建方案2.1.doc

    7. **Sqoop 1.99.3** - 数据迁移工具,用于在Hadoop和关系型数据库间传输数据。 **平台搭建流程** 1. **创建master节点** - 首先在master节点上安装JDK和Hadoop等应用程序。 2. **克隆master节点** - 克隆master...

    Hadoop云计算平台搭建方案2.1.docx

    Sqoop-1.99.3则用于在Hadoop和传统数据库之间迁移数据。 搭建流程主要包括以下步骤: 1. 在master节点上安装VMware Workstation,然后安装Linux系统Ubuntu。 2. 在master节点上配置JDK和Hadoop,包括设置环境变量...

    BigDataFramwork-实验手册.docx

    Spark的安装路径为/opt/spark-2.2.0-bin-hadoop2.6,启动命令包括start-all.sh、start-master.sh和start-slaves.sh,分别用于启动Spark集群的所有服务、主节点和从节点。 七、Scala Scala是Spark的主要编程语言,...

    hadoop实现购物商城推荐系统

    3,hadoop2.2.0:这里用于练习的是伪分布模式。4,完成内容:喜欢该商品的人还喜欢,相同购物喜好的好友推荐。1,通过sqoop从mysql中将“用户收藏商品”(这里用的是用户收藏商品信息表作为推荐系统业务上的依据,...

    大数据平台搭建实验手册-罗登1

    例如,Hadoop版本为3.1.2,Zookeeper为3.5.5,Hive为3.3.1,HBase为2.2.0,Spark为2.4.3,Flume为1.9.0,Sqoop为1.4.7,Kafka为2.12-2.3.0,以及Storm为2.0.4。每个组件的配置文件(如.bashrc)也进行了设置,以确保...

Global site tag (gtag.js) - Google Analytics