首先知道sqoop是做什么的
sqoop是一个把关系型数据库数据抽向Hadoop的工具。同时,也支持将hive、pig等查询的结果导入关系型数据库中存储。个人觉得用一个生态后就实用同一个系列的产品,比如选择了cloudera最好就用它的生态下的东西。
wget http://archive.cloudera.com/cdh5/cdh/5/sqoop2-1.99.5-cdh5.8.0.tar.gz
2、解压sqoop安装文件
tar -zxvf sqoop2-1.99.5-cdh5.8.0.tar.gz
3.修改sqoop——server关于hadoop共享jar的引用,这里可以指定环境变量,在1.99.7后直接是一个HADOOP_HOME或者是拆分后的
vi server/conf/catalina.properties
common.loader=${catalina.base}/lib,${catalina.base}/lib/*.jar,${catalina.home}/lib,${catalina.home}/lib/*.jar,${catalina.home}/../lib/*.jar,/data/hdp/2.3.6.0-3796/hadoop/*.jar,/data/hdp/2.3.6.0-3796/hadoop/lib/*.jar,/data/hdp/2.3.6.0-3796/hadoop-hdfs/*.jar,/data/hdp/2.3.6.0-3796/hadoop-hdfs/lib/*.jar,/data/hdp/2.3.6.0-3796/hadoop-mapreduce/*.jar,/data/hdp/2.3.6.0-3796/hadoop-mapreduce/lib/*.jar,/data/hdp/2.3.6.0-3796/hadoop-yarn/*.jar,/data/hdp/2.3.6.0-3796/hadoop-yarn/lib/*.jar
这里对应到自己的hadoop的配置的lib
4.修改mapreduce.configuration.directory对应到你的hadoop配置文件目录
如:/home/liuyazhuang/hadoop/hadoop/etc/hadoop
vi server/conf/sqoop.properties
同时如果需要修改日志的输出路径自己可以
5.启动sqoop没有配置环境变量的话找到对应的bin路径测试一启动下
./sqoop.sh server start
6.导入mysql数据库
cp mysql-connector-java-5.1.6.jar /data/hdp/2.3.6.0-3796/sqoop2/sqoop2-1.99.5-cdh5.8.2/server/lib
重新启动sqoop进入sqoop的client端
./sqoop.sh client
测试一下http://123.59.135.103:12000/sqoop/version 是否可以访问
为客户端配置服务器
set server --host node01.soyoung.com --port 12000 --webapp sqoop
### 导入mysql数据库【注意这里版本1和2配置不同】
1.创建sqoop对应的mysql数据库
create database sqoop
grant all privileges on sqoop to sqoop01@'node01.soyoung.com' identified by 'sqoop09876';
1.创建hadoop连接
create link --cid 3
Name: hdfs_link
HDFS URI: hdfs://name-ha:8020
2.创建mysql连接
sqoop:000> create link --cid 1
Name: sqoop01
JDBC Driver Class: com.mysql.jdbc.Driver
JDBC Connection String: jdbc:mysql://node01.soyoung.com:3306/sqoop
username:sqoop01
password:sqoop09876
出现entry#protocol -tcp 直接回车
show link
+----+-----------+--------------+------------------------+---------+
| Id | Name | Connector Id | Connector Name | Enabled |
+----+-----------+--------------+------------------------+---------+
| 1 | mysql_link | 1 | generic-jdbc-connector | true |
| 2 | hadoop | 2 | kite-connector | true |
| 3 | hdfs_link | 3 | hdfs-connector | true |
+----+-----------+--------------+------------------------+---------+
3.建立job(mysql到hdfs)
create job -f 1 -t 3
并填写对应的值
show job
start job --jid 1
4.建立job(hdfs到mysql)
create job -f 3 -t 1
填写对应需要的值
show job
status job -name mysql_to_hdfs_002【1.99.7版本】
start job --jid 3
sqoop1将hive上的数据带入到mysql[这是sqoop1的使用,看到这个比较熟悉2这里已经没有]
这里执行时下sqoop1上执行的,所以在sqoop2上已经没有该命令了.
sqoop export jdbc:mysql://node01.soyoung.com/sqoop --username sqoop01 --password sqoop09876 --table l_user --hcatalog-database tmp --hcatalog-table l_employee
7.配置sqoop到hue:
./sqoop.sh client
执行show version
sqoop就配置完成了,具体在hue上使用需要修改hue的hue.ini文件。等张哥来了协调重启hue。
启动hue,hue依赖于apache。 hue supervisor
8.使用sqoop客户端:
./sqoop.sh client
执行
show version
sqoop就配置完成了,具体在hue上使用需要修改hue的hue.ini文件。
相关文档:
http://archive.cloudera.com/cdh5/cdh/5/sqoop2-1.99.5-cdh5.8.0/CommandLineClient.html
http://gethue.com/hadoop-tutorials-series-ii-8-how-to-transfer-data/#
分享到:
相关推荐
大数据框架Sqoop+Flume+Oozie+Hue视频教程(59讲) 内含百度云地址
《大数据框架Sqoop+Flume+Oozie+Hue视频教程》Sqoop+Flume+Oozie+Hue整合大数据视频教程 经典之作 值得珍藏的大数据视频教程。
在使用"sqoop-1.99.5-bin-hadoop200"这个压缩包时,你需要按照官方文档或更新的指南进行安装和配置。确保你的Hadoop环境已经正确设置,并且理解新的启动方式。在实际操作中,可以尝试导入导出不同类型的数据库,比较...
【标题】:“安装笔记:hadoop+hbase+sqoop2+phoenix+kerberos” 【描述】:在本文中,我们将探讨如何在两台云主机(实际环境可能需要三台或更多)上安装Hadoop、HBase、Sqoop2、Phoenix以及Kerberos的详细过程,...
本文主要讲述在Hue平台使用Oozie工作流操作Sqoop工具将MySQL数据库的数据传输到HDFS中,并最终导入到Hive表中的经验。以下是详细知识点: 1. Hue平台和Oozie工作流简介: Hue是一种开源的用户界面,用于简化与...
标题中的"sqoop2-1.99.5-cdh5.6.0.tar.gz"指的是 Sqoop2 的一个特定版本,这个版本是针对Cloudera Distribution Including Apache Hadoop (CDH) 5.6.0的定制版。描述中提到的"很好用"意味着这个版本在实际应用中表现...
大数据常用软件安装指南 一、Hadoop 分布式文件存储系统:HDFS 分布式计算框架:MapReduce 集群资源管理器:YARN 单机伪集群环境搭建 集群环境搭建 常用 Shell 命令 Java API 的使用 基于 Zookeeper 搭建 Hadoop 高...
在构建大数据处理环境时,Hadoop集群是核心基础,而`zookeeper3.4.12+hbase1.4.4+sqoop1.4.7+kafka2.10`这一组合则提供了集群中不可或缺的组件。让我们逐一探讨这些组件的功能、作用以及它们之间的协同工作。 **...
### Sqoop2安装与配置详解 #### 一、概述 Sqoop是一款开源工具,主要用于在Hadoop和关系型数据库之间高效地传输数据。Sqoop2是Sqoop的一个重大升级版本,它引入了全新的架构和改进的功能,使得数据迁移更加稳定...
使用cdh版本的sqoop2 api远程操作sqoop进行数据迁移。
在大数据处理领域,构建一个基于Sqoop、Hive、Spark、MySQL、AirFlow和Grafana的工业大数据离线数仓项目是一项复杂而关键的任务。这个项目旨在整合来自不同源头的数据,进行清洗、转化和分析,以支持制造行业的决策...
### 第15章-Sqoop+Hive+Hbase+Kettle+R某技术论坛日志分析项目案例 #### 案例概述 本案例详细介绍了如何利用一系列大数据处理工具,包括Sqoop、Hive、Hbase、Kettle以及R语言,对一个技术论坛的日志数据进行分析的...
叶梓老师整理的Hadoop2.2.0+Hbase0.98.4+sqoop-1.4.4+hive-0.98.1安装手册,非常实用
说明: 版本为:sqoop2-1.99.5-cdh5.10.2 解决数据分隔符 以及 string类型数据存在单引号问题(解决方式 通过更改源码SqoopIDFUtils 里面的分隔符来解决此问题 ) 只需要将以下包进行替换 connector-sdk-1.99.5-...
2、本项目适合计算机相关专业(如计科、人工智能、通信工程、自动化、电子信息等)的在校学生、老师或者企业员工下载学习,也适合小白学习进阶,当然也可作为毕设项目、课程设计、作业、项目初期立项演示等。...
大数据集群 Hadoop HBase Hive Sqoop 集群环境安装配置及使用文档 在本文档中,我们将详细介绍如何搭建一个大数据集群环境,包括 Hadoop、HBase、Hive 和 Sqoop 的安装配置及使用。该文档将分为四部分:Hadoop 集群...
安装Sqoop2的步骤通常包括以下几个阶段: 1. **环境准备**:确保你的系统已经安装了Java运行环境(JRE)和Hadoop。对于Hadoop200,你需要设置好HADOOP_HOME环境变量,指向Hadoop的安装目录。 2. **下载 Sqoop2**:...
Sqoop 安装与使用 Sqoop 是一款方便的在传统型数据库与 Hadoop 之间进行数据迁移的工具,充分利用 MapReduce 并行特点以批处理的方式加快数据传输。Sqoop 工具是 Hadoop 下连接关系型数据库和 Hadoop 的桥梁,支持...