Sqoop是一个用来将Hadoop和关系型数据库中的数据相互转移的工具,可以将一个关系型数据库(例如 : MySQL ,Oracle ,Postgres等)中的数据导进到Hadoop的HDFS中,也可以将HDFS的数据导进到关系型数据库中。
安装sqoop的前提是有一套hadoop环境。
1、去官网下载sqoop,下载地址http://apache.dataguru.cn/sqoop/1.4.5/,一定要下载与你hadoop版本一致的sqoop,比如‘sqoop-1.4.5.bin__hadoop-2.0.4-alpha.tar.gz’中的‘hadoop-2.0.4’是指与hadoop2兼容的,
拷贝sqoop-1.4.5.bin__hadoop-2.0.4-alpha.tar.gz到hadoop上,用户与启动hadoop的用户一样,解压,重命名为sqoop。
2、进入到sqoop/conf中,将sqoop-env-template.sh重命名为sqoop-env.sh,修改里面内容:
其中HBASE_HOME、HIVE_HOME、ZOOCFGDIR没有用到的话可以不配置。
3、在/etc/profile中配置sqoop的环境变量
export SQOOP_HOME=/home/hadoop/sqoop
export PATH=$JAVA_HOME/bin:$HADOOP_HOME/bin:$HADOOP_HOME/sbin:$SQOOP_HOME/bin:$PATH
4、将mysql-connector-java-5.1.32-bin.jar驱动考入到sqoop/lib下面,注意,这里驱动的版本可能不兼容,5.1.32这个版本经过测试是可用的。
5、接下来就可以测试是否已经配置好了,列出mysql中所有数据库:
sqoop list-databases --connect jdbc:mysql://192.168.1.87 --username root --password 123.com
6、将数据库中表CUSTOM_REGION导入到HDFS中
sqoop import --connect jdbc:mysql://192.168.1.87/china? characterEncoding=utf-8 --username root --password 123.com --table CUSTOM_REGION -m 1 --target-dir /user/hadoop/TESTSQL
其中Sqoop默认会同时启动四个Map任务来加速数据导入,可以通过-m 1命令来强制只启动一个map任务,(-m,–num-mappers 启动N个map来并行导入数据,默认是4个,最好不要将数字设置为高于集群的节点数 );--target-dir 是指定讲数据存放的HDFS路径,其中“/user”是固定的,'hadoop'是当前用户,'TESTSQL'是数据存放目录,如果不指定,则会默认为表名,即/user/hadoop/CUSTOM_REGION。
7、将数据从HDFS中导入MYSQL表中
sqoop-export --connect jdbc:mysql://192.168.1.87/china? characterEncoding=utf-8 --username root --password 123.com --table CUSTOM_REGION_TEMP -m 1 --export-dir /user/hadoop/CUSTOM_REGION
导出时,–connect,–table, –export-dir是必须设置的。
–export-dir是要导出的HDFS文件位置。如果不是绝对路径,指/user/username/datadir 。
经过测试,在伪分布式hadoop环境下,从MYSQL到HDFS一个G的数据量一个map时间是195S,在伪分布式环境下,map越多,时间越长;在一master二slave环境下,一个G的数据量一个map时间是96S,二个map时间是77S。
相关推荐
【Sqoop概述】 Sqoop是Apache Hadoop生态系统中的一款重要工具,主要负责在关系型数据库管理系统(如MySQL)...正确理解和掌握Sqoop的使用,对于大数据工程师来说至关重要,因为它能有效提高数据处理的效率和灵活性。
Sqoop是一个用于在Hadoop和关系...您可以使用Sqoop将关系数据库管理系统(RDBMS)(如MySQL或Oracle或大型机)中的数据导入Hadoop分布式文件系统(HDFS),转换Hadoop MapReduce中的数据,然后将数据导出回RDBMS 。
本篇笔记主要围绕 Sqoop 的使用场景、安装步骤以及如何配合 Hive 和 Hbase 使用进行展开。 #### 二、数据传输流程设计 最初的设计方案是通过 Sqoop 将数据从 PostgreSQL 导入到 Kafka,再通过存储程序将 Kafka 的...
大数据集群 Hadoop HBase Hive Sqoop 集群环境安装配置及使用文档 在本文档中,我们将详细介绍如何搭建一个大数据集群环境,包括 Hadoop、HBase、Hive 和 Sqoop 的安装配置及使用。该文档将分为四部分:Hadoop 集群...
【标题】:“安装笔记:hadoop+hbase+sqoop2+phoenix+kerberos” 【描述】:在本文中,我们将探讨如何在两台云主机(实际环境可能需要三台或更多)上安装Hadoop、HBase、Sqoop2、Phoenix以及Kerberos的详细过程,...
此外,还可以使用监控工具如Ambari来管理和监控整个Hadoop集群的健康状态。 以上就是搭建Hadoop环境的基本步骤,需要注意的是,整个过程需要对Linux系统、网络配置和大数据组件有深入理解。在实际操作中,可能还会...
大数据学习笔记 本资源摘要信息涵盖了大数据领域中的多个方面,包括Hadoop、HBase、Sqoop、Spark和Hive等...大数据学习笔记涵盖了Hadoop、HBase、Sqoop、Spark和Hive等技术栈,提供了对大数据领域的深入了解和掌握。
笔记 Hive CSV SerDe 使用 OpenCSV 库,因此您也可以尝试一下。 3.配置Flume使用NetCat Source消费事件 Flume 应该把事件放到 HDFS 目录events/${year}/${month}/${day} 尝试将 3000 多个事件分几批放入 HDFS 4.创建...
java连接sqoop源码AWS 大数据专业证书研究 免责声明:本指南是我学习的尾声,因此并不完整,主要集中在琐事/问题上。 取自 . 数据采集 服务说明 200 毫秒延迟(1 个标准消费者),70 毫秒,增强型扇出 HTTP2 推送...
妳那伊抹微笑自己整理的Hadoop笔记,有以下内容: Day1 搭建伪分布实验环境 Day2 介绍HDFS体系结构及shell、java操作方式 Day3 介绍MapReduce体系结构(1) Day4 介绍MapReduce体系结构(2) Day5 介绍Hadoop集群、...
│ Day1611_Hbase与Sqoop集成使用.mp4 │ Day1612_Hbase完全分布式集群的部署配置.mp4 ├─03_笔记 │ Day16[Hbase 企业应用及与MapReduce集成].txt ├─04_代码 ├─06_配置 └─08_作业 Day16[Hbase 企业应用及...
【大数据相关搭建笔记.zip】这个压缩包集合了多个关于大数据平台搭建的重要文档,涉及的关键技术包括Hadoop(含Hive、HBase以及HA)、Spark、Sqoop、Flume以及Ambari。这些组件是大数据处理生态系统中的核心部分,...
- Sqoop:是一个开源工具,用于在Hadoop和关系数据库之间高效地传输大量数据。 - Oozie:是一个用于管理Hadoop作业的工作流调度系统。 - Avro:是一种数据序列化系统,用于高效的跨语言数据交换。 - HDFS Federation...
在IT领域,Hadoop是一个广泛使用的开源框架,主要用于大数据处理和分析。它的核心组件包括Hadoop分布式文件系统(HDFS)和MapReduce计算模型。本文将深入探讨HDFS的基本原理和操作,以及如何通过Java API进行文件...
广义的Hadoop生态圈还包括Flume(日志数据采集)、Sqoop(关系型数据库数据导入)、Hive(SQL查询支持)、HBase(大数据数据库)等辅助工具。 课程内容分为九个部分,涵盖了大数据的概述、Hadoop的历史、组成、完全...
6. **第六天-HBase.ppt** - 这个PPT很可能是课程的主要内容,涵盖了HBase的所有核心知识点,包括安装配置、数据模型、API使用、性能优化以及常见问题解决方案。 总的来说,通过这些资源,学生可以全面了解HBase的...
MartinHub的学习笔记 关于我 MartinHub :smiling_face_with_sunglasses: ,,热爱生活!热爱技术! 微信公众号【MartinHub】 个人微信号【MartinHub】 项目介绍 大数据 Java 数据库 Linux 杂记 :bullseye: :hot_...
8. Oozie:Oozie是Hadoop的工作流调度系统,用于管理Hadoop作业(包括MapReduce、Pig、Hive、Sqoop等)和其他系统作业(如Java程序、Shell脚本)的生命周期。 9. Zookeeper:Zookeeper是一个分布式的协调服务,用于...