Linux搭建Sqoop开发环境
1.Sqoop
传统的应用管理系统,也就是与关系型数据库的使用RDBMS应用程序的交互,是产生大数据的来源之一。这样大的数据,由关系数据库生成的,存储在关系数据库结构关系数据库服务器。
当大数据存储器和分析器,如MapReduce, Hive, HBase, Cassandra, Pig等,Hadoop的生态系统等应运而生图片,它们需要一个工具来用的导入和导出的大数据驻留在其中的关系型数据库服务器进行交互。在这里,Sqoop占据着Hadoop生态系统提供关系数据库服务器和Hadoop HDFS之间的可行的互动。
Sqoop:“SQL 到 Hadoop 和 Hadoop 到SQL”
Sqoop是Hadoop和关系数据库服务器之间传送数据的一种工具。它是用来从关系数据库如MySQL,Oracle到Hadoop的HDFS从Hadoop文件系统导出数据到关系数据库。它是由Apache软件基金会提供。
2. Sqoop的工作流程:
3.安装Sqoop
【1】下载Sqoop安装包: sqoop-1.4.7.bin__hadoop-2.6.0.tar.gz,
【2】利用Xftp工具把安装包上传到服务器:/usr/local/sqoop,其中sqoop-1.4.7支持hadoop-2.6.0以上版本,我这里选择了sqoop-1.4.6,其中 sqoop-1.4.6支持haoop-2.0.4以上版本:
【3】Xshell使用cd命令进入到sqoop的安装目录:cd /usr/local/sqoop:
【4】使用tar -xvf 解压xx.tar.gz压缩包:tar -xvf sqoop-1.4.6.tar.gz
【5】 把mysql的jdbc驱动mysql-connector-java-5.1.46.jar复制到sqoop安装包的lib目录下:
【6】 Xhell使用cd命令进入到:cd /usr/local/sqoop/sqoop-1.4.6/conf,中执行命令:mv sqoop-env-template.sh sqoop-env.sh
【7】配置环境变量:vim /etc/profile,输入:source /etc/profile,使得环境变量生效
#Setting SQOOP_HOME Path
export SQOOP_HOME=/usr/local/sqoop/sqoop-1.4.6
export PATH=${PATH}:${SQOOP_HOME}/bin
【8】修改配置文件sqoop-env.sh:
#Set path to where bin/hadoop is available
#export HADOOP_COMMON_HOME=
export HADOOP_COMMON_HOME=/usr/local/hadoop/hadoop-2.7.5
#Set path to where hadoop-*-core.jar is available
#export HADOOP_MAPRED_HOME=
export HADOOP_MAPRED_HOME=/usr/local/hadoop/hadoop-2.7.5
#set the path to where bin/hbase is available
#export HBASE_HOME=
export HBASE_HOME=/usr/local/hadoop/hadoop-2.7.5
#Set the path to where bin/hive is available
#export HIVE_HOME=
export HIVE_HOME=/usr/local/hive/hive-2.3.2
#Set the path for where zookeper config dir is
#export ZOOCFGDIR=
export ZOOCFGDIR=/usr/local/sqoop/repository/zookeper
4.测试Sqoop:
【1】 列出mysql数据库中的所有数据库 :sqoop list-databases --connect 数据库链接字符串 -username 数据库用户名 -password 数据库密码
【2】 连接mysql并列出数据库中的表:sqoop list-tables --connect 数据库链接字符串 --username 数据库用户名 --password 数据库密码
相关推荐
为了顺利完成这一过程,本文档提供了一套详细的操作指南,包括环境搭建、命令熟悉以及API开发等环节。需要注意的是,虽然本文档能够显著减少项目实施过程中可能遇到的问题,但读者仍需具备一定的基础背景知识,比如...
开发环境搭建 Data Source Data Transformation Data Sink 窗口模型 状态管理与检查点机制 Standalone 集群部署 六、HBase 简介 系统架构及数据结构 基本环境搭建 集群环境搭建 常用 Shell 命令 Java API 过滤器详解...
此外,开发环境的准备也包括集成开发环境(IDE,如IntelliJ IDEA或Eclipse),以及版本控制系统(如Git)的安装和使用。这些工具可以帮助编写、测试和管理代码。 在学习过程中,文档合集可能还涵盖了如何设置虚拟机...
JDK是Java开发环境,几乎所有基于Java的应用和库都需要JDK。MySQL是常用的开源数据库管理系统,用于存储Hive元数据、管理数据等。 除了上述内容,文档还提到了Hadoop集群搭建的详细流程,包括了安装配置Hadoop及其...
2、能够在linux环境搭建hadoop、hbase等的伪分布和分布模式,进入公司后可以自己搭建环境; 3、能够使用java语言、shell命令行两种方式操作hadoop、zookeeper、hbase、hive、sqoop等,进入公司可以直接上手工作,不...
HDFS编程实践部分,需要在安装了Eclipse集成开发环境之后进行。本部分介绍了如何在HDFS上进行文件的基本操作,包括读取、写入、创建目录、删除文件或目录等。同时提供了编写HDFS程序的练习和错误解决方法,为实践...
- JDK(版本1.8.0_20):Java开发工具包,为Hadoop提供运行环境。 - Hadoop(版本2.2.0):核心数据处理框架。 - HBase(版本0.96.2):分布式数据库,用于存储非结构化数据。 - ZooKeeper(版本3.4.5):协调服务,...
Hadoop 是大数据领域中最流行的分布式计算框架,本部分课程旨在帮助学员掌握 Hadoop 2.x 的核心技术,涵盖了 Hadoop 2.x 的概述及生态系统、环境搭建与测试、分布式部署 Hadoop 2.x、分布式协作服务框架 Zookeeper、...
Storm 集群的安装是分布式集群技术的基础,linux 环境准备、zookeeper 集群搭建、Storm 集群搭建、Storm 配置文件配置项讲解、集群搭建常见问题解决等内容将为读者提供了 Storm 集群的安装基础知识。 Storm 常用...
Hadoop是一个开源的分布式计算框架,由Apache软件基金会开发,主要用于处理和存储大规模数据集。在这个特定的搭建方案中,选择了Hadoop 2.2.0版本,它提供了高可用性和容错性,以支持企业级的大数据处理需求。 首先...
2. **系统需求**:在搭建Hue之前,你需要一个运行Hadoop、HBase等组件的环境。这通常意味着你需要在Linux系统上安装Hadoop分布式文件系统(HDFS)和YARN资源管理器,以及其他相关服务如HBase、Spark等。 3. **安装...
3. **JDK 1.8.0_20** - Java开发工具包,为Hadoop及其相关服务提供运行环境。 4. **Hadoop 2.2.0** - 开源的云计算基础框架,用于数据存储和处理。 5. **HBase 0.96.2** - 分布式数据存储系统,支持大规模数据的实时...
Eclipse作为集成开发环境,用于编写和运行Spark程序。Spark是快速、通用且可扩展的大数据处理框架,其中的MLlib库支持机器学习算法,学生将通过Spark MLlib进行简单的分类操作。 此外,案例还涉及前端可视化工具...
- Eclipse:集成开发环境(IDE),支持Java编程,常用于开发Hadoop相关应用程序。 二、数据导入 1. 数据库、表清单:在数据导入阶段,首先需要规划和创建所需的数据库和表,以满足数据分析的需求。 2. 数据对象...
Eclipse作为开发环境,用于编写和调试Hadoop MapReduce程序。 二、数据导入 1. 数据库、表清单 在大数据平台中,数据通常以数据库和表的形式组织。需要创建合适的数据库和表结构来存储和管理数据。 2. 数据对象的...
本资源提供的是一套完整的Hadoop环境部署,包括了多个关键组件,旨在帮助用户快速搭建一个功能齐全的大数据处理平台。这套虚拟机镜像包含了以下组件: 1. **HDFS (Hadoop Distributed File System)**:Hadoop的核心...
在搭建Hadoop集群并使用sqoop1.4.7的过程中,Apache Commons Lang 3.9可能会被用到,比如在处理日志、配置文件或者在数据转换过程中进行一些字符串和数组的操作。由于其丰富的功能,这个库可以在很多场景下提高代码...
除了Hadoop的核心组件,大数据开发还涉及到其他生态系统工具,如Hive(数据仓库工具)、HBase(实时分布式数据库)、Flume(日志收集)、Sqoop(数据ETL)、Zookeeper(分布式协作服务)和Mahout(数据挖掘库)。...
- **Eclipse开发环境**:介绍Eclipse集成开发环境的安装与配置方法,包括如何在Eclipse中创建Java项目、编写代码、编译及运行程序。 - **多线程技术**:深入理解Java中的线程概念、线程生命周期以及线程间通信机制,...