【Sqoop一】Sqoop1.4.5和Hadoop2.5.2数据集成入门

bit1129

浏览: 1075703 次
性别:
来自: 北京

最近访客更多访客>>

xiaoyaohen24

yuxin8000

abc951654

zhongqi2513

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

博客分类：

Sqoop

Sqoop安装与配置

Sqoop的运行需要依赖于Hadoop，因此需要首先安装Hadoop2.5.2，并且Sqoop的启动前需要首先安装Hadoop。

本文使用如下版本

sqoop-1.4.5.bin_hadoop-2.0.4-alpha版本，
Hadoop使用2.5.2版本

Sqoop安装和配置的步骤

1. 从如下地址下载Sqoop

http://mirror.bit.edu.cn/apache/sqoop/1.4.5/sqoop-1.4.5.bin__hadoop-2.0.4-alpha.tar.gz

注意安装包中hadoop前面是__(两个下划线) ，把其中的一个_去掉

2.解压sqoop，在系统变量里配置如下变量SQOOP_HOME和PATH

sudo  vim /etc/profile

export SQOOP_HOME=/home/hadoop/software/sqoop-1.4.5.bin_hadoop-2.0.4-alpha
export PATH=$SQOOP_HOME/bin:$PATH

###如下两行在sqoop-env.sh配置，在此处将其注释掉
#export HADOOP_COMMON_HOME=/home/hadoop/software/hadoop-2.5.2
#export HADOOP_MAPRED_HOME=/home/hadoop/software/hadoop-2.5.2

3. 修改配置文件

cp sqoop-env-template.sh sqoop-env.sh
cp sqoop-site-template.xml sqoop-site.xml

4. 修改sqoop-env.sh文件

export HADOOP_COMMON_HOME=/home/hadoop/software/hadoop-2.5.2

export HADOOP_MAPRED_HOME=/home/hadoop/software/hadoop-2.5.2

export HIVE_HOME=/home/hadoop/software/apache-hive-0.14.0-bin

注意HADOOP_MAPRED_HOME需要配置成home/hadoop/software/hadoop-2.5.2，而不是/home/hadoop/software/hadoop-2.5.2/share/hadoop/mapreduce，配置成后者在执行sqoop import的时候报Hadoop的类找不到

配置Sqoop的jar

1. 检查$SQOOP_HOME/lib下是否有sqoop-1.4.5.jar

2. 如果没有则下载到此目录

配置MySQL JDBC Driver

1. 检查检查$SQOOP_HOME/lib下是否有MySQL的JDBC驱动有mysql-connector-java-5.1.34.jar

2. 如果没有则下载到此目录、

启动Hadoop和MySQL

1. 首先运行Hadoop

2. 再次运行MySQL

使用Sqoop对HDFS的和MySQL双向导入导出

1. 查看Sqoop可用的命令参数

sqoop help

结果：

Available commands:
  codegen            Generate code to interact with database records
  create-hive-table  Import a table definition into Hive
  eval               Evaluate a SQL statement and display the results
  export             Export an HDFS directory to a database table
  help               List available commands
  import             Import a table from a database to HDFS
  import-all-tables  Import tables from a database to HDFS
  job                Work with saved jobs
  list-databases     List available databases on a server
  list-tables        List available tables in a database
  merge              Merge results of incremental imports
  metastore          Run a standalone Sqoop metastore
  version            Display version information

2. 获取所有的数据库(密码为空)

./sqoop list-databases --connect jdbc:mysql://192.168.26.135:3306 --username root

结果

information_schema
metadata_store
mysql
performance_schema
sqoop

3. 列出指定数据所有的表

./sqoop list-tables --connect jdbc:mysql://192.168.26.135:3306/metadata_store --username root

结果：

BUCKETING_COLS
CDS
COLUMNS_V2
DATABASE_PARAMS
DBS
FUNCS
FUNC_RU
GLOBAL_PRIVS
PARTITIONS
PARTITION_KEYS
PARTITION_KEY_VALS
PARTITION_PARAMS
PART_COL_STATS
ROLES
SDS
SD_PARAMS
SEQUENCE_TABLE
SERDES
SERDE_PARAMS
SKEWED_COL_NAMES
SKEWED_COL_VALUE_LOC_MAP
SKEWED_STRING_LIST
SKEWED_STRING_LIST_VALUES
SKEWED_VALUES
SORT_COLS
TABLE_PARAMS
TAB_COL_STATS
TBLS
VERSION

4. 在MySQL中创建测试数据库和表

4.1 创建表

mysql> create table person(name varchar(40), age int, job varchar(40));

4.2 插入数据

mysql> insert into person(name, age, job) values("jack",28,"Teacher");
Query OK, 1 row affected (0.00 sec)

mysql> insert into person(name, age, job) values("mary",23,"Student");
Query OK, 1 row affected (0.00 sec)

mysql> insert into person(name, age, job) values("Cloe",33,"Analystics");
Query OK, 1 row affected (0.00 sec)

4.3 查询插入结果：

5. MySQL的数据导入到HDFS中

5.1 执行导入命令

./sqoop import --connect jdbc:mysql://192.168.26.135:3306/sqoop --username root --direct --table person --fields-terminated-by ':' --target-dir /user/hadoop/person -m1

参数说明：

--table 指定要导入到HDFS中的表名

--fields-terminated-by 指定保存到HDFS上的每一行使用什么分隔符来分隔MySQL数据行的列

--m1 表示MapperTask的个数为1

--target-dir 表示导入到HDFS中的目录

5.2 导入过程

5.3 查看HDFS中的导入状态

[hadoop@hadoop bin]$ hdfs dfs -cat /user/hadoop/person/part-m-00000
tom:34:SE
jack:28:Teacher
mary:23:Student
Cloe:33:Analystics

6. HDFS数据导出到MySQL中

6.1 首先在MySQL中创建表person2

mysql> create table person2(name varchar(40), age int, job varchar(40));

6.2 执行sqoop导出操作

./sqoop export --connect jdbc:mysql://192.168.26.135:3306/sqoop --username root --table person2 --export-dir '/user/hadoop/person/part-m-00000' --fields-terminated-by ':' -m1

6.3 执行过程

6.4 执行结果

错误处理

java.net.ConnectException: Connection refused
        at java.net.PlainSocketImpl.socketConnect(Native Method)
        at java.net.PlainSocketImpl.doConnect(PlainSocketImpl.java:351)
        at java.net.PlainSocketImpl.connectToAddress(PlainSocketImpl.java:213)
        at java.net.PlainSocketImpl.connect(PlainSocketImpl.java:200)
        at java.net.SocksSocketImpl.connect(SocksSocketImpl.java:366)
        at java.net.Socket.connect(Socket.java:529)
        at java.net.Socket.connect(Socket.java:478)
        at java.net.Socket.<init>(Socket.java:375)
        at java.net.Socket.<init>(Socket.java:218)
        at com.mysql.jdbc.StandardSocketFactory.connect(StandardSocketFactory.java:173)
        at com.mysql.jdbc.MysqlIO.<init>(MysqlIO.java:267)
        at com.mysql.jdbc.Connection.createNewIO(Connection.java:2739)
        at com.mysql.jdbc.Connection.<init>(Connection.java:1553)
        at com.mysql.jdbc.NonRegisteringDriver.connect(NonRegisteringDriver.java:266)
        at java.sql.DriverManager.getConnection(DriverManager.java:582)
        at java.sql.DriverManager.getConnection(DriverManager.java:185)
        at org.apache.sqoop.mapreduce.db.DBConfiguration.getConnection(DBConfiguration.java:278)
        at org.apache.sqoop.mapreduce.db.DBInputFormat.getConnection(DBInputFormat.java:187)
        at org.apache.sqoop.mapreduce.db.DBInputFormat.setConf(DBInputFormat.java:162)
        at org.apache.hadoop.util.ReflectionUtils.setConf(ReflectionUtils.java:62)
        at org.apache.hadoop.util.ReflectionUtils.newInstance(ReflectionUtils.java:117)
        at org.apache.hadoop.mapred.MapTask.runNewMapper(MapTask.java:723)
        at org.apache.hadoop.mapred.MapTask.run(MapTask.java:370)
        at org.apache.hadoop.mapred.Child$4.run(Child.java:255)
        at java.security.AccessController.doPrivileged(Native Method)
        at javax.security.auth.Subject.doAs(Subject.java:396)
        at org.apache.hadoop.security.UserGroupInformation.doAs(UserGroupInformation.java:1121)
        at org.apache.hadoop.mapred.Child.main(Child.java:249)

这个错误是指定sqoop import时报的错，解决办法是把mysql的jdbc连接串，把localhost改为实际的IP或者域名

查看图片附件

分享到：

【Storm一】Storm概念入门 | 【Hive一】Hive入门

2014-12-25 01:24
浏览 5171
评论(0)
分类:开源软件
查看更多

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

Hadoop2.5.2+Sqoop-1.4.6: 总之，Hadoop2.5.2+Sqoop-1.4.6的组合提供了一种有效的方法，将结构化数据从传统数据库迁移到Hadoop的分布式存储中，以便于进行大数据分析。整个过程涉及到多个步骤，包括环境配置、组件安装、文件修改和数据导入，...

22-安装部署Sqoop1: Sqoop 是一个用于在 Apache Hadoop 和关系数据库之间进行数据导入导出的工具。它提供了命令行接口，方便用户将结构化的数据从 RDBMS（关系数据库管理系统）批量加载到 Hadoop 分布式文件系统（HDFS）中，或者从 HDFS...

计算机二级公共基础知识模拟试题及答案详解.pdf: 计算机二级公共基础知识模拟试题及答案详解.pdf

电子工程领域的语音发射机电路设计与实现: 内容概要：本文档详细介绍了语音发射机的设计与实现，涵盖了从硬件电路到具体元件的选择和连接方式。文档提供了详细的电路图，包括电源管理、信号处理、音频输入输出接口以及射频模块等关键部分。此外，还展示了各个引脚的功能定义及其与其他组件的连接关系，确保了系统的稳定性和高效性能。通过这份文档，读者可以全面了解语音发射机的工作原理和技术细节。适合人群：对电子工程感兴趣的初学者、从事嵌入式系统开发的技术人员以及需要深入了解语音发射机制的专业人士。使用场景及目标：适用于希望构建自己的语音发射设备的研究人员或爱好者，帮助他们掌握相关技术和实际操作技能。同时，也为教学机构提供了一个很好的案例研究材料。其他说明：文档不仅限于理论讲解，还包括具体的实施步骤，使读者能够动手实践并验证所学知识。

易语言注册机源码详解：单线程架构下的接码、滑块验证与IP代理实现: 内容概要：本文详细介绍了用易语言编写的单线程全功能注册机源码，涵盖了接码平台对接、滑块验证处理、IP代理管理以及料子导入等多个核心功能。文章首先展示了主框架的初始化配置和事件驱动逻辑，随后深入探讨了接码平台（如打码兔）的API调用及其返回数据的处理方法。对于滑块验证部分，作者分享了如何利用易语言的绘图功能模拟真实用户的操作轨迹，并提高了验证通过率。IP代理模块则实现了智能切换策略，确保代理的有效性和稳定性。此外，料子导入功能支持多种格式的数据解析和去重校验，防止脏数据污染。最后，文章提到了状态机设计用于控制注册流程的状态持久化。适合人群：有一定编程基础，尤其是熟悉易语言的开发者和技术爱好者。使用场景及目标：适用于希望深入了解易语言注册机开发的技术细节，掌握接码、滑块验证、IP代理等关键技术的应用场景。目标是帮助读者理解并优化现有注册机的功能，提高其稳定性和效率。其他说明：文中提到的部分技术和实现方式可能存在一定的风险，请谨慎使用。同时，建议读者在合法合规的前提下进行相关开发和测试。

计算机绘图实用教程第三章.pdf: 计算机绘图实用教程第三章.pdf

计算机辅助设计—AutoCAD 2018中文版基础教程各章CAD图纸及相关说明汇总.pdf: 计算机辅助设计—AutoCAD 2018中文版基础教程各章CAD图纸及相关说明汇总.pdf

计算机类电子书集合PDF: C++相关书籍，计算机相关书籍，linux相关及http等计算机学习、面试书籍。

计算机二级mysql数据库程序设计练习题(一).pdf: 计算机二级mysql数据库程序设计练习题(一).pdf

计算机发展史.pdf: 计算机发展史.pdf

计算机二级课件.pdf: 计算机二级课件.pdf

计算机概论第三讲：计算机组成.pdf: 计算机概论第三讲：计算机组成.pdf

端侧算力网络白皮书：6G时代终端算力资源高效利用与应用场景解析: 内容概要：本文档由中国移动通信集团终端有限公司、北京邮电大学、中国信息通信研究院和中国通信学会共同发布，旨在探讨端侧算力网络（TCAN）的概念、架构、关键技术及其应用场景。文中详细分析了终端的发展现状、基本特征和发展趋势，阐述了端侧算力网络的定义、体系架构、功能架构及其主要特征。端侧算力网络通过整合海量泛在异构终端的算力资源，实现分布式多级端侧算力资源的高效利用，提升网络整体资源利用率和服务质量。关键技术涵盖层次化端算力感知图模型、资源虚拟化、数据压缩、多粒度多层次算力调度、现场级AI推理和算力定价机制。此外，还探讨了端侧算力网络在智能家居、智能医疗、车联网、智慧教育和智慧农业等领域的潜在应用场景。适合人群：从事通信网络、物联网、边缘计算等领域研究和开发的专业人士，以及对6G网络和端侧算力网络感兴趣的学者和从业者。使用场景及目标：适用于希望深入了解端侧算力网络技术原理、架构设计和应用场景的读者。目标是帮助读者掌握端侧算力网络的核心技术，理解其在不同行业的应用潜力，推动端侧算力网络技术的商业化和产业化。其他说明：本文档不仅提供了端侧算力网络的技术细节，还对其隐私与安全进行了深入探讨

学习java的心得体会.docx: 学习java的心得体会.docx

计算机二级考试(南开100题齐全).pdf: 计算机二级考试(南开100题齐全).pdf

计算机二级C语言考试通关宝典：全面解析核心知识点与解题技巧: 内容概要：本文详细介绍了计算机二级C语言考试的内容和备考方法。首先概述了计算机二级考试的意义及其在计算机技能认证中的重要性，重点讲解了C语言的基础语法，包括程序结构、数据类型、运算符和表达式等。接着深入探讨了进阶知识，如函数、数组、指针、结构体和共用体的应用。最后分享了针对选择题、填空题和编程题的具体解题技巧，强调了复习方法和实战演练的重要性。适合人群：准备参加计算机二级C语言考试的学生和技术爱好者。使用场景及目标：①帮助考生系统地掌握C语言的核心知识点；②提供有效的解题策略，提高应试能力；③指导考生制定合理的复习计划，增强实战经验。其他说明：本文不仅涵盖了理论知识，还提供了大量实例代码和详细的解释，有助于读者更好地理解和应用所学内容。此外，文中提到的解题技巧和复习建议对实际编程也有很大帮助。

论文格式及要求.doc: 论文格式及要求.doc

三菱FX3U与台达变频器RS485通信程序设置及应用实例: 内容概要：本文详细介绍了如何使用三菱FX3U PLC及其485BD通信板与四台台达VFD-M系列变频器进行通信的设置与应用。主要内容涵盖硬件连接注意事项、通信参数配置、RS指令的应用、CRC校验算法的实现以及频率给定和状态读取的具体方法。文中提供了多个实用的编程示例，展示了如何通过梯形图和结构化文本编写通信程序，并讨论了常见的调试技巧和优化建议。此外，还提到了系统的扩展性和稳定性措施，如增加温度传感器通信功能和应对电磁干扰的方法。适合人群：从事工业自动化领域的工程师和技术人员，尤其是那些熟悉三菱PLC和台达变频器的使用者。使用场景及目标：适用于需要实现多台变频器联动控制的工业应用场景，旨在提高生产效率和系统可靠性。通过学习本文，读者可以掌握如何构建稳定的RS485通信网络，确保变频器之间的高效协同工作。其他说明：本文不仅提供了详细的理论指导，还包括了许多来自实际项目的经验教训，帮助读者避免常见错误并提升编程技能。

计算机服务规范.pdf: 计算机服务规范.pdf

Discuz-X3.2-TC-UTF8.zip: Discuz_X3.2_TC_UTF8.zip LNMP搭建安装包

最近访客 更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论