【Sqoop一】Sqoop1.4.5和Hadoop2.5.2数据集成入门

bit1129

浏览: 1076925 次
性别:
来自: 北京

最近访客更多访客>>

xiaoyaohen24

yuxin8000

abc951654

zhongqi2513

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

博客分类：

Sqoop

Sqoop安装与配置

Sqoop的运行需要依赖于Hadoop，因此需要首先安装Hadoop2.5.2，并且Sqoop的启动前需要首先安装Hadoop。

本文使用如下版本

sqoop-1.4.5.bin_hadoop-2.0.4-alpha版本，
Hadoop使用2.5.2版本

Sqoop安装和配置的步骤

1. 从如下地址下载Sqoop

http://mirror.bit.edu.cn/apache/sqoop/1.4.5/sqoop-1.4.5.bin__hadoop-2.0.4-alpha.tar.gz

注意安装包中hadoop前面是__(两个下划线) ，把其中的一个_去掉

2.解压sqoop，在系统变量里配置如下变量SQOOP_HOME和PATH

sudo  vim /etc/profile

export SQOOP_HOME=/home/hadoop/software/sqoop-1.4.5.bin_hadoop-2.0.4-alpha
export PATH=$SQOOP_HOME/bin:$PATH

###如下两行在sqoop-env.sh配置，在此处将其注释掉
#export HADOOP_COMMON_HOME=/home/hadoop/software/hadoop-2.5.2
#export HADOOP_MAPRED_HOME=/home/hadoop/software/hadoop-2.5.2

3. 修改配置文件

cp sqoop-env-template.sh sqoop-env.sh
cp sqoop-site-template.xml sqoop-site.xml

4. 修改sqoop-env.sh文件

export HADOOP_COMMON_HOME=/home/hadoop/software/hadoop-2.5.2

export HADOOP_MAPRED_HOME=/home/hadoop/software/hadoop-2.5.2

export HIVE_HOME=/home/hadoop/software/apache-hive-0.14.0-bin

注意HADOOP_MAPRED_HOME需要配置成home/hadoop/software/hadoop-2.5.2，而不是/home/hadoop/software/hadoop-2.5.2/share/hadoop/mapreduce，配置成后者在执行sqoop import的时候报Hadoop的类找不到

配置Sqoop的jar

1. 检查$SQOOP_HOME/lib下是否有sqoop-1.4.5.jar

2. 如果没有则下载到此目录

配置MySQL JDBC Driver

1. 检查检查$SQOOP_HOME/lib下是否有MySQL的JDBC驱动有mysql-connector-java-5.1.34.jar

2. 如果没有则下载到此目录、

启动Hadoop和MySQL

1. 首先运行Hadoop

2. 再次运行MySQL

使用Sqoop对HDFS的和MySQL双向导入导出

1. 查看Sqoop可用的命令参数

sqoop help

结果：

Available commands:
  codegen            Generate code to interact with database records
  create-hive-table  Import a table definition into Hive
  eval               Evaluate a SQL statement and display the results
  export             Export an HDFS directory to a database table
  help               List available commands
  import             Import a table from a database to HDFS
  import-all-tables  Import tables from a database to HDFS
  job                Work with saved jobs
  list-databases     List available databases on a server
  list-tables        List available tables in a database
  merge              Merge results of incremental imports
  metastore          Run a standalone Sqoop metastore
  version            Display version information

2. 获取所有的数据库(密码为空)

./sqoop list-databases --connect jdbc:mysql://192.168.26.135:3306 --username root

结果

information_schema
metadata_store
mysql
performance_schema
sqoop

3. 列出指定数据所有的表

./sqoop list-tables --connect jdbc:mysql://192.168.26.135:3306/metadata_store --username root

结果：

BUCKETING_COLS
CDS
COLUMNS_V2
DATABASE_PARAMS
DBS
FUNCS
FUNC_RU
GLOBAL_PRIVS
PARTITIONS
PARTITION_KEYS
PARTITION_KEY_VALS
PARTITION_PARAMS
PART_COL_STATS
ROLES
SDS
SD_PARAMS
SEQUENCE_TABLE
SERDES
SERDE_PARAMS
SKEWED_COL_NAMES
SKEWED_COL_VALUE_LOC_MAP
SKEWED_STRING_LIST
SKEWED_STRING_LIST_VALUES
SKEWED_VALUES
SORT_COLS
TABLE_PARAMS
TAB_COL_STATS
TBLS
VERSION

4. 在MySQL中创建测试数据库和表

4.1 创建表

mysql> create table person(name varchar(40), age int, job varchar(40));

4.2 插入数据

mysql> insert into person(name, age, job) values("jack",28,"Teacher");
Query OK, 1 row affected (0.00 sec)

mysql> insert into person(name, age, job) values("mary",23,"Student");
Query OK, 1 row affected (0.00 sec)

mysql> insert into person(name, age, job) values("Cloe",33,"Analystics");
Query OK, 1 row affected (0.00 sec)

4.3 查询插入结果：

5. MySQL的数据导入到HDFS中

5.1 执行导入命令

./sqoop import --connect jdbc:mysql://192.168.26.135:3306/sqoop --username root --direct --table person --fields-terminated-by ':' --target-dir /user/hadoop/person -m1

参数说明：

--table 指定要导入到HDFS中的表名

--fields-terminated-by 指定保存到HDFS上的每一行使用什么分隔符来分隔MySQL数据行的列

--m1 表示MapperTask的个数为1

--target-dir 表示导入到HDFS中的目录

5.2 导入过程

5.3 查看HDFS中的导入状态

[hadoop@hadoop bin]$ hdfs dfs -cat /user/hadoop/person/part-m-00000
tom:34:SE
jack:28:Teacher
mary:23:Student
Cloe:33:Analystics

6. HDFS数据导出到MySQL中

6.1 首先在MySQL中创建表person2

mysql> create table person2(name varchar(40), age int, job varchar(40));

6.2 执行sqoop导出操作

./sqoop export --connect jdbc:mysql://192.168.26.135:3306/sqoop --username root --table person2 --export-dir '/user/hadoop/person/part-m-00000' --fields-terminated-by ':' -m1

6.3 执行过程

6.4 执行结果

错误处理

java.net.ConnectException: Connection refused
        at java.net.PlainSocketImpl.socketConnect(Native Method)
        at java.net.PlainSocketImpl.doConnect(PlainSocketImpl.java:351)
        at java.net.PlainSocketImpl.connectToAddress(PlainSocketImpl.java:213)
        at java.net.PlainSocketImpl.connect(PlainSocketImpl.java:200)
        at java.net.SocksSocketImpl.connect(SocksSocketImpl.java:366)
        at java.net.Socket.connect(Socket.java:529)
        at java.net.Socket.connect(Socket.java:478)
        at java.net.Socket.<init>(Socket.java:375)
        at java.net.Socket.<init>(Socket.java:218)
        at com.mysql.jdbc.StandardSocketFactory.connect(StandardSocketFactory.java:173)
        at com.mysql.jdbc.MysqlIO.<init>(MysqlIO.java:267)
        at com.mysql.jdbc.Connection.createNewIO(Connection.java:2739)
        at com.mysql.jdbc.Connection.<init>(Connection.java:1553)
        at com.mysql.jdbc.NonRegisteringDriver.connect(NonRegisteringDriver.java:266)
        at java.sql.DriverManager.getConnection(DriverManager.java:582)
        at java.sql.DriverManager.getConnection(DriverManager.java:185)
        at org.apache.sqoop.mapreduce.db.DBConfiguration.getConnection(DBConfiguration.java:278)
        at org.apache.sqoop.mapreduce.db.DBInputFormat.getConnection(DBInputFormat.java:187)
        at org.apache.sqoop.mapreduce.db.DBInputFormat.setConf(DBInputFormat.java:162)
        at org.apache.hadoop.util.ReflectionUtils.setConf(ReflectionUtils.java:62)
        at org.apache.hadoop.util.ReflectionUtils.newInstance(ReflectionUtils.java:117)
        at org.apache.hadoop.mapred.MapTask.runNewMapper(MapTask.java:723)
        at org.apache.hadoop.mapred.MapTask.run(MapTask.java:370)
        at org.apache.hadoop.mapred.Child$4.run(Child.java:255)
        at java.security.AccessController.doPrivileged(Native Method)
        at javax.security.auth.Subject.doAs(Subject.java:396)
        at org.apache.hadoop.security.UserGroupInformation.doAs(UserGroupInformation.java:1121)
        at org.apache.hadoop.mapred.Child.main(Child.java:249)

这个错误是指定sqoop import时报的错，解决办法是把mysql的jdbc连接串，把localhost改为实际的IP或者域名

查看图片附件

分享到：

【Storm一】Storm概念入门 | 【Hive一】Hive入门

2014-12-25 01:24
浏览 5176
评论(0)
分类:开源软件
查看更多

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

Hadoop2.5.2+Sqoop-1.4.6: 总之，Hadoop2.5.2+Sqoop-1.4.6的组合提供了一种有效的方法，将结构化数据从传统数据库迁移到Hadoop的分布式存储中，以便于进行大数据分析。整个过程涉及到多个步骤，包括环境配置、组件安装、文件修改和数据导入，...

22-安装部署Sqoop1: Sqoop 是一个用于在 Apache Hadoop 和关系数据库之间进行数据导入导出的工具。它提供了命令行接口，方便用户将结构化的数据从 RDBMS（关系数据库管理系统）批量加载到 Hadoop 分布式文件系统（HDFS）中，或者从 HDFS...

全球变风量（VAV）系统市场研究：年复合增长率（CAGR）为 5.8%: 在全球建筑行业不断追求节能与智能化发展的浪潮中，变风量（VAV）系统市场正展现出蓬勃的发展潜力。根据 QYResearch 报告出版商的深入调研统计，预计到 2031 年，全球变风量（VAV）系统市场销售额将飙升至 1241.3 亿元，在 2025 年至 2031 年期间，年复合增长率（CAGR）为 5.8%。这一令人瞩目的数据，不仅彰显了 VAV 系统在当今建筑领域的重要地位，更预示着其未来广阔的市场前景。变风量系统的起源可追溯到 20 世纪 60 年代的美国。它犹如建筑空调系统中的 “智能管家”，能够敏锐地感知室内负荷或室内所需参数的变化，通过维持恒定的送风温度，自动、精准地调节空调系统的送风量，从而确保室内各项参数始终满足空调系统的严格要求。从系统构成来看，变风量系统主要由四个基本部分协同运作。变风量末端设备，包括 VAV 箱和室温控制器，如同系统的 “神经末梢”，负责接收室内环境变化的信号并做出初步响应；空气处理及输送设备则承担着对空气进行净化、加热、冷却等处理以及高效输送的重任；风管系统，涵盖新风、排风、送风、回风等管道，构建起了空气流通的 “高速公路”；而自动控制系统宛

《基于YOLOv8的跆拳道训练系统》（包含源码、完整数据集、可视化界面、部署教程）简单部署即可运行。功能完善、操作简单，适合毕设或课程设计.zip: 资源内项目源码是来自个人的毕业设计，代码都测试ok，包含源码、数据集、可视化页面和部署说明，可产生核心指标曲线图、混淆矩阵、F1分数曲线、精确率-召回率曲线、验证集预测结果、标签分布图。都是运行成功后才上传资源，毕设答辩评审绝对信服的保底85分以上，放心下载使用，拿来就能用。包含源码、数据集、可视化页面和部署说明一站式服务，拿来就能用的绝对好资源！！！项目备注 1、该资源内项目代码都经过测试运行成功，功能ok的情况下才上传的，请放心下载使用！ 2、本项目适合计算机相关专业(如计科、人工智能、通信工程、自动化、电子信息等)的在校学生、老师或者企业员工下载学习，也适合小白学习进阶，当然也可作为毕设项目、课程设计、大作业、项目初期立项演示等。 3、如果基础还行，也可在此代码基础上进行修改，以实现其他功能，也可用于毕设、课设、作业等。下载后请首先打开README.txt文件，仅供学习参考, 切勿用于商业用途。

探究ChatGPT情感化交互对其用户情绪健康的多方法研究: 内容概要：本文探讨了ChatGPT这种高级语音模式的人工智能聊天机器人与用户的互动对其情绪健康的影响。研究采用了两种互补的方法：大规模平台数据分析和随机对照试验（RCT）。平台数据部分通过对超过400万次对话进行隐私保护的大规模自动化分析以及对4000多名用户的调查，揭示了高频率使用者表现出更多的情感依赖和较低的社会交往意愿。RCT部分则通过近1000名参与者为期28天的研究，发现语音模型相较于文本模型能带来更好的情绪健康效果，但长时间使用可能导致负面后果。此外，初始情绪状态较差的用户在使用更具吸引力的语音模型时，情绪有所改善。适合人群：对人机交互、情感计算和社会心理学感兴趣的科研人员和技术开发者。使用场景及目标：本研究旨在为AI聊天机器人的设计提供指导，确保它们不仅能满足任务需求，还能促进用户的心理健康。同时，也为政策制定者提供了关于AI伦理使用的思考。其他说明：研究强调了长期使用AI聊天机器人可能带来的复杂心理效应，特别是对于那些已经感到孤独或社交孤立的人来说，过度依赖可能会加剧这些问题。未来的研究应该更加关注这些极端情况下的用户体验。

Java反射性能优化：深入探讨setAccessible与MethodHandle的技术差异及应用场景: Java 反射（Reflection）是一种强大的机制，允许程序在运行时检查和操作类的成员变量和方法。然而，传统的 `setAccessible(true)` 方式虽然便捷，但存在安全性问题，并且性能相对较低。在 Java 7 引入 `MethodHandle` 后，我们可以通过 `MethodHandles.Lookup.findVirtual()` 提供更优雅、高效的方式来访问对象属性。本文将对比这两种反射方式，并分析它们的优缺点。

loongdomShop.tar.gz: loongdomShop.tar.gz

人工智能与人类行为对聊天机器人社会心理效应的纵向随机对照研究: 内容概要：本文探讨了不同交互模式（文本、中性语音、吸引人语音）和对话类型（开放式、非个人化、个人化）对聊天机器人使用者的心理社会效果（如孤独感、社交互动、情感依赖、不当使用）的影响。研究表明，在初期阶段，语音型聊天机器人比文本型更能缓解孤独感并减少情感依赖，但随着每日使用时间增加，这种优势逐渐消失，尤其是对于中性语音聊天机器人。此外，个人话题对话略微增加了孤独感，而非个人话题则导致更高的情感依赖。总体而言，高频率使用聊天机器人的用户表现出更多的孤独感、情感依赖和不当使用，同时减少了真实人际交往。研究还发现，某些个体特征（如依恋倾向、情绪回避）使用户更容易受到负面影响。适合人群：心理学家、社会学家、人工智能研究人员以及关注心理健康和人机交互的专业人士。使用场景及目标：①帮助理解不同类型聊天机器人对用户心理健康的潜在影响；②为设计更健康的人工智能系统提供指导；③制定政策和规范，确保聊天机器人的安全和有效使用。其他说明：研究强调了进一步探索聊天机器人管理情感内容而不引发依赖或替代人际关系的重要性，呼吁更多跨学科的研究来评估长期影响。

MP4575GF-Z 产品规格书: MP4575GF-Z MP4575 TSSOP-20 降压型可调DC-DC电源芯片

界面设计_SwiftUI_习惯养成_项目管理_1742850611.zip: 界面设计_SwiftUI_习惯养成_项目管理_1742850611.zip

免安装版的logic软件包支持波形实时查看内含驱动文件: 免安装版的logic软件包。支持波形实时查看。内含驱动文件。

基于Springboot+Mysql的学生毕业离校系统(含LW+PPT+源码+系统演示视频+安装说明).zip: 1. **系统名称**：学生毕业离校系统 2. **技术栈**：Java技术、MySQL数据库、Spring Boot框架、B/S架构、Tomcat服务器、Eclipse开发环境 3. **系统功能**： - **管理员功能**：首页、个人中心、学生管理、教师管理、离校信息管理、费用结算管理、论文审核管理、管理员管理、留言板管理、系统管理。 - **学生功能**：首页、个人中心、费用结算管理、论文审核管理、我的收藏管理。 - **教师功能**：首页、个人中心、学生管理、离校信息管理、费用结算管理、论文审核管理。

WebSocket测试Demo程序: 配套文章:https://blog.csdn.net/gust2013/article/details/139608432

蓝凌OA系统V15.0管理员手册: 蓝凌OA系统V15.0管理员手册

《基于YOLOv8的生物样本识别系统》（包含源码、完整数据集、可视化界面、部署教程）简单部署即可运行。功能完善、操作简单，适合毕设或课程设计.zip: 资源内项目源码是来自个人的毕业设计，代码都测试ok，包含源码、数据集、可视化页面和部署说明，可产生核心指标曲线图、混淆矩阵、F1分数曲线、精确率-召回率曲线、验证集预测结果、标签分布图。都是运行成功后才上传资源，毕设答辩评审绝对信服的保底85分以上，放心下载使用，拿来就能用。包含源码、数据集、可视化页面和部署说明一站式服务，拿来就能用的绝对好资源！！！项目备注 1、该资源内项目代码都经过测试运行成功，功能ok的情况下才上传的，请放心下载使用！ 2、本项目适合计算机相关专业(如计科、人工智能、通信工程、自动化、电子信息等)的在校学生、老师或者企业员工下载学习，也适合小白学习进阶，当然也可作为毕设项目、课程设计、大作业、项目初期立项演示等。 3、如果基础还行，也可在此代码基础上进行修改，以实现其他功能，也可用于毕设、课设、作业等。下载后请首先打开README.txt文件，仅供学习参考, 切勿用于商业用途。

mips-gcc520-glibc222编译工具链.zip: mips-gcc520-glibc222编译工具链.zip

社交网络_React_Native_开发教程_学习资源_1742847416.zip: app开发

Swift编程语言的基础特性与应用开发入门教程: 内容概要：本文档详细介绍了Swift编程语言的基础知识，涵盖语言特点、基础语法、集合类型、控制流、函数定义、面向对象编程、可选类型、错误处理、协议与扩展以及内存管理等方面的内容。此外还简要提及了Swift与UIKit/SwiftUI的关系，并提供了进一步学习的资源推荐。通过这份文档，读者可以全面了解Swift的基本概念及其在iOS/macOS/watchOS/tvOS平台的应用开发中的使用方法。适合人群：初学者或者希望从其他编程语言转向Swift的开发者。使用场景及目标：帮助读者快速上手Swift编程，掌握其基本语法和特性，能够独立完成简单的程序编写任务，为进一步学习高级主题如并发编程、图形界面设计打下坚实的基础。阅读建议：由于Swift是一门现代化的语言，拥有许多独特的特性和最佳实践方式，在学习过程中应当多加练习并尝试理解背后的原理。同时利用提供的官方文档和其他辅助材料加深印象。

《基于YOLOv8的泰拳训练辅助系统》（包含源码、完整数据集、可视化界面、部署教程）简单部署即可运行。功能完善、操作简单，适合毕设或课程设计.zip: 资源内项目源码是来自个人的毕业设计，代码都测试ok，包含源码、数据集、可视化页面和部署说明，可产生核心指标曲线图、混淆矩阵、F1分数曲线、精确率-召回率曲线、验证集预测结果、标签分布图。都是运行成功后才上传资源，毕设答辩评审绝对信服的保底85分以上，放心下载使用，拿来就能用。包含源码、数据集、可视化页面和部署说明一站式服务，拿来就能用的绝对好资源！！！项目备注 1、该资源内项目代码都经过测试运行成功，功能ok的情况下才上传的，请放心下载使用！ 2、本项目适合计算机相关专业(如计科、人工智能、通信工程、自动化、电子信息等)的在校学生、老师或者企业员工下载学习，也适合小白学习进阶，当然也可作为毕设项目、课程设计、大作业、项目初期立项演示等。 3、如果基础还行，也可在此代码基础上进行修改，以实现其他功能，也可用于毕设、课设、作业等。下载后请首先打开README.txt文件，仅供学习参考, 切勿用于商业用途。

《基于YOLOv8的室内装修质量检测系统》（包含源码、完整数据集、可视化界面、部署教程）简单部署即可运行。功能完善、操作简单，适合毕设或课程设计.zip: 资源内项目源码是来自个人的毕业设计，代码都测试ok，包含源码、数据集、可视化页面和部署说明，可产生核心指标曲线图、混淆矩阵、F1分数曲线、精确率-召回率曲线、验证集预测结果、标签分布图。都是运行成功后才上传资源，毕设答辩评审绝对信服的保底85分以上，放心下载使用，拿来就能用。包含源码、数据集、可视化页面和部署说明一站式服务，拿来就能用的绝对好资源！！！项目备注 1、该资源内项目代码都经过测试运行成功，功能ok的情况下才上传的，请放心下载使用！ 2、本项目适合计算机相关专业(如计科、人工智能、通信工程、自动化、电子信息等)的在校学生、老师或者企业员工下载学习，也适合小白学习进阶，当然也可作为毕设项目、课程设计、大作业、项目初期立项演示等。 3、如果基础还行，也可在此代码基础上进行修改，以实现其他功能，也可用于毕设、课设、作业等。下载后请首先打开README.txt文件，仅供学习参考, 切勿用于商业用途。

最近访客 更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论