用sqoop将hive里面的数据导出到mysql里去,一种情况是mapreduce 程序卡住,INFO mapreduce.Job: map 100% reduce 0%
另一种情况是:报这个错误:java.sql.SQLException: Incorrect string value: '\xF0\x9F\x90\xBB' for column
经检查发现,hive的数据里面有图片类型的数据,我也是醉了,折腾了一天,主要原因是MySQL里UTF8编码最多只能支持3个字节,而Emoji表情字符使用的UTF8编码,很多都是4个字节,有些甚至是6个字节。
解决的方案有两种:
一.使用utf8mb4的mysql编码来容纳这些字符。
二.过滤掉这些特殊的表情字符。
我选用的是方案一
参考资料
1.https://github.com/ZhangRuige/easyDataInsightV1.0/wiki/map-reduce%E6%89%A7%E8%A1%8Csqoop%E6%93%8D%E4%BD%9C%E6%97%B6%E8%B6%85%E6%97%B6%E7%9A%84%E9%97%AE%E9%A2%98
2.http://www.cnblogs.com/lowwen/p/5645242.html
3.http://stackoverflow.com/questions/23670754/exception-java-sql-sqlexception-incorrect-string-value-xf0-x9f-x92-xbc-for
相关推荐
at org.apache.sqoop.mapreduce.JobBase.createJob(JobBase.java:378) at org.apache.sqoop.mapreduce.ImportJobBase.runImport(ImportJobBase.java:256) at org.apache.sqoop.manager.SqlManager.importQuery...
Sqoop 的核心概念是将数据从一个数据源(如 MySQL)传输到另一个数据源(如 Hive),或者从 Hive 导出数据到 MySQL 等关系数据库管理系统。Sqoop 使用 JDBC 连接器来连接不同类型的数据库,实现数据的传输和映射。 ...
### Sqoop导入Oracle数据到Hive的详细步骤与解析 #### 一、概述 在大数据处理领域中,经常需要将关系型数据库中的数据导入到Hadoop的HDFS中,以便进一步进行数据分析或处理。其中,Sqoop作为一种强大的工具,能够...
在IT行业中,我们经常涉及到各种库和框架的集成与使用,这次我们关注的是"Atlas2.3.0"依赖的组件:"org.restlet/sqoop-1.4.6.2.3.99.0-195"。这个依赖包含了三个关键的JAR文件:`sqoop-1.4.6.2.3.99.0-195.jar`,`...
在本主题中,我们将深入探讨 Sqoop 的导入功能,特别是如何将数据从 MySQL 和 Sybase 数据库导入到 HDFS,并进一步加载到 Hive 表中。 ### 一、Sqoop 导入介绍 1. **语法结构**: Sqoop 导入数据的基本语法如下:...
Sqoop 是一个专门用于将 Hadoop 和关系型数据库中的数据相互转移的工具,可以将一个关系型数据库(例如:MySQL、Oracle、Postgres 等)中的数据导进到 Hadoop 的 HDFS 中,也可以将 HDFS 的数据导进到关系型数据库...
编译Atlas用 sqoop-1.4.6.2.3.99.0-195.jar 内含安装jar包以及maven手动安装命令 详情可参考我的博客: https://blog.csdn.net/qq_26502245/article/details/108008070
在大数据处理领域,Sqoop和Hive是两个重要的工具,分别用于数据迁移和数据仓库管理。当使用Sqoop将数据导入Hive时,有时可能会遇到数据不一致的问题,这可能是由于多种原因引起的。本文将深入探讨这个问题,并提供...
sqoop导入数据到hive
Sqoop是Apache Hadoop生态中的一个工具,用于在关系型数据库和Hadoop之间高效地导入导出数据。在这个场景中,我们遇到了一个关于Sqoop运行时的问题,即"找不到或无法加载主类 org.apache.sqoop.sqoop"。这个问题通常...
总结来说,"hive2.1.1_mysql_sqoop.zip"压缩包为数据仓库搭建提供了一整套解决方案,包括Hive 2.1.1用于数据处理和分析,Sqoop 1.4.7用于数据在MySQL和Hadoop之间的传输,以及MySQL 5.1.47的Java连接器确保两者之间...
Sqoop 是一个用于在 Hadoop 和关系型数据库之间进行数据导入导出的工具,它使得在大数据处理场景下,能够方便地将结构化的数据从 MySQL 这样的 RDBMS(关系型数据库管理系统)转移到 Hadoop 的 HDFS(Hadoop 分布式...
sqoop.Sqoop: Got exception running Sqoop: java.lang.NullPointerException,没遇到可以跳过 19/09/20 09:57:47 ERROR sqoop.Sqoop: Got exception running Sqoop: java.lang.NullPointerException at org.json...
Map阶段处理HBase中的数据,Reduce阶段将处理后的数据写入Hive。这种方式灵活性高,但开发成本相对较高。 2. **HBase Coprocessor**: HBase支持coprocessor机制,可以在RegionServer上执行用户定义的逻辑,实现数据...
大数据集群 Hadoop HBase Hive Sqoop 集群环境安装配置及使用文档 在本文档中,我们将详细介绍如何搭建一个大数据集群环境,包括 Hadoop、HBase、Hive 和 Sqoop 的安装配置及使用。该文档将分为四部分:Hadoop 集群...
在大数据处理领域,构建一个基于Sqoop、Hive、Spark、MySQL、AirFlow和Grafana的工业大数据离线数仓项目是一项复杂而关键的任务。这个项目旨在整合来自不同源头的数据,进行清洗、转化和分析,以支持制造行业的决策...
在将 mysql 数据库中的表导入到 HDFS 中时,需要启动 hadoop,登录 mysql 数据库,查看 hive 数据库中有哪些表,然后使用 sqoop 命令将 hive 数据库中的表导入到 HDFS 中。最后,查看是否导入 HDFS 中。 Sqoop ...
1. **元数据存储**:Hive 使用 MySQL 或 PostgreSQL 存储元数据,如表名、列名、分区信息等。这些元数据帮助 Hive 理解 HDFS 上的数据结构。 2. **HiveServer**:接收并处理来自客户端的查询请求,是与 Hive 交互的...
最初的设计方案是通过 Sqoop 将数据从 PostgreSQL 导入到 Kafka,再通过存储程序将 Kafka 的数据保存至 Hive 或 HBase 中。然而,在实施过程中遇到了 Sqoop 版本兼容性问题: - **Sqoop1**:适用于命令行模式执行。...
4. **数据分析**:在Hadoop集群上,Hive可以读取由Sqoop导入的MySQL数据进行大规模的分析工作,利用Hadoop的分布式计算能力处理大量数据,然后将结果通过Sqoop返回到MySQL,或者直接在MySQL中进行进一步的处理和展示...