Hive导出到Mysql中中文乱码的问题 -

月光杯

浏览: 389958 次
性别:
来自: 上海

最近访客更多访客>>

regicide

jybzjf

tangang

libo_591

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

Hive导出到Mysql中中文乱码的问题

在上一篇文章《从hive将数据导出到mysql》中，虽然通过hive中转，将hbase的数据成功导出到了mysql中，但是我们遇到了中文乱码问题。

一、mysql中的编码

mysql> show variables like 'collation_%';
+----------------------+-------------------+
| Variable_name | Value |
+----------------------+-------------------+
| collation_connection | latin1_swedish_ci |
| collation_database | latin1_swedish_ci |
| collation_server | latin1_swedish_ci |
+----------------------+-------------------+
3 rows in set (0.00 sec)
mysql> show variables like 'character_set_%';
+--------------------------+----------------------------+

| Variable_name | Value |
+--------------------------+----------------------------+
| character_set_client | latin1 |
| character_set_connection | latin1 |
| character_set_database | latin1 |
| character_set_filesystem | binary |
| character_set_results | latin1 |
| character_set_server | latin1 |
| character_set_system | utf8 |
| character_sets_dir | /usr/share/mysql/charsets/ |
+--------------------------+----------------------------+
8 rows in set (0.00 sec)

可见原来缺省是latin1编码，会导致中文乱码。

可以在mysql中设置编码，单个设置
mysql> alter database name character set utf8;
mysql> set character_set_connection=utf8;

Query OK, 0 rows affected (0.00 sec)
mysql> set character_set_connection=utf8;
Query OK, 0 rows affected (0.00 sec)
mysql> set character_set_results=utf8;
Query OK, 0 rows affected (0.00 sec)
mysql> set character_set_server=utf8;
Query OK, 0 rows affected (0.00 sec)
但重启后会失效。

可以修改配置文件：

[root@Hadoop48 ~]# vi /etc/my.cnf
[mysql]
default-character-set=utf8
[client]
default-character-set=utf8
[mysqld]
default-character-set=utf8
character_set_server=utf8
init_connect='SET NAMES utf8'

重启mysql，这样确保缺省编码是utf8

[root@Hadoop48 ~]# service mysqld restart

查看是否变成utf8：

mysql> \s
--------------
mysql Ver 14.12 Distrib 5.0.95, for redhat-linux-gnu (x86_64) using readline 5.1

Connection id: 2
Current database: toplists
Current user: root@localhost
SSL: Not in use
Current pager: stdout
Using outfile: ''
Using delimiter: ;
Server version: 5.0.95 Source distribution
Protocol version: 10
Connection: Localhost via UNIX socket
Server characterset: utf8
Db characterset: utf8
Client characterset: utf8
Conn. characterset: utf8
UNIX socket: /var/lib/mysql/mysql.sock
Uptime: 39 sec

Threads: 1 Questions: 12 Slow queries: 0 Opens: 15 Flush tables: 1 Open tables: 9 Queries per second avg: 0.308
--------------

mysql> show variables like "char%";
+--------------------------+----------------------------+
| Variable_name | Value |
+--------------------------+----------------------------+
| character_set_client | utf8 |
| character_set_connection | utf8 |
| character_set_database | utf8 |
| character_set_filesystem | binary |
| character_set_results | utf8 |
| character_set_server | utf8 |
| character_set_system | utf8 |
| character_sets_dir | /usr/share/mysql/charsets/ |
+--------------------------+----------------------------+
8 rows in set (0.00 sec)

mysql> show variables like "colla%";
+----------------------+-----------------+
| Variable_name | Value |
+----------------------+-----------------+
| collation_connection | utf8_general_ci |
| collation_database | utf8_general_ci |
| collation_server | utf8_general_ci |
+----------------------+-----------------+
3 rows in set (0.00 sec)

将mysql编码改成utf8，并在命令行中指定编码为utf8，执行导出报错：

[zhouhh@Hadoop46 ~]$ sqoop export --connect "jdbc:mysql://Hadoop48/toplists?useUnicode=true&characterEncoding=utf-8" -m 1 --table award --export-dir /user/hive/warehouse/hive_myaward/000000_0 --input-null-string "\\\\N" --input-null-non-string "\\\\N" --input-fields-terminated-by "\\01" --input-lines-terminated-by "\\n"

12/07/20 13:17:22 INFO mapred.JobClient: Task Id : attempt_201207191159_0233_m_000000_0, Status : FAILED
java.io.IOException: java.sql.SQLException: Incorrect string value: '\xE6\x9D\x80\xE7\xA0\xB4...' for column 'nick' at row 1

原来我创建的表缺省编码不是utf8的，也需改变一下。

mysql> ALTER TABLE award CONVERT TO CHARACTER SET utf8 COLLATE utf8_general_ci;
Query OK, 0 rows affected (0.00 sec)
Records: 0 Duplicates: 0 Warnings: 0

再导出

[zhouhh@Hadoop46 ~]$ sqoop export --connect "jdbc:mysql://Hadoop48/toplists?useUnicode=true&characterEncoding=utf-8" -m 1 --table award --export-dir /user/hive/warehouse/hive_myaward/000000_0 --input-null-string "\\\\N" --input-null-non-string "\\\\N" --input-fields-terminated-by "\\01" --input-lines-terminated-by "\\n"
...
12/07/20 14:03:10 INFO mapred.JobClient: map 0% reduce 0%
12/07/20 14:03:24 INFO mapred.JobClient: map 100% reduce 0%
...
12/07/20 14:03:29 INFO mapreduce.ExportJobBase: Exported 2 record

检查表
mysql> select * from award;
+-------------------------------+-----------+-----------+------+-----------+-----------+--------+------+-------------+-----------------+---------+
| rowkey | productid | matchid | rank | tourneyid | userid | gameid | gold | loginid | nick | plat |
+-------------------------------+-----------+-----------+------+-----------+-----------+--------+------+-------------+-----------------+---------+
| 2012-04-27 06:55:00:402713629 | 5947 | 433203828 | 2 | 4027102 | 402713629 | 1001 | NULL | 715878221 | 杀破天A | ios |
| 2012-04-27 06:55:00:406788559 | 778 | 433203930 | 19 | 4017780 | 406788559 | 1001 | 1 | 13835155880 | 亲牛牛旦旦 | android |
+-------------------------------+-----------+-----------+------+-----------+-----------+--------+------+-------------+-----------------+---------+
2 rows in set (0.00 sec)

中文编码问题解决。

分享到：

用python脚本定期备份文件 | 从hive将数据导出到mysql

2014-03-14 10:20
浏览 2178
评论(0)
分类:编程语言
查看更多

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

datax数据从hive导入mysql数据缺失解决: 在使用 DataX 将数据从 Hive 表导入 MySQL 表的过程中，遇到了数据缺失的问题。具体表现为，在某些特定条件下（如数据块大小超过 256M 时），导入到 MySQL 的数据量少于预期。 #### 现象分析根据观察发现，当数据...

实验手册：搜狗搜索日志分析系统实现-Hadoop2.0-v1.2-noted: - **需求描述**：将HDFS中的数据导出到MySQL数据库中，便于进一步的分析和应用。 - **实现方法**：使用Sqoop工具，实现数据从HDFS到MySQL的迁移。 #### 十、HBaseShell操作命令实验 - **需求描述**：熟悉HBase的...

scratch少儿编程逻辑思维游戏源码-Pyorovania.zip: scratch少儿编程逻辑思维游戏源码-Pyorovania.zip

scratch少儿编程逻辑思维游戏源码-弹力猫.zip: scratch少儿编程逻辑思维游戏源码-弹力猫.zip

scratch少儿编程逻辑思维游戏源码-地心引力.zip: scratch少儿编程逻辑思维游戏源码-地心引力.zip

基于金枪鱼群优化算法的SVM在多变量时间序列预测中的MATLAB实现及优化: 内容概要：本文介绍了一种基于金枪鱼群优化算法（TSO）和支持向量机（SVM）的混合算法模型——TSO-SVM，在多变量时间序列预测中的应用。文中详细解释了TSO-SVM的工作原理，即通过模拟金枪鱼群觅食行为来优化SVM的参数，从而提升预测性能。同时提供了具体的Matlab代码实现步骤，包括参数初始化、模型训练和预测。实验结果显示，TSO-SVM相较于传统SVM方法，显著提升了预测的准确性和稳定性，并展示了良好的泛化能力。适合人群：对机器学习尤其是时间序列预测感兴趣的科研人员和技术开发者。使用场景及目标：①需要进行多变量时间序列预测的研究项目；②希望利用自然启发式优化算法改善现有SVM模型效果的技术团队。其他说明：推荐使用Libsvm工具箱配合Matlab 2018B及以上版本，仅限于Windows 64位操作系统。

机器视觉技术：OpenCV与Qt在工业相机采集及图像处理中的应用: 内容概要：本文深入探讨了机器视觉技术，重点介绍了OpenCV和Qt在工业相机采集及图像处理中的应用。文中详细讲述了卡尺工具、找线、找圆、颜色检测、模板匹配及形状匹配等关键技术的具体实现方法，并特别强调了海康工业相机采集与基于形状的模板匹配界面的开发。此外，形状匹配算法已被封装成DLL，方便直接调用。通过实际案例和技术解析，帮助读者全面掌握机器视觉系统的构建。适合人群：对机器视觉感兴趣的初学者、有一定编程基础的研发人员、从事工业自动化领域的工程师。使用场景及目标：适用于希望深入了解机器视觉技术及其应用场景的专业人士，旨在提升图像处理能力，优化工业自动化流程，提高生产效率。其他说明：文章不仅提供理论知识，还附有示例代码，便于读者动手实践并加深理解。

scratch少儿编程逻辑思维游戏源码-Billy奇妙之旅.zip: scratch少儿编程逻辑思维游戏源码-Billy奇妙之旅.zip

电动汽车BMS电池管理系统应用层软件模型：MBD方法、通信协议及AUTOSAR构建: 内容概要：本文详细介绍了基于模型开发（MBD）的BMS电池管理系统应用层软件模型。首先概述了BMS的核心任务，即确保电池的安全与高效运行，涉及充电、放电控制、实时监测和电池均衡管理。接着重点讨论了SUMlink电池管理系统策略模型，该模型通过收集和处理电池的数据（如电压、电流、温度），并运用多种算法（如SOC估算、SOH评估）来优化电池性能。文中还阐述了BMC CVS内部通讯协议DBC的作用，确保各模块间数据传输的准确性与效率。最后，介绍了AUTOSAR标准在BMS系统中的应用，特别是针对MPC5644A芯片的底层Build工程，提高了系统的可维护性、可扩展性和可靠性。此外，提到了INCA A2L标定文件的应用，用于配置和调整系统参数，以满足不同需求。适合人群：从事电动汽车电池管理系统研究与开发的技术人员，尤其是对MBD方法、通信协议和AUTOSAR标准感兴趣的工程师。使用场景及目标：适用于希望深入了解BMS系统的设计原理和技术细节的专业人士，旨在提高他们对该领域的理解和实际操作能力。其他说明：通过对代码的具体分析，读者能够更加直观地理解BMS的工作流程及其各个组件间的协作关系。

少儿编程scratch项目源代码文件案例素材-深海困境.zip: 少儿编程scratch项目源代码文件案例素材-深海困境.zip

少儿编程scratch项目源代码文件案例素材-去吧泡泡糖.zip: 少儿编程scratch项目源代码文件案例素材-去吧泡泡糖.zip

KEPServerEX6-6.17.269.0: KEPServerEX6-6.17.269.0，最新版

scratch少儿编程逻辑思维游戏源码-第二个循环.zip: scratch少儿编程逻辑思维游戏源码-第二个循环.zip

少儿编程scratch项目源代码文件案例素材-手里剑.zip: 少儿编程scratch项目源代码文件案例素材-手里剑.zip

少儿编程scratch项目源代码文件案例素材-山地跳跃.zip: 少儿编程scratch项目源代码文件案例素材-山地跳跃.zip

机器人路径规划中Informed RRT*算法详解与代码实现: 内容概要：本文详细介绍了Informed RRT*算法及其在机器人路径规划领域的应用。文章首先解释了该算法相较于传统RRT*算法的优势，即通过将采样范围限制在由起点和终点构成的椭圆区域内来提高搜索效率。接着，文中提供了具体的代码实现，包括椭圆采样的核心公式、路径优化的rewire步骤以及动态调整邻居半径的方法。此外，还讨论了路径队列管理和椭圆区域随路径优化动态更新的重要性。通过这些技术手段，Informed RRT*能够在找到初始路径后显著加快优化速度。适合人群：对机器人路径规划感兴趣的科研人员、工程师及学生。使用场景及目标：适用于需要高效路径规划的实际应用场景，如自动驾驶汽车、无人机飞行路径规划等。目标是在复杂环境中快速找到从起点到终点的最佳路径。其他说明：建议读者在理解理论的基础上，结合提供的代码进行实验，以便更好地掌握算法的工作机制。同时，在不同环境条件下测试算法性能，观察其自适应能力。

基于COMSOL有限元仿真的变压器辐射传热数值分析：从入门到进阶: 内容概要：本文详细介绍了基于COMSOL有限元软件的变压器辐射传热数值分析方法。首先，解释了变压器内外辐射传热的基本机理，包括热量通过传导、对流和辐射的方式传递，重点在于辐射传热的作用及其数学描述。接着，逐步引导读者从零开始构建有限元仿真模型，涵盖模型参数确定、网格划分、材料属性定义、边界条件设置、传热方程设定、仿真运行及结果分析等多个步骤。最后，探讨了进一步研究的方向，如不同因素（温度、材料属性、几何形状）对辐射传热的影响，以及该模型在电力电子设备和热管理系统的潜在应用。适合人群：电气工程专业学生、初学者和技术爱好者，尤其是对有限元仿真和变压器辐射传热感兴趣的群体。使用场景及目标：适用于希望通过实际操作掌握有限元仿真技能的人群，旨在帮助他们理解变压器辐射传热机制并能独立完成相关仿真项目。其他说明：本文不仅提供了理论知识，还附带了详细的视频教程和仿真模型，使学习过程更加直观易懂。

scratch少儿编程逻辑思维游戏源码-Scratch 奔跑.zip: scratch少儿编程逻辑思维游戏源码-Scratch 奔跑.zip

scratch少儿编程逻辑思维游戏源码-超级马里奥兄回放引擎.zip: scratch少儿编程逻辑思维游戏源码-超级马里奥兄回放引擎.zip

少儿编程scratch项目源代码文件案例素材-你准备好了吗？.zip: 少儿编程scratch项目源代码文件案例素材-你准备好了吗？.zip

最近访客 更多访客>>