`
zhaomengsen
  • 浏览: 207746 次
  • 性别: Icon_minigender_1
  • 来自: 河北
社区版块
存档分类
最新评论

mysql中文乱码产生原因和解决办法

阅读更多

一、乱码产生原因

mysql字符编码是版本4.1引入的,支持多国语言,而且一些特性已经超过了其他的数据库系统。可以在MySQL Command Line Client 下输入如下命令查看mysql的字符集
mysql> SHOW CHARACTER SET;
+----------+-----------------------------+---------------------+--------+
| Charset   | Description                 | Default collation | Maxlen |
+----------+-----------------------------+---------------------+--------+
| big5     | Big5 Traditional Chinese | big5_chinese_ci     | 2    |
| dec8     | DEC West European           | dec8_swedish_ci     | 1    |
| cp850 | DOS West European           | cp850_general_ci | 1    |
| hp8    | HP West European          | hp8_english_ci    | 1    |
| koi8r | KOI8-R Relcom Russian    | koi8r_general_ci | 1    |
| latin1 | cp1252 West European        | latin1_swedish_ci | 1    |
| latin2 | ISO 8859-2 Central European | latin2_general_ci | 1    |
| swe7     | 7bit Swedish             | swe7_swedish_ci     | 1    |
| ascii | US ASCII                    | ascii_general_ci | 1    |
| ujis     | EUC-JP Japanese          | ujis_japanese_ci | 3    |
| sjis     | Shift-JIS Japanese       | sjis_japanese_ci | 2    |
| hebrew | ISO 8859-8 Hebrew           | hebrew_general_ci | 1    |
| tis620 | TIS620 Thai                 | tis620_thai_ci    | 1    |
| euckr | EUC-KR Korean             | euckr_korean_ci     | 2    |
| koi8u | KOI8-U Ukrainian          | koi8u_general_ci | 1    |
| gb2312 | GB2312 Simplified Chinese | gb2312_chinese_ci | 2    |
| greek | ISO 8859-7 Greek          | greek_general_ci | 1    |
| cp1250 | Windows Central European | cp1250_general_ci | 1    |
| gbk    | GBK Simplified Chinese    | gbk_chinese_ci    | 2    |
| latin5 | ISO 8859-9 Turkish       | latin5_turkish_ci | 1    |
| armscii8 | ARMSCII-8 Armenian       | armscii8_general_ci | 1    |
| utf8     | UTF-8 Unicode             | utf8_general_ci     | 3    |
| ucs2     | UCS-2 Unicode             | ucs2_general_ci     | 2    |
| cp866 | DOS Russian                 | cp866_general_ci | 1    |
| keybcs2   | DOS Kamenicky Czech-Slovak   | keybcs2_general_ci   | 1    |
| macce | Mac Central European        | macce_general_ci | 1    |
| macroman | Mac West European           | macroman_general_ci | 1    |
| cp852 | DOS Central European        | cp852_general_ci | 1    |
| latin7 | ISO 8859-13 Baltic       | latin7_general_ci | 1    |
| cp1251 | Windows Cyrillic          | cp1251_general_ci | 1    |
| cp1256 | Windows Arabic              | cp1256_general_ci | 1    |
| cp1257 | Windows Baltic              | cp1257_general_ci | 1    |
| binary | Binary pseudo charset    | binary              | 1    |
| geostd8   | GEOSTD8 Georgian          | geostd8_general_ci   | 1    |
| cp932 | SJIS for Windows Japanese | cp932_japanese_ci | 2    |
| eucjpms   | UJIS for Windows Japanese | eucjpms_japanese_ci | 3    |
+----------+-----------------------------+---------------------+--------+
36 rows in set (0.02 sec)

MySQL 4.1的字符集支持(Character Set Support)有两个方面:字符集(Character set)和排序方式(Collation)。对于字符集的支持细化到四个层次: 服务器(server),数据库(database),数据表(table)和连接(connection)。
查看系统的字符集和排序方式的设定可以通过下面的两条命令:

mysql> SHOW VARIABLES LIKE 'character_set_%';
+--------------------------+-------------------------------------------+
| Variable_name          | Value                                  |
+--------------------------+-------------------------------------------+
| character_set_client     | latin1                                  |
| character_set_connection | latin1                                  |
| character_set_database | latin1                                  |
| character_set_filesystem | binary                                  |
| character_set_results | latin1                                  |
| character_set_server     | latin1                                  |
| character_set_system     | utf8                                      |
| character_sets_dir    | D:\MySQL\MySQL Server 5.0\share\charsets\ |
+--------------------------+-------------------------------------------+
8 rows in set (0.06 sec)

mysql> SHOW VARIABLES LIKE 'collation_%';
+----------------------+-------------------+
| Variable_name        | Value          |
+----------------------+-------------------+
| collation_connection | latin1_swedish_ci |
| collation_database | latin1_swedish_ci |
| collation_server     | latin1_swedish_ci |
+----------------------+-------------------+
3 rows in set (0.02 sec)

上面列出的值就是系统的默认值。latin1默认校对规则是latin1_swedish_ci,默认是latin1的瑞典语排序方式. 为什么呢默认会是latin1_swedish_ci呢,追溯一下mysql历史很容易发现.

1979年,一家瑞典公司Tcx欲开发一个快速的多线程、多用户数据库系统。Tcx 公司起初想利用mSQL和他们自己的快速低级例程 (Indexed Sequential Access Method,ISAM)去连接数据库表,然而,在一些测试以后得出结论:mSQL对其需求来说不够快速和灵活。这就产生了一个连接器数据库的新SQL接口,它使用几乎和mSQL一样的API接口。这个API被设计成可以使那些由mSQL而写的第三方代码更容易地移植到MySQL。

当然也可以需要修改mysql的默认字符集
在mysql配置文档my.ini,找到如下两句:

[mysql]

default-character-set=latin1



# created and no character set is defined
default-character-set=latin1

修改后面的值就可以。

这里不建议改,仍保留默认值
也就是说启动 mysql时,如果没指定指定一个默认的的字符集,这个值继承自配置文件中的;
此时 character_set_server 被设定为这个默认的字符集; 当创建一个新的数据库时,
除非明确指定,这个数据库的字符集被缺省设定为 character_set_server; 当选定了一个数据库时,
character_set_database 被设定为这个数据库默认的字符集; 在这个数据库里创建一张表时,
表默认的字符集被设定为 character_set_database,也就是这个数据库默认的字符集;
当在表内设置一栏时,除非明确指定,否则此栏缺省的字符集就是表默认的字符集。

这样问题就随之而来了,假如一数据库是gbk编码。如果访问数据库时没指定其的字符集是gbk。
那么这个值将继承系统的latin1,这样就做成mysql中文乱码。

二、乱码解决方案
要解决乱码问题,首先必须弄清楚数据库用什么编码。如果没有指明,将是默认的latin1。
用得最多的应该是这3种字符集 gb2312,gbk,utf8。

如何去指定数据库的字符集呢?下面也gbk为例

【在MySQL Command Line Client创建数据库 】

mysql> CREATE TABLE `mysqlcode` (
-> `id` TINYINT( 255 ) UNSIGNED NOT NULL AUTO_INCREMENT PRIMARY KEY ,
-> `content` VARCHAR( 255 ) NOT NULL
-> ) TYPE = MYISAM CHARACTER SET gbk COLLATE gbk_chinese_ci;
Query OK, 0 rows affected, 1 warning (0.03 sec)

mysql> desc mysqlcode;
+---------+-----------------------+------+-----+---------+----------------+
| Field | Type                | Null | Key | Default | Extra       |
+---------+-----------------------+------+-----+---------+----------------+
| id    | tinyint(255) unsigned | NO | PRI |       | auto_increment |
| content | varchar(255)       | NO |     |       |             |
+---------+-----------------------+------+-----+---------+----------------+
2 rows in set (0.02 sec)

其中后面的TYPE = MYISAM CHARACTER SET gbk COLLATE gbk_chinese_ci;
就是指定数据库的字符集,COLLATE (校勘),让mysql同时支持多种编码的数据库。

当然也可以通过如下指令修改数据库的字符集
alter database da_name default character set 'charset'.

客户端以 gbk格式发送 ,可以采用下述配置:

SET character_set_client='gbk'
SET character_set_connection='gbk'
SET character_set_results='gbk'

这个配置就等价于 SET NAMES 'gbk'。
现在对刚才创建的数据库操作

mysql> use test;
Database changed

mysql> insert into mysqlcode values(null,'java爱好者');
ERROR 1406 (22001): Data too long for column 'content' at row 1

没有指定字符集为gbk,插入时出错

mysql> set names 'gbk';
Query OK, 0 rows affected (0.02 sec)

指定字符集为 gbk

mysql> insert into mysqlcode values(null,'java爱好者');
Query OK, 1 row affected (0.00 sec)

插入成功

mysql> select * from mysqlcode;
+----+-----------+
| id | content |
+----+-----------+
| 1   | java爱好着 |
+----+-----------+
1 row in set (0.00 sec)

在没有指定字符集gbk时读取也会出现乱码,如下

mysql> select * from mysqlcode;
+----+---------+
| id | content |
+----+---------+
| 1   | java???   |
+----+---------+
1 row in set (0.00 sec)

分享到:
评论

相关推荐

    PHP+MySql中文乱码解决办法

    ### PHP+MySQL中文乱码解决办法详解 #### 一、乱码产生的原因 在使用PHP+MySQL进行开发的过程中,中文乱码问题是常见的一个问题。乱码现象通常发生在从数据库查询中文数据时,显示出来的中文变成了不可识别的符号...

    mac MySQL中文乱码解决办法

    本文将详细介绍如何解决macOS系统下MySQL中文乱码的问题,通过修改配置文件my.cnf来调整MySQL的字符集,确保中文能够正常显示。 ### 解决方案详解 #### 步骤一:定位my.cnf配置文件 首先,需要找到或创建MySQL的...

    Java Web程序开发中字符乱码的原因与解决办法.pdf

    以上所述的字符编码相关知识、乱码产生的原因以及解决办法,是Java Web程序开发者在开发过程中必须掌握的技术要点,能够确保网站和应用程序能够正确处理和显示各种字符信息,从而提升用户体验。

    jsp和servlet操作mysql中文乱码问题的解决办法

    首先,需要了解中文乱码产生的原因。通常,乱码问题是由编码不一致引起的。当页面、请求、数据库等不同组件的编码设置不一致时,就可能产生乱码。解决乱码问题的关键在于统一整个数据流转过程中的编码格式,通常选择...

    Java乱码问题解决

    这些差异使得在处理中文数据时很容易产生乱码现象。 #### 二、常见乱码类型与原因分析 1. **JSP页面中文乱码** - **原因**:当JSP页面本身或客户端提交的数据编码与服务器端处理数据的编码不一致时,就会出现...

    AJAX中文乱码解决

    首先,我们需要理解乱码产生的原因。乱码通常是由字符编码不一致引起的。服务器和客户端之间传输的数据如果采用不同的字符编码,就会导致接收方无法正确解析中文字符。在AJAX请求中,这可能发生在请求发送、服务器...

    J2EE平台下的乱码问题分析及解决

    例如,在使用JDBC连接MySQL数据库时,可以通过设置connection的characterEncoding属性来解决乱码问题。 乱码问题的解决不仅仅依靠技术手段,还依赖于对整个系统字符编码的深入理解。正确处理字符编码,要求开发者对...

    中文乱码解决方法(已验证).docx

    本文将详细解析中文乱码产生的原因以及针对request和response的解决方案。 一、基础知识 1. 字符编码:GBK是一种兼容GB2312的汉字编码标准,包含GB2312的所有字符,但GB2312编码的数据不一定能正确通过GBK解码。 2....

    JDBC连接mysql乱码异常问题处理总结

    本文主要介绍了JDBC连接mysql乱码异常问题处理的办法和思路。当我们使用JDBC连接mysql数据库时,可能会遇到乱码的问题。这是因为mysql数据库的字符集转换过程中存在的问题。下面我们来详细解释这个问题和解决方案。 ...

    5种JSP页面显示为乱码的解决方法

    解决办法是在JSP文件的开头添加`<%@ page>`指令,指定页面的字符集,例如: ```jsp ; charset=GBK" pageEncoding="GBK" %> ``` 如果使用IDE(如Eclipse),也可以在全局设置中修改JSP文件的默认编码。然而,这种...

    四个常见html网页乱码问题及解决办法

    为了能够更好地解决HTML网页乱码问题,本文将介绍四个常见的原因及其对应的解决办法。 1. HTML字符编码问题: 这是网页乱码问题中最常见的一种。字符编码的不正确设置通常会导致浏览器无法正确解析网页内容,从而...

    Python信息抽取之乱码解决办法

    ### Python信息抽取之乱码解决办法 在进行网络爬虫或数据抓取的过程中,经常会遇到乱码问题,尤其是在处理中文网页时更为常见。本篇文章将详细介绍如何使用Python解决信息抽取过程中遇到的乱码问题。 #### 一、...

    Java字符转换[参照].pdf

    解决办法是使用`native2ascii`工具将汉字转换为`\uXXXX`格式。例如:`native2ascii -encoding GBK inputfile outputfile`。 XML文件的读取需要注意文件头部的`<?xml version="1.0" encoding="gb2312"?>`声明,确保...

    PHP iconv 函数转gb2312的bug解决方法

    在本文中,我们将深入探讨PHP iconv函数在转换UTF-8编码到GB2312编码时可能遇到的bug,并提供有效的解决办法。 首先,我们来了解一下PHP中的iconv函数的基本用法。iconv函数的主要目的是将字符串从一个编码转换到另...

    JAVA自学之路

    有不少的同学发信给我,和我探讨java的自学过程应该是什么样的,毕竟有很多人因为各种各样的原因不能参加培训。我试着给出自己的见解,抛砖引玉吧。 这个路线图是给那些为了就业的人准备的,如果只是兴趣,不一定照...

    一份超级全面的PHP面试题

    实现中文字串截取无乱码的方法。(3分) - **mb_substr()**:当处理UTF-8编码的字符串时,使用此函数可以确保不出现乱码。 ### 10. 您是否用过版本控制软件?如果有您用的版本控制软件的名字是?(1分) - **Git...

    PHP面试题(最牛)

    - `@foo()`:使用了错误抑制符`@`,可以忽略函数执行时产生的警告和错误。 - `foo()`:正常调用函数。 #### 31. 如何声明一个名为“myclass”的没有方法和属性的类 **示例代码**: ```php class myclass {} ``` ###...

Global site tag (gtag.js) - Google Analytics