`
isiqi
  • 浏览: 16453690 次
  • 性别: Icon_minigender_1
  • 来自: 济南
社区版块
存档分类
最新评论

GBK GB2312 UTF-8 区别于联系

 
阅读更多

首先 运行 一段程序:

public static void main(String[] args) throws IOException{


System.out.println("徐".getBytes("UTF-8").length);
System.out.println("徐".getBytes("GBK").length);
System.out.println("徐".getBytes("GB2312").length);

System.out.println("徐".getBytes("GBK")[0]+"--"+"徐".getBytes("GBK")[1]);
System.out.println("徐".getBytes("GB2312")[0]+"--"+"徐".getBytes("GB2312")[1]);

}


=======================================================================


详细:http://blog.csdn.net/qinysong/article/details/1179480


UTF-8:Unicode Transformation Format-8bit,允许含BOM,但通常不含BOM。是用以解决国际上字符的一种多字节编码,它对英文使用8位(即一个字节),中文使用24为(三个字节)来编码。UTF-8包含全世界所有国家需要用到的字符,是国际编码,通用性强。UTF-8编码的文字可以在各国支持UTF8字符集的浏览器上显示。如,如果是UTF8编码,则在外国人的英文IE上也能显示中文,他们无需下载IE的中文语言支持包。

GBK是国家标准GB2312基础上扩容后兼容GB2312的标准。GBK的文字编码是用双字节来表示的,即不论中、英文字符均使用双字节来表示,为了区分中文,将其最高位都设定成1。GBK包含全部中文字符,是国家编码,通用性比UTF8差,不过UTF8占用的数据库比GBD大。

GBK、GB2312等与UTF8之间都必须通过Unicode编码才能相互转换:

GBK、GB2312--Unicode--UTF8

UTF8--Unicode--GBK、GB2312

对于一个网站、论坛来说,如果英文字符较多,则建议使用UTF-8节省空间。不过现在很多论坛的插件一般只支持GBK。

GB2312是GBK的子集,GBK是GB18030的子集
GBK是包括中日韩字符的大字符集合
如果是中文的网站 推荐GB2312 GBK有时还是有点问题
为了避免所有乱码问题,应该采用UTF-8,将来要支持国际化也非常方便
UTF-8可以看作是大字符集,它包含了大部分文字的编码。
使用UTF-8的一个好处是其他地区的用户(如香港台湾)无需安装简体中文支持就能正常观看你的文字而不会出现乱码。

gb2312是简体中文的码
gbk支持简体中文及繁体中文
big5支持繁体中文
utf-8支持几乎所有字符




分享到:
评论

相关推荐

    UTF-8 Unicode GBK GB2312 编码之间的区别和联系

    ### UTF-8、Unicode、GBK、GB2312 编码之间的区别和联系 #### 一、引言 在互联网技术中,字符编码是非常重要的基础概念之一。字符编码不仅决定了文本在网络上的传输效率,还直接影响到了不同国家和地区用户访问...

    字符编码:GBK、GB2312、UTF-8

    本文主要讨论了三种常见的字符编码:GBK、GB2312以及UTF-8。 首先,GBK编码是基于GB2312标准的扩展,兼容GB2312,是中国大陆广泛使用的编码系统。GBK使用双字节来表示所有字符,对于中文字符,其最高位被设置为1,...

    GBK 与 UTF-8 间编码转换

    对于GBK到UTF-8的转换,首先需要将GBK编码的每个双字节视为一个独立的字符,然后查找对应的Unicode码点,最后按照UTF-8的规则将其转换成1至3个字节的序列。相反,从UTF-8到GBK的转换则需要识别出UTF-8编码的字节序列...

    c语言gbk、utf8转换编码表及函数

    GBK和UTF-8是两种常见的字符编码格式,它们各有特点并应用于不同的场景。本篇将详细介绍GBK与UTF-8编码的区别,以及如何在C语言中进行这两种编码的转换。 1. **GBK编码** - GBK是中国大陆广泛使用的汉字编码标准,...

    UTF-8和GBK及GB2312的区别

    ### UTF-8与GBK及GB2312的区别 #### 一、引言 随着互联网技术的发展和全球化的深入,不同国家和地区之间的信息交流日益频繁。为了满足这种需求,多种字符编码标准应运而生,其中UTF-8、GBK和GB2312是中文环境中最...

    utf-8、gbk、gb2312区别

    ### UTF-8、GBK、GB2312的区别 在计算机科学领域,字符编码是将文字转换为二进制数字以便计算机处理的过程。常见的字符集包括UTF-8、GBK、GB2312等,它们各有特点,在不同的场景下被广泛应用。 #### GB2312编码 *...

    UTF-8与GBK的区别

    ### UTF-8与GBK的区别详解 #### 一、从字节上区分 **GBK编码**是一种双字节编码方案,也就是说无论是中文字符还是英文字符,GBK都使用两个字节(即16位)来表示。为了区分中文字符,GBK将最高位设置为1。这种固定...

    JAVA字符编码:Unicode,ISO-8859-1,GBK,UTF-8编码及相互转换

    ### JAVA字符编码详解:Unicode, ISO-8859-1, GBK, UTF-8 及其相互转换 #### 一、引言 在Java编程中,字符编码的管理和转换是一项基本而又重要的任务。不同的编码标准适用于不同的场景,而理解和掌握这些编码之间...

    GBK 和UTF-8的区别

    ### GBK与UTF-8的区别 #### 一、编码方式简介 **GBK**(全称:GB2312-80的扩展)是中国大陆的一种汉字编码标准,它是在GB2312基础上进行扩展而来的,兼容GB2312,并支持更多的汉字和符号。GBK采用双字节编码方式,...

    GBK转UTF-8

    标题"GBK转UTF-8"指的是将使用GBK编码的文件或工程转换为使用UTF-8编码的过程。下面我们将深入探讨这两种编码以及转换工具的使用。 GBK编码,全称为“汉字内码扩展规范”,是中国大陆广泛使用的多字节字符集,它...

    gbk与utf-8的区别

    GBK和UTF-8的主要区别在于: 1. **字符集大小**:GBK基于GB2312,支持约2万个汉字;而UTF-8支持Unicode,理论上可编码140万多个字符。 2. **编码长度**:GBK使用固定长度的双字节,UTF-8则根据字符的不同,使用1-4...

    汉字编码转换工具gbk2utf-8

    "GBK2UTF-8"是一个专门用于汉字编码转换的工具,它能够帮助用户在GBK和UTF-8之间进行转换,解决因编码不兼容导致的乱码问题。 GBK编码是中国大陆广泛采用的汉字编码标准,它是GB2312的扩展,兼容GB2312的同时增加了...

    win32下UTF-8转GB2312代码

    本文将深入探讨在Win32环境下如何实现UTF-8到GB2312编码的转换,这是一项关键技术,尤其对于处理中文字符的软件尤为重要。 ### UTF-8与GB2312编码简介 #### UTF-8编码 UTF-8是一种可变长度的Unicode编码格式,它...

    如何使用Java代码将GBK编码格式的工程转换为UTF-8编码格式的工程.zip

    首先,我们需要了解GBK和UTF-8编码的区别。GBK是基于GB2312的扩展,主要适用于简体中文,它可以表示大部分中文字符。而UTF-8是一种变长编码,可以表示世界上几乎所有的字符,包括汉字、日文、韩文等,且在Web上应用...

    批量转javaGBK编码文件到UTF-8

    首先,我们需要理解GBK和UTF-8编码的区别。GBK是对GB2312的扩展,包含了更多的汉字,主要适用于简体中文环境。而UTF-8是一种变长编码,可以表示世界上几乎所有的字符,包括中文、英文、日文等,它是Unicode的一种...

    gbk utf8如何选择 正确理解和使用GBK及UTF-8网页编码

    GBK、GB2312与UTF-8之间的转换通常需要通过Unicode作为中间桥梁。例如,从GBK转换到UTF-8,首先需要将GBK编码转为Unicode,然后再由Unicode转换成UTF-8。Windows记事本提供了方便的“另存为”功能,可在这几种编码...

    DiscuzX3.4UTF8转GBK后乱码解决方案

    首先,我们需要理解UTF-8和GBK两种编码的区别。UTF-8是一种国际标准的多字节字符编码,可以表示Unicode字符集中的所有字符,广泛应用于互联网。GBK是中国大陆地区广泛使用的编码,它是GB2312的扩展,兼容大部分简体...

    UTF-8_To_GBK的软件源码

    这篇关于“UTF-8_To_GBK”的软件源码分析将深入探讨这两种编码的区别,以及如何在VB(Visual Basic)环境中进行编码转换。 1. **UTF-8**:全称Unicode Transformation Format - 8 bit,是一种变长的字符编码,它...

    课程设计:解决arduino软件 无法将utf-8字符转换成gbk字符十六进制的问题,串口显示转换的gbk字符

    UTF-8是一种广泛使用的Unicode字符编码方案,而GBK是中国大陆常用的汉字编码标准,它兼容GB2312,但增加了更多的汉字和符号。 首先,我们需要理解UTF-8和GBK编码的区别。UTF-8是一种变长编码,每个字符占用1到4个...

    GBA to utf8

    1. **编码理论**:理解字符编码的基本原理,如ASCII、GB2312、GBK、UTF-8等的区别。 2. **GBK/GB2312编码**:GB2312是早期的中文编码,GBK是对GB2312的扩展,增加了更多字符。 3. **UTF-8编码**:是一种变长的...

Global site tag (gtag.js) - Google Analytics