`

JAVA字符集编码备忘

阅读更多
iso-8859-1是JAVA网络传输使用的标准字符集,而gb2312是标准中文字符集,当你作出提交表单等需要网络传输的操作的时候,就需要把iso-8859-1转换为gb2312字符集显示,否则如果按浏览器的gb2312 格式来解释iso-8859-1字符集的话,由于2者不兼容,所以会是乱码.

------------------------------------------------------------------------------------------------------------------------------------------------

常用编码名称 说明
ASCII 7位:与ascii7相同
ISO8859-1: 与 8859_1,ISO-8859-1,ISO_8859-1等相同
GB2312-80 16位:与gb2312,gb2312-1980等相同
UTF8 与UTF-8相同
GBK :注意:兼容GB2312

------------------------------------------------------------------------------------------------------------------------------------------------
ISO-8859-1:属于单字节编码,最多能表示的字符范围是0-255,应用于英文系列,无法表示中文字符。

GB2312/GBK:这就是汉字的国标码,GBK提供了20902个汉字,专门用来表示汉字,是双字节编码,而英文字母和ISO8859-1一致(兼容ISO8859-1编码)。其中gbk编码能够用来同时表示繁体字和简体字,而GB2312只能表示简体字,GBK是兼容GB2312编码的。

unicode:这是最统一的编码,可以用来表示所有语言的字符,而且是定长双字节(也有四字节的)编码,包括英文字母在内。所以可以说它是不兼容ISO8859-1编码的,也不兼容任何编码。

UTF:考虑到unicode编码不兼容ISO8859-1编码,而且容易占用更多的空间:因为对于英文字母,unicode也需要两个字节来表示。所以unicode不便于传输和存储。因此而产生了utf编码,utf编码兼容iso8859-1编码,同时也可以用来表示所有语言的字符,不过,UTF编码是不定长编码,每一个字符的长度从1-6 个字节不等。另外,UTF编码自带简单的校验功能。一般来讲,英文字母都是用一个字节表示,而汉字使用三个字节。

注意,虽然说utf是为了使用更少的空间而使用的,但那只是相对于unicode编码来说,如果已经知道是汉字,则使用GB2312/GBK无疑是最节省的。不过另一方面,值得说明的是,虽然utf编码对汉字使用3个字节,但即使对于汉字网页,utf编码也会比unicode编码节省,因为网页中包含了很多的英文字符。

------------------------------------------------------------------------------------------------------------------------------------------------

对于浏览器的URL参数传递,通常使用UTF-8编码。
UTF-8编码:URLEncoder.encode(url, "UTF-8");
UTF-8解码:URLDecoder.decode(url, "UTF-8");

------------------------------------------------------------------------------------------------------------------------------------------------

XML文件读写同于文件读写,但应注意确保XML头中声明如<? xml version=”1.0” encoding=”gb2312” ?>与文件编码保持一致。

------------------------------------------------------------------------------------------------------------------------------------------------

1、对于JSP,确定头部加上 <%@ page contentType="text/html;charset=gb2312"%>这样的标签。
2、对于Servlet,确定 设置setContentType (“text/html; charset=gb2312”),以上两条用于使得输出汉字没有问题。
3、为输出HTML head中加一个 <meta http-equiv="Content-Type" content="text/html; charset=gb2312"> ,让浏览器正确确定HTML编码。

------------------------------------------------------------------------------------------------------------------------------------------------

Unicode与各编码之间的直接转换:

Unicode和GBK:每个汉字转换为两个字节,且是可逆的,即通过字节可以转换回字符串
Unicode和UTF-8:每个汉字转换为三个字节,且是可逆的,即通过字节可以转换回字符串
Unicode和ISO-8859-1:当存在汉字时转换失败,非可逆, 即通过字节不能再转换回字符串

String str = new String("中文字符");
String str1 = new String(str.getBytes("gb2312"),"gb2312");
String str2 = new String(str.getBytes("utf8"),"utf8");
String str3 = new String(str.getBytes("8859_1"),"8859_1");
System.out.println(str1);
System.out.println(str2);
System.out.println(str3);

输出结果:
中文字符
中文字符
????


------------------------------------------------------------------------------------------------------------------------------------------------

linux默认编码

这里所说的linux默认编码,是指运行时的环境变量。两个重要的环境变量是LC_ALL和LANG,默认编码会影响到java URLEncode的行为,下面有描述。

建议都设置为"zh_CN.UTF-8"。

------------------------------------------------------------------------------------------------------------------------------------------------

Oracle数据库一般使用ISO8859_1
如果String中是UNICODE字符,写入读出时需要转码
写入:String newStr = new String(oldStr.getByte(“GB2312”), “ISO8859_1”);
读出:String newStr = new String(oldStr.getByte(“ISO8859_1”),”GB2312”);

------------------------------------------------------------------------------------------------------------------------------------------------
。。。。。。。。。。。。。。。待添加。。。。。。。。。。。。。
分享到:
评论

相关推荐

    java字符集编码乱码详解

    ### Java字符集编码乱码详解 #### 一、编码与乱码基础知识 在计算机科学领域,字符集(Character Set)是指一系列符号和电子通信代码的标准集合。每种字符集都有其特定的应用场景和优势。例如,ASCII(American ...

    java字符集编码问题

    本文旨在深入探讨与Java相关的字符集编码知识,包括但不限于编码的基本概念、几种常见的字符集编码类型及其特点,以及Java如何处理这些字符集编码问题。 #### 二、编码基本知识 1. **ISO 8859-1** ISO 8859-1是...

    Java字符集和编码

    ### Java字符集和编码 #### 一、引言 在探讨Java字符集和编码之前,我们先了解一下为什么在Java编程中需要关注字符集和编码。Java作为一种广泛应用的编程语言,其内部采用的是Unicode编码,这使得Java能够很好地...

    JAVA及相关字符集编码问题

    JAVA及相关字符集编码问题 在深入探讨JAVA与字符集编码问题之前,我们首先需要理解不同字符集编码的基本概念以及它们在JAVA环境中的应用。字符集编码是计算机系统中表示文字的一种方式,它决定了如何将字符转换为二...

    Java字符集编码应用探讨.pdf

    Java字符集编码应用探讨

    java 获取文件字符集编码依赖包

    在Java编程中,正确地处理文件的字符集编码至关重要,特别是在读取或写入含有非ASCII字符(如中文、日文、韩文等)的文件时。`cpdetector`是Java中一个常用的库,用于自动检测文件的字符集编码。这个库能够帮助...

    Java中的字符集编码入门(二)编码字符集与字符集编码的区别[参考].pdf

    在Java编程语言中,理解和掌握字符集编码是至关重要的,特别是在处理各种文本数据时。本文主要探讨了编码字符集和字符集编码的区别,这对于软件开发人员来说是基础且必要的知识。 首先,我们要区分两个概念:编码...

    字符集编码查询/反查工具

    字符集编码是计算机科学中的一个重要概念,涉及到数据的存储、传输和显示。在这个"字符集编码查询/反查工具"中,我们可以看到涉及到的关键技术包括字符集、二进制、十六进制、Base64以及URL编码。这些知识点在信息...

    字符集与字符集编码简介

    字符集与字符集编码简介 我们知道,计算机只能识别诸如0101这样的二进制数,于是人们必须以二进制数据与计算机进行交互,或者先将人类使用的字符按一定规则转换为二进制数。 那什么是字符呢?在计算机领域,我们把...

    java字符集

    本文主要探讨了字符编码的基本概念以及Java编程语言如何处理不同字符集。随着信息技术的发展,字符编码技术也在不断演进,以支持全球范围内各种语言的文本表示需求。文章通过“中文”二字作为示例,介绍了几种常见的...

    java文件字符编码检测和转换

    字符编码检测和转换 附件中:FileEncodeDetector.java 此文件可以检测指定文件的编码格式 public static String getFileEncode(File file) {...} 附件中:FileCharsetConverter.java 此文件可以实现两个编码的相互...

    关于字符集编码

    在Java编程语言中,字符集编码涉及到java.nio.charset.Charset类,它为不同编码提供了编程支持。java.io.InputStreamReader类用于基于字符集的字符流输入,可以在读取文件或数据流时指定字符集,以正确显示字符内容...

    常用字符集及字符编码简介

    字符集与字符编码是计算机处理文字的基础,它们决定了如何用二进制表示各种语言的字符。在信息技术领域,理解和掌握字符集与字符编码至关重要,因为它们直接影响到数据的存储、传输和显示。以下是对这些概念的详细...

    java_字符编码 Javajava_字符编码问题

    ### Java 字符编码详解 #### 一、Java 字符编码基础概念 在深入探讨 Java 字符编码的问题之前,我们先来了解一下字符编码的基本概念。字符编码是计算机内部表示字符的一种方式,它涉及到如何将人类可读的文字转换...

    JAVA_字符编码

    此外,Java的`String`类提供了许多与字符编码相关的功能,如`getBytes()`方法可以将字符串转换为字节数组,使用默认的平台字符集,或者指定的`Charset`。而`new String(bytes, charset)`则可以根据给定的字节数组和...

    Linux字符集编码转换.docx

    Linux 字符集编码转换 Linux 字符集编码转换是一个非常重要的概念,在 Linux 操作系统中,字符集编码转换是必备的知识。本文将从基础概念开始,逐步引导读者了解字符集编码转换的相关知识。 首先,让我们了解什么...

    java使用URLDecoder和URLEncoder对中文字符进行编码和解码

    这两个类位于`java.net`包下,可以帮助开发者进行字符串编码和解码,确保数据在网络传输过程中的正确性。 `URLEncoder`类提供了`encode`静态方法,用于将普通字符串编码成`application/x-www-form-urlencoded` MIME...

    java获取字符串编码类型代码(导入直接查看结果)

    上述代码会遍历Java支持的所有字符集,并尝试将字符串编码和解码,如果编码和解码后的内容一致,那么这个编码就可能是字符串的原始编码。然而,这种方法并不总是准确,因为可能存在多个编码方式都能正确表示相同的...

    codeview 字符集编码对比

    在描述中,“编码转换工具 字符集编码对比字符集编码对比字符集编码对比”重复强调了编码对比这一功能,可能意味着此工具具有深度解析和展示编码差异的能力。 字符集,简单来说,是定义一组特定字符的集合,比如...

    Java 所有字符串转UTF-8 万能工具类-GetEncode.java

    不需要关心接受的字符串编码是UTF_8还是GBK,还是ios-8859-1,自动转换为utf-8编码格式,无需判断字符串原有编码,用法://处理编码String newStr = GetEncode.transcode(oldStr);

Global site tag (gtag.js) - Google Analytics