`
schy_hqh
  • 浏览: 558259 次
  • 性别: Icon_minigender_1
社区版块
存档分类
最新评论

(IO)编码表和乱码

 
阅读更多

ASCII  美国标准信息交换码 

用1个字节的7位来表示,最高位未使用(为0)

 

ISO8859-1 拉丁码表/欧洲码表

用1个字节的8位表示

 

GB2312  中国的码表

 

GBK   升级后的码表,加入了更多的中文字符

 

Unicode 国际标准编码表,表示各个国家的文字

每个字符(英文字符,汉字等)都用固定的2个字节来表示

 

UTF-8   1个中文,用3个字节表示

对Unicode的改进,能用1个字节存的就用1个字节存,需要2个字节存的就用2个字节。。。

 

操作字符串时,如果没有指定编码格式,则采用平台相关的编码进行处理。

FileWriter使用的是平台默认的编码表

如果要指定具体的编码,只能用转化流:InputStreamReader  OutputStreamWriter

 

 

由于能够解析中文编码表不唯一,GBK、UTF-8都对中文进行了收录

编码、解码时如果使用的码表不一致,就会导致字符乱码的问题

 

 使用指定码表进行编码、解码

package com.gc.encode;

import java.io.UnsupportedEncodingException;
import java.util.Arrays;

public class CharsetDemo {
	public static void main(String[] args) throws UnsupportedEncodingException {
		
		String str = "你好";
		
		useDefaultCharset(str);//[-28, -67, -96, -27, -91, -67]
		useCharset(str,"GBK");//[-60, -29, -70, -61]
		useCharset(str,"GB2312");//[-60, -29, -70, -61]
		useCharset(str,"GB18030");//[-60, -29, -70, -61]
		useCharset(str,"UTF-8");//[-28, -67, -96, -27, -91, -67]
		
	}
	
	/**
	 * 平台默认编码表进行处理
	 */
	private static void useDefaultCharset(String str) {
		byte[] bytes = str.getBytes();
		System.out.println(Arrays.toString(bytes));
		
		String decodeStr = new String(bytes);
		System.out.println(decodeStr);
	}
	
	/**
	 * 指定编码表与解码表
	 */
	private static void useCharset(String str, String charset) throws UnsupportedEncodingException {
		//使用指定码表进行编码
		byte[] bytes = str.getBytes(charset);
		System.out.println(Arrays.toString(bytes));
		
		//使用平台默认码表解码,可能产生乱码
		String decodeStr = new String(bytes);
		System.out.println(decodeStr);//当以GBK/GB2312/GB18030编码,而用UTF-8解码时,就会产生乱码
		
		//使用与编码时相同的码表进行解码---不会产生乱码
		String decodeStr2 = new String(bytes,charset);
		System.out.println(decodeStr2);//你好
	}
}

 

解码时使用的码表错了,可以还原数据的情况

package com.gc.encode;

import java.io.UnsupportedEncodingException;
import java.util.Arrays;

public class CharsetDemo {
	
	/**
	 *  解码时用ISO8859-1码表,可以还原字节数组 
	 */
	public static void main(String[] args) throws UnsupportedEncodingException {
		
		String str = "你好";
		
		//使用GBK编码
		byte[] bytes = str.getBytes("GBK");
		
		
		/**服务器会自动使用默认的ISO8859-1对字符串进行解码-----出现乱码*/
		/**为什么服务器用ISO8859-1进行解码:因为它可以对美国和欧洲的字符进行解析*/
		/**ISO8859-1对中文不支持,所以产生乱码*/
		String temp = new String(bytes,"ISO8859-1");
		System.out.println("GBK-->ISO8859-1:"+temp);//ÄãºÃ
		
		/**解决:还原字节数组,使用GBK表进行解码,得到正确的字符*/
		//将乱码还原为字节数组
		byte[] recoverBytes = temp.getBytes("ISO8859-1");
		//使用GBK对字节数组重新进行解码
		String recoverStr = new String(recoverBytes,"GBK");
		System.out.println("乱码-->ISO8859-1-->GBK:"+recoverStr);//你好
	}
	
}

 

解码时使用的码表错了,无法还原数据的情况

package com.gc.encode;

import java.io.UnsupportedEncodingException;
import java.util.Arrays;

public class CharsetDemo {
	
	/**
	 *  使用GBK编码,用UTF-8解码---乱码
	 *  无法将乱码转换为初始的字节数组
	 *  需要杜绝这种情况的发生!!!
	 */
	public static void main(String[] args) throws UnsupportedEncodingException {
		
		String str = "你好";
		
		/**GBK编码*/
		byte[] bytes = str.getBytes("GBK");
		System.out.println(Arrays.toString(bytes));//[-60, -29, -70, -61]
		
		
		/**使用UTF-8对GBK进行解码---乱码---无法还原*/
		String temp = new String(bytes,"UTF-8");
		//-17, -65, -67为1组,出现了3次,数据无法还原了
		System.out.println(Arrays.toString(temp.getBytes()));//[-17, -65, -67, -17, -65, -67, -17, -65, -67]
		System.out.println("GBK-->UTF-8:"+temp);//GBK-->UTF-8:���
		
		/**由于数据的丢失,乱码将无法无法还原到使用UTF-8编码前的字节数组*/
		byte[] recoverBytes = temp.getBytes("UTF-8");
		String recoverStr = new String(recoverBytes,"GBK");
		System.out.println("乱码-->UTF-8-->GBK:"+recoverStr);//乱码-->UTF-8-->GBK:锟斤拷锟�
	}
	
}

 

分享到:
评论

相关推荐

    IO流pdf宝典

    字符流在内部使用字节流,并且会根据指定的编码表将字节转换成字符。 #### 五、使用流时需要注意的事项 1. **资源管理**:确保所有打开的流最终都被正确关闭,避免资源泄露。 2. **异常处理**:正确处理可能出现的...

    SSH框架解决中文乱码

    - **Oracle**:确保数据库和表的字符集设置为支持中文的编码,如`AL32UTF8`。 - **连接池配置**:在数据库连接池的配置文件中指定正确的字符集。 ```properties # 示例:使用Druid连接池 druid.url=jdbc:oracle:...

    jsp乱码解决的一些技巧

    - 对于MySQL数据库,可以通过设置数据库、表和字段的字符集来避免乱码。例如创建数据库时可以指定字符集为UTF-8: ```sql CREATE DATABASE mydb CHARACTER SET utf8 COLLATE utf8_general_ci; ``` #### 四、...

    java乱码解决方案

    乱码解决方案主要涉及正确设置字符编码,确保数据在输入、处理和输出过程中的编码一致性。 ### 一、理解乱码原因 乱码的根本原因是字符编码不匹配或编码转换错误。例如,当一个按UTF-8编码的字符串被误以为是ISO-...

    C语言开发的工具库,包括常用的字符串解析、数据结构、日志库、异步IO线程等.zip

    了解字符编码原理,能够正确地进行编码转换,避免乱码问题。 7. 错误处理和内存管理:C语言中,程序员需要手动管理内存,因此理解malloc、calloc、realloc和free等函数是必要的。同时,库中可能提供了错误处理机制...

    java中FileOutputStream中文乱码问题解决办法

    解决`FileOutputStream`中文乱码问题的这种方法不仅适用于UTF-8编码,也可以适应其他字符编码,只需要在创建`OutputStreamWriter`时传入相应的编码名称即可。在实际开发中,为了程序的健壮性,应当始终使用try-with-...

    C#解析csv,解决中文编码的一个代码例子

    对于中文这样的非ASCII字符,如果不正确地处理编码,可能会导致乱码。在C#中,我们可以使用内置的`StreamReader`类或第三方库来解析CSV文件,并解决中文编码问题。本文将详细介绍如何在C#中解析包含中文的CSV文件。 ...

    JAVA主键随机+SELECT联动+数据库随机取数+F5刷新+字符编码乱码

    如果是后者,可能是一个CSV或JSON文件,需要通过Java的IO流读取并解析数据,可能还需要处理字符编码问题以避免乱码。 综上所述,这个主题涵盖了Java开发中的多个方面,包括数据库操作、前端交互以及字符编码处理,...

    java Io流总结(毕向东)

    而**字符流**读取时,可能需要读取一个或多个字节,并根据指定的编码表将它们转换成字符。 2. **字节流**可以处理任何类型的数据,如图像、音频、视频等;而**字符流**主要用于处理文本数据。 因此,在处理纯文本...

    Struts+Hibernate+MyEclipse+Tomcat+MySQL的乱码之解决篇

    - 对于表和字段的字符集,也可以按照类似的方式进行设置。 ### 总结 通过以上步骤,我们可以有效地解决Struts + Hibernate + MyEclipse + Tomcat + MySQL环境中出现的乱码问题。关键是确保各个环节都使用相同的字符...

    Io学习总结

    字符流在处理文本数据时,会先查找指定的字符编码表(如 ASCII、ISO8859-1、GBK 或 Unicode),获取对应的二进制数据,然后再进行操作。这样可以避免因编码不一致导致的乱码问题。对于纯文本数据,推荐使用字符流;...

    asp.net导出Excel乱码的原因及解决方法

    通过确保响应内容、头部和数据源的编码一致性,以及适配目标环境的编码需求,可以有效地避免乱码问题。在实际开发中,还应注意在不同环节检查和调试,确保每个环节都正确处理了字符编码,从而保证数据的完整性和...

    如何正确的导出符号表-PLC学习笔记

    2. 编码问题:导出的文件应使用通用的编码格式,如UTF-8或ANSI编码,避免因编码不兼容导致乱码问题。 3. 数据对齐:确保导出的符号表中数据在Excel中的对齐正确,避免出现数据错位。这通常需要在导出前设置好适当的...

    关于字符集编码

    字符编码和解码的过程类似于加密和解密,如果解码规则错误,可能导致字符显示错误或出现乱码。 ASCII编码是最早也是最通用的字符编码标准之一,主要用于显示现代英语。它采用7位二进制数来表示一个字符,共有128个...

    Java关于IO流的全面介绍

    - 字符流在读取时,会根据指定的字符编码表(如UTF-8,GBK等)将字节转换为字符。由于字符流是基于Unicode编码的,因此它更适合处理文本数据,特别是跨平台的文本文件。 在实际应用中,如果处理的是纯文本数据,...

    吉林大学数据结构PTA上机题

    如果中文注释乱码,用GBK格式打开后不再乱码再用UTF-8格式保存即可。 为后来者提供一些参考,祝上机愉快!上机顺利! 1. spfa 算法判断负环以及任意两点间最短路径可负权 2. 表达式求值(中缀转后缀用栈实现) 3...

    day09-字节缓冲流&字符流1

    `BufferedOutputStream`和`BufferedInputStream`是Java IO库中的核心类,它们分别用于增强字节输出流和字节输入流的性能。通过在输出和输入流上添加缓冲机制,程序可以一次性处理更多数据,减少对底层系统的调用次数...

    binhbo12456.github.io

    描述中的"你好xjn ckao` cak pn nek :heart_suit:"似乎是一种问候,其中包含了乱码或非标准字符,这可能是因为编码问题或者故意为之的加密或玩笑。"heart_suit"是扑克牌中的红心符号,通常用于表达友好或爱意。 ...

    Java操作PDF和EXCL表格及其字体包

    本文将详细介绍使用Java中的两个关键库——Apache POI和iText,来实现对这两种文件格式的操作,并解决PDF输出可能出现的乱码问题。 首先,Apache POI是一个开源库,专门用于读写Microsoft Office格式的文件,如...

Global site tag (gtag.js) - Google Analytics