ASCII 美国标准信息交换码
用1个字节的7位来表示,最高位未使用(为0)
ISO8859-1 拉丁码表/欧洲码表
用1个字节的8位表示
GB2312 中国的码表
GBK 升级后的码表,加入了更多的中文字符
Unicode 国际标准编码表,表示各个国家的文字
每个字符(英文字符,汉字等)都用固定的2个字节来表示
UTF-8 1个中文,用3个字节表示
对Unicode的改进,能用1个字节存的就用1个字节存,需要2个字节存的就用2个字节。。。
操作字符串时,如果没有指定编码格式,则采用平台相关的编码进行处理。
FileWriter使用的是平台默认的编码表
如果要指定具体的编码,只能用转化流:InputStreamReader OutputStreamWriter
由于能够解析中文编码表不唯一,GBK、UTF-8都对中文进行了收录
编码、解码时如果使用的码表不一致,就会导致字符乱码的问题
使用指定码表进行编码、解码
package com.gc.encode; import java.io.UnsupportedEncodingException; import java.util.Arrays; public class CharsetDemo { public static void main(String[] args) throws UnsupportedEncodingException { String str = "你好"; useDefaultCharset(str);//[-28, -67, -96, -27, -91, -67] useCharset(str,"GBK");//[-60, -29, -70, -61] useCharset(str,"GB2312");//[-60, -29, -70, -61] useCharset(str,"GB18030");//[-60, -29, -70, -61] useCharset(str,"UTF-8");//[-28, -67, -96, -27, -91, -67] } /** * 平台默认编码表进行处理 */ private static void useDefaultCharset(String str) { byte[] bytes = str.getBytes(); System.out.println(Arrays.toString(bytes)); String decodeStr = new String(bytes); System.out.println(decodeStr); } /** * 指定编码表与解码表 */ private static void useCharset(String str, String charset) throws UnsupportedEncodingException { //使用指定码表进行编码 byte[] bytes = str.getBytes(charset); System.out.println(Arrays.toString(bytes)); //使用平台默认码表解码,可能产生乱码 String decodeStr = new String(bytes); System.out.println(decodeStr);//当以GBK/GB2312/GB18030编码,而用UTF-8解码时,就会产生乱码 //使用与编码时相同的码表进行解码---不会产生乱码 String decodeStr2 = new String(bytes,charset); System.out.println(decodeStr2);//你好 } }
解码时使用的码表错了,可以还原数据的情况
package com.gc.encode; import java.io.UnsupportedEncodingException; import java.util.Arrays; public class CharsetDemo { /** * 解码时用ISO8859-1码表,可以还原字节数组 */ public static void main(String[] args) throws UnsupportedEncodingException { String str = "你好"; //使用GBK编码 byte[] bytes = str.getBytes("GBK"); /**服务器会自动使用默认的ISO8859-1对字符串进行解码-----出现乱码*/ /**为什么服务器用ISO8859-1进行解码:因为它可以对美国和欧洲的字符进行解析*/ /**ISO8859-1对中文不支持,所以产生乱码*/ String temp = new String(bytes,"ISO8859-1"); System.out.println("GBK-->ISO8859-1:"+temp);//ÄãºÃ /**解决:还原字节数组,使用GBK表进行解码,得到正确的字符*/ //将乱码还原为字节数组 byte[] recoverBytes = temp.getBytes("ISO8859-1"); //使用GBK对字节数组重新进行解码 String recoverStr = new String(recoverBytes,"GBK"); System.out.println("乱码-->ISO8859-1-->GBK:"+recoverStr);//你好 } }
解码时使用的码表错了,无法还原数据的情况
package com.gc.encode; import java.io.UnsupportedEncodingException; import java.util.Arrays; public class CharsetDemo { /** * 使用GBK编码,用UTF-8解码---乱码 * 无法将乱码转换为初始的字节数组 * 需要杜绝这种情况的发生!!! */ public static void main(String[] args) throws UnsupportedEncodingException { String str = "你好"; /**GBK编码*/ byte[] bytes = str.getBytes("GBK"); System.out.println(Arrays.toString(bytes));//[-60, -29, -70, -61] /**使用UTF-8对GBK进行解码---乱码---无法还原*/ String temp = new String(bytes,"UTF-8"); //-17, -65, -67为1组,出现了3次,数据无法还原了 System.out.println(Arrays.toString(temp.getBytes()));//[-17, -65, -67, -17, -65, -67, -17, -65, -67] System.out.println("GBK-->UTF-8:"+temp);//GBK-->UTF-8:��� /**由于数据的丢失,乱码将无法无法还原到使用UTF-8编码前的字节数组*/ byte[] recoverBytes = temp.getBytes("UTF-8"); String recoverStr = new String(recoverBytes,"GBK"); System.out.println("乱码-->UTF-8-->GBK:"+recoverStr);//乱码-->UTF-8-->GBK:锟斤拷锟� } }
相关推荐
字符流在内部使用字节流,并且会根据指定的编码表将字节转换成字符。 #### 五、使用流时需要注意的事项 1. **资源管理**:确保所有打开的流最终都被正确关闭,避免资源泄露。 2. **异常处理**:正确处理可能出现的...
- **Oracle**:确保数据库和表的字符集设置为支持中文的编码,如`AL32UTF8`。 - **连接池配置**:在数据库连接池的配置文件中指定正确的字符集。 ```properties # 示例:使用Druid连接池 druid.url=jdbc:oracle:...
- 对于MySQL数据库,可以通过设置数据库、表和字段的字符集来避免乱码。例如创建数据库时可以指定字符集为UTF-8: ```sql CREATE DATABASE mydb CHARACTER SET utf8 COLLATE utf8_general_ci; ``` #### 四、...
乱码解决方案主要涉及正确设置字符编码,确保数据在输入、处理和输出过程中的编码一致性。 ### 一、理解乱码原因 乱码的根本原因是字符编码不匹配或编码转换错误。例如,当一个按UTF-8编码的字符串被误以为是ISO-...
了解字符编码原理,能够正确地进行编码转换,避免乱码问题。 7. 错误处理和内存管理:C语言中,程序员需要手动管理内存,因此理解malloc、calloc、realloc和free等函数是必要的。同时,库中可能提供了错误处理机制...
解决`FileOutputStream`中文乱码问题的这种方法不仅适用于UTF-8编码,也可以适应其他字符编码,只需要在创建`OutputStreamWriter`时传入相应的编码名称即可。在实际开发中,为了程序的健壮性,应当始终使用try-with-...
对于中文这样的非ASCII字符,如果不正确地处理编码,可能会导致乱码。在C#中,我们可以使用内置的`StreamReader`类或第三方库来解析CSV文件,并解决中文编码问题。本文将详细介绍如何在C#中解析包含中文的CSV文件。 ...
如果是后者,可能是一个CSV或JSON文件,需要通过Java的IO流读取并解析数据,可能还需要处理字符编码问题以避免乱码。 综上所述,这个主题涵盖了Java开发中的多个方面,包括数据库操作、前端交互以及字符编码处理,...
而**字符流**读取时,可能需要读取一个或多个字节,并根据指定的编码表将它们转换成字符。 2. **字节流**可以处理任何类型的数据,如图像、音频、视频等;而**字符流**主要用于处理文本数据。 因此,在处理纯文本...
- 对于表和字段的字符集,也可以按照类似的方式进行设置。 ### 总结 通过以上步骤,我们可以有效地解决Struts + Hibernate + MyEclipse + Tomcat + MySQL环境中出现的乱码问题。关键是确保各个环节都使用相同的字符...
字符流在处理文本数据时,会先查找指定的字符编码表(如 ASCII、ISO8859-1、GBK 或 Unicode),获取对应的二进制数据,然后再进行操作。这样可以避免因编码不一致导致的乱码问题。对于纯文本数据,推荐使用字符流;...
通过确保响应内容、头部和数据源的编码一致性,以及适配目标环境的编码需求,可以有效地避免乱码问题。在实际开发中,还应注意在不同环节检查和调试,确保每个环节都正确处理了字符编码,从而保证数据的完整性和...
2. 编码问题:导出的文件应使用通用的编码格式,如UTF-8或ANSI编码,避免因编码不兼容导致乱码问题。 3. 数据对齐:确保导出的符号表中数据在Excel中的对齐正确,避免出现数据错位。这通常需要在导出前设置好适当的...
字符编码和解码的过程类似于加密和解密,如果解码规则错误,可能导致字符显示错误或出现乱码。 ASCII编码是最早也是最通用的字符编码标准之一,主要用于显示现代英语。它采用7位二进制数来表示一个字符,共有128个...
- 字符流在读取时,会根据指定的字符编码表(如UTF-8,GBK等)将字节转换为字符。由于字符流是基于Unicode编码的,因此它更适合处理文本数据,特别是跨平台的文本文件。 在实际应用中,如果处理的是纯文本数据,...
如果中文注释乱码,用GBK格式打开后不再乱码再用UTF-8格式保存即可。 为后来者提供一些参考,祝上机愉快!上机顺利! 1. spfa 算法判断负环以及任意两点间最短路径可负权 2. 表达式求值(中缀转后缀用栈实现) 3...
`BufferedOutputStream`和`BufferedInputStream`是Java IO库中的核心类,它们分别用于增强字节输出流和字节输入流的性能。通过在输出和输入流上添加缓冲机制,程序可以一次性处理更多数据,减少对底层系统的调用次数...
描述中的"你好xjn ckao` cak pn nek :heart_suit:"似乎是一种问候,其中包含了乱码或非标准字符,这可能是因为编码问题或者故意为之的加密或玩笑。"heart_suit"是扑克牌中的红心符号,通常用于表达友好或爱意。 ...
本文将详细介绍使用Java中的两个关键库——Apache POI和iText,来实现对这两种文件格式的操作,并解决PDF输出可能出现的乱码问题。 首先,Apache POI是一个开源库,专门用于读写Microsoft Office格式的文件,如...