`
junfeng2010
  • 浏览: 9260 次
  • 性别: Icon_minigender_1
  • 来自: 深圳
文章分类
社区版块
存档分类
最新评论

java utf-8编码中文占三个字节

    博客分类:
  • java
阅读更多

System.out.println("中".getBytes("utf-8").length);
		for(byte b:"中".getBytes("utf-8")){
			System.out.println(b);
		}
		System.out.println("中".getBytes("gb2312").length);
		for(byte b:"中".getBytes("gb2312")){
			System.out.println(b);
		}
		System.out.println("中".getBytes().length);
		for(byte b:"中".getBytes()){
			System.out.println(b);
		}
		
		/*3
		-28
		-72
		-83
		2
		-42
		-48
		2
		-42
		-48*/
		/**
		 * 中文用utf-8存占用32个字节,用gb2312存占2个字节
		 */
		
 
分享到:
评论
2 楼 junfeng2010 2011-08-03  
BackJoker 写道
具体去查一下UTF-8的编码资料,有的汉字是3个字节,有的汉字是4个字节


谢谢!你说的是对的。

占用3个字节的范围

U+2E80 - U+2EF3 : 0xE2 0xBA 0x80 - 0xE2 0xBB 0xB3 共 115 个
U+2F00 - U+2FD5 : 0xE2 0xBC 0x80 - 0xE2 0xBF 0x95 共 213 个
U+3005 - U+3029 : 0xE3 0x80 0x85 - 0xE3 0x80 0xA9 共 36 个
U+3038 - U+4DB5 : 0xE3 0x80 0xB8 - 0xE4 0xB6 0xB5 共 7549 个
U+4E00 - U+FA6A : 0xE4 0xB8 0x80 - 0xEF 0xA9 0xAA 共 44138 个
U+FA70 - U+FAD9 : 0xEF 0xA9 0xB0 - 0xEF 0xAB 0x99 共 105 个
合计: 52156 个

占用4个字节的范围

U+20000 - U+2FA1D : 0xF0 0xA0 0x80 0x80 - 0xF0 0xAF 0xA8 0x9D 共 64029 个
合计: 64029 个

1 楼 BackJoker 2011-08-02  
具体去查一下UTF-8的编码资料,有的汉字是3个字节,有的汉字是4个字节

相关推荐

    Java解决UTF-8的BOM问题

    在Java中,当我们从UTF-8编码的文本文件读取内容时,如果文件开头带有BOM,可能会导致程序错误解析字符串,因为BOM并不是实际的文本内容,而是编码的标记。例如,如果你使用Java的默认`BufferedReader`或者`Scanner`...

    Java避免UTF-8的csv文件打开中文出现乱码的方法

    如果需要兼容多个Excel版本,可以使用UTF-8编码格式,并在文件头部输出BOM,即0xEF 0xBB 0xBF这三个字节。 Java避免UTF-8的csv文件打开中文出现乱码的方法是使用UTF-16LE编码格式,并在文件头部输出BOM。同时,需要...

    java 编码 UTF-8、ISO-8859-1、GBK

    首先,UTF-8 是一种广泛使用的多字节编码,能够表示几乎所有的Unicode字符,包括中文。在Java中,UTF-8 支持国际化,是处理多种语言的理想选择,因为它具有良好的向后兼容性,并且通常不需要额外的转换。 ISO-8859-...

    判断文本文件是否为UTF-8编码

    如果文件以这三个字节开头,那么可以初步判断为UTF-8编码。但没有BOM的UTF-8文件也是存在的,所以这一步不能作为唯一依据。 2. **扫描字节序列**:遍历文件内容,检查字节序列是否符合UTF-8编码规则。对于多字节...

    JAVA字符编码:Unicode,ISO-8859-1,GBK,UTF-8编码及相互转换

    - **Unicode到UTF-8**: 同样以"a 中文"为例,转换为UTF-8编码后,字节数组为`0x61 0xE4 0xB8 0xAD 0xE6 0x96 0x87`。 - **UTF-8到Unicode**: 反向转换后,结果依然是"a 中文"。 ##### 3. Unicode与ISO-8859-1 - **...

    xml.rar_UTF XML_UTF-8编码_utf_utf-8_xml utf-8

    在"xml.rar_UTF XML_UTF-8编码_utf_utf-8_xml utf-8"这个压缩包中,我们主要探讨的是与XML文档相关的编码问题,特别是UTF-8编码。 UTF-8是一种广泛使用的Unicode字符编码方案。它能够表示Unicode标准中的所有字符,...

    utf-8 ansi 字符互转 工具

    例如“utf-8 ansi 字符互转 工具”就是这样一个软件,它能方便地帮助用户将文件或文本内容在UTF-8和ANSI编码之间进行转换。使用这类工具,用户通常只需选择输入文件、指定输出格式,然后点击转换按钮即可完成操作。 ...

    Java 程序转码(UTF-8)

    - **效率高**:对于英文字符,UTF-8只需要一个字节,对于其他常见字符,则需要两到三个字节。 - **国际通用**:广泛应用于Web页面和其他需要支持多种语言的应用程序中。 #### 三、Java中字符编码转换 在Java中,...

    java 读取服务器上的某个文件,并解决UTF-8 BOM文件的问号问题

    如果存在,可以跳过这三个字节,以避免影响后续的读取操作。 5. **读取和处理文件内容**: 使用`BufferedReader`的`readLine()`方法逐行读取文件。对于每一行,根据需求进行处理,比如存储、打印或解析。 6. **错误...

    UTF-8中文字符表

    - 对于中文字符,其Unicode值通常位于U+4E00至U+9FA5区间内,需要使用三个字节进行编码。 - 编码格式为`0b1110XXXX 10XXXXXX 10XXXXXX`,其中`XXXX`代表Unicode字符的实际值。 #### 四、中文字符实例分析 根据...

    字符转码,gb2312 usc2 ,utf-8

    例如,如果你从一个GB2312编码的文件读取数据,而你的系统或程序默认使用UTF-8编码,那么你需要进行转码以避免乱码问题。同样,当处理来自不同地区的文本数据时,可能需要将USC2编码的文件转换为UTF-8,以便在支持...

    GB2312-UTF-8编码批量转换

    在IT行业中,字符编码是...总之,"GBK-GB2312-UTF-8编码批量转换"是针对中文字符编码的兼容性问题,通过自动化工具或编程实现,确保文本在不同环境下的正确展示和传输。理解和掌握这些知识点对于处理中文数据至关重要。

    GBK与UTF-8之间的转换

    在GBK编码中,一个中文字符对应两个字节,而在UTF-8编码中,一个中文字符对应三个字节。因此,在转换过程中,需要手动将GBK编码的字节扩展成UTF-8编码的字节。 正确的转换方法是,首先将GBK编码的字符串转换成UTF-8...

    如何将文本转换为UTF-8码 .e.rar

    在处理文本文件时,尤其是在跨平台或者需要兼容不同系统的情况下,将文本文件转换为UTF-8编码格式是常见的需求。以下是一个详细的步骤指南,教你如何将文本文件转换为UTF-8编码。 1. **理解编码格式**: - ASCII:...

    UTF-8 UNICODE GBK 相互转换C源码

    1. UTF-8 to UNICODE:UTF-8编码的字符串需要解码为UNICODE,首先解析每个字节序列以确定字符的长度,然后根据字节顺序转换成16位的UNICODE值。 2. UNICODE to UTF-8:相反,我们需要将每个UNICODE字符转换为相应的...

    Quoted-printable 编码介绍、Quoted-printable编码解码转换方法

    1. 每个字节的值可以编码为三个字符,即一个等号“=”后跟两个十六进制数字(0-9或A-F),这表示该字节的数值。 2. 所有可打印的ASCII字符(十进制值范围为33到126)都可以直接用ASCII字符来表示,但等号“=”(十...

    Java判断文件的编码

    例如UTF-8编码的BOM为`EF BB BF`。 #### 判断文件编码的基本思路 判断文件编码的基本方法是读取文件的前几个字节,根据这些字节的特征来确定文件的编码类型。对于UTF-8、UTF-16等常见编码格式,可以通过检查特定的...

    GB2312UTF-8字符互转

    将UTF-8编码的"%%%"形式字符转换为中文,以及将中文转换为UTF-8的"%%%"形式,通常需要借助编程语言的特定函数或库来实现。例如,在Python中,可以使用`urllib.parse.unquote()`来解码"%%%"形式的字符串,使用`urllib...

    URL编码,Gb2312页面提交到Utf-8页面

    本文将深入探讨如何实现从Gb2312编码的网页向Utf-8编码网页的数据提交过程中的URL编码转换。Gb2312是一种广泛应用于中国大陆地区的字符编码标准,而UTF-8则因其能够支持全球绝大多数语言的特性,在互联网领域得到...

Global site tag (gtag.js) - Google Analytics