UTF-8字符集

liushilang

浏览: 91597 次
性别:
来自: 上海

最近访客更多访客>>

bfs198

limengyu

zengrui

Kevin-zp

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

博客分类：

java编程

utf-8

如果UNICODE字符由2个字节表示，则编码成UTF-8很可能需要3个字节。而如果UNICODE字符由4个字节表示，则编码成UTF-8可能需要6个字节。用4个或6个字节去编码一个UNICODE字符可能太多了，但很少会遇到那样的UNICODE字符。 UTF-8转换表表示如下：

UNICODE	bit数	UTF-8	byte数	备注
0000 0000 ~ 0000 007F	0~7	0XXX XXXX	1
0000 0080 ~ 0000 07FF	8~11	110X XXXX 10XX XXXX	2
0000 0800 ~ 0000 FFFF	12~16	1110XXXX 10XX XXXX 10XX XXXX	3	基本定义范围：0~FFFF
0001 0000 ~ 001F FFFF	17~21	1111 0XXX 10XX XXXX 10XX XXXX 10XX XXXX	4	Unicode6.1定义范围：0~10 FFFF
0020 0000 ~ 03FF FFFF	22~26	1111 10XX 10XX XXXX 10XX XXXX 10XX XXXX 10XX XXXX	5
0400 0000 ~ 7FFF FFFF	27~31	1111 110X 10XX XXXX 10XX XXXX 10XX XXXX 10XX XXXX 10XX XXXX	6

实际表示ASCII字符的UNICODE字符，将会编码成1个字节，并且UTF-8表示与ASCII字符表示是一样的。所有其他的UNICODE字符转化成UTF-8将需要至少2个字节。每个字节由一个换码序列开始。第一个字节由唯一的换码序列，由n位连续的1加一位0组成, 首字节连续的1的个数表示字符编码所需的字节数。

示例

UNICODE uCA(11001010) 编码成UTF-8将需要2个字节：

uCA -> C3 8A

UNICODE uF03F (11110000 00111111) 编码成UTF-8将需要3个字节:

u F03F -> EF 80 BF

Unicode 16进制	Unicode 2进制	bit数	UTF-8 2进制	UTF-8 16进制
CA	1100 1010	8	1100 00111000 1010	C3 8A
F0 3F	1111 0000 0011 1111	16	111011111000 00001011 1111	EF 80 BF

由上分析可以看到，UNICODE到UTF-8的转换就是先确定编码所需要的UTF-8编码字节数，然后用UNICODE编码位从低位到高位依次填入上面表示为x的位上，不足的高位以0补充。

分享到：

Java中Unicode | Java getBytes方法详解（字符集问题）

2013-04-25 14:30
浏览 898
评论(0)
分类:编程语言
查看更多

发表评论

您还没有登录,请您登录后再发表评论

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

UTF-8字符集

评论

发表评论

相关推荐

最近访客 更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

UTF-8字符集

评论

发表评论

相关推荐

Dozer使用总结

动态设定Spring中bean的属性

JQuery的Ajax跨域请求的解决方案

Session机制

MINA之心跳协议运用

HttpURLConnection模拟浏览器http请求【转】

C3P0 与 DBCP 的区别

Apache Mina 网络通信

spring 监听器 IntrospectorCleanupListener简介

Eclipse maven构建springmvc项目

Unicode是一种字符编码规范

Java中Unicode

Java getBytes方法详解（字符集问题）

Java中的byte

Java byte 位移操作 注意事项

学习ActiveMQ

最近访客更多访客>>

spring 监听器　IntrospectorCleanupListener简介

Java byte 位移操作注意事项