日文编码小记

xifanlou

浏览: 29702 次
性别:
来自: 南京

最近访客更多访客>>

博主相关

博客

微博

相册

留言

关于我

文章分类

全部博客 (32)

社区版块

存档分类

Windows 互联网 EXT 网络应用 OS

首先声明以下，这篇note里有几处我引用了别人的帖子。
UTF-8简介：
UTF8并不算是一种电脑编码，而是一种储存和传送的格式，如前所述，每个Unicode/UCS字符都以 2或4个bytes来储存，看看以下的比较：
以"I am Chinese"为例
用ANSI储存：                             12 Bytes
用Unicode/UCS2储存：             24 Bytes + 2 Bytes(header)
用UCS4储存：                             48 Bytes + 4Bytes(header)
以"我是中国人"为例
用ANSI储存：                     10 Bytes（GB2312）
用Unicode/UCS2储存：     10 Bytes + 2 Bytes(header)
用UCS4储存：                     20 Bytes + 4 Bytes(header)

由此可见直接以Unicode/UCS的原始形式来储存是一种极大的浪费，而且也不利于互联网的传输(中文稍为合算一点^_^)。
有见及此，Unicode/UCS的压缩形式－－UTF8出现了，套用官方网站的首句话『UTF-8 stands for UnicodeTransformation Format-8. It is an octet (8-bit) lossless encoding of Unicodecharacters.』，由于UTF也适用于编码UCS，故亦可称为『UCS transformation formats (UTF)』
UTF8是以8bits即1Bytes为编码的最基本单位，当然也可以有基于16bits和32bits的形式，分别称为UTF16和UTF32，但目前用得不多，而UTF8则被广泛应用在文件储存和网络传输中。
===============================以上引用别人==================================
UTF-8原理
以日文字符：り举例说明。
其unicode编码是0x308A，二进制形式则是：0011 0000 1000 1010
关于unicode可参考官方网站：http://www.unicode.org/charts/PDF/U3040.pdf
UTF-8码段是这样的：

0xxxxxxx
(00-7f) 7bit
110yyyyx 10xxxxxx
(c0-df)(80-bf) 11bit
1110yyyy 10yxxxxx 10xxxxxx
(e0-ef)(80-bf)(80-bf) 16bit
11110yyy 10yyxxxx 10xxxxxx 10xxxxxx
(f0-f7)(80-bf)(80-bf)(80-bf) 21bit
111110yy 10yyyxxx 10xxxxxx 10xxxxxx 10xxxxxx
(f8-fb)(80-bf)(80-bf)(80-bf)(80-bf) 26bit
1111110y 10yyyyxx 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx
(fc-fd)(80-bf)(80-bf)(80-bf)(80-bf)(80-bf) 31bit

中文和日文一般都是3 Byte的
所以将り的unicode（0011 0000 1000 1010）填入
1110yyyy 10yxxxxx 10xxxxxx
结果就是：11100011 10000010 10001010
以16进制表示就是：0xe3828a

日语文字与UTF-8
unicode.org网站上查的Code Charts中日文字符的unicode范围：
（参考：http://www.unicode.org/charts/）
Hiragana：3040~309f
Katakana：30a0~30FF
上面这两种是连续的，我计算了一下，他们对应的UTF8码范围是0xe38100~0xe383ff
Katakana Phonetic Ext.:31f0~31ff,对应的UTF-8码范围是0xe387b0~e387bf
Halfwidth Katakana：ff00-ffee，对应UTF-8码范围是0xefbc80~0xefbfbf
维基百科上，日文UTF8字段定义如下：
（http://ja.wikipedia.org/wiki/UTF-8）

日本語の文字とバイト数
1バイト
ASCIIの全て(実装系によりJIS X 0201/Windows-31Jの当該エリアの場合あり)
2バイト
JIS X 0208の非漢字の一部
3バイト
JIS X 0201の8ビット文字(半角カタカナ)
JIS X 0208の漢字エリアの全て
JIS X 0212の漢字エリアの全て
JIS X 0213の第3・4水準漢字の一部
Windows-31Jの拡張文字エリア全て
4バイト
UnicodeのBMP以外全て
JIS X 0213の第3・4水準漢字の一部

注：
————————————————————————————————————————
JIS X 0201は、日本工業規格(JIS) の制定している文字コード規格で、初版は1969年6月1日の制定であり、現存のJISにおける最も古い文字コードである。
JIS X 0213はJIS X 0208:1997を拡張した日本語の文字コード規格。
JIS X 0208は、日本語表記、地名、人名などで用いられる6,879図形文字を含む、主として情報交換用の2バイト符号化文字集合を規定する日本工業規格である。
———————————————————————————————————————————————
排除这些生僻的日语文字，我们常用的大都是3byte的。
有关日文unicode也可以参考：
http://www.rikai.com/library/kanjitables/kanji_codes.unicode.shtml

SJIS
在日文OS中实装的一般都是SJIS，Windows系统上的MS932其实就是SJIS，一般以两个byte表示一个日文字符。
附注：
日语shift-JIS编码表：http://www.rikai.com/library/kanjitables/kanji_codes.sjis.shtml

Byte数计算
根据字段标示来计算
代码因为商业原因，我还是不提供的好，^_^

分享到：