各種語系的unicode對應以及local編碼方式(zz)

summerbell

浏览: 816794 次
性别:
来自: 武汉

最近访客更多访客>>

wangweihuamy

icnd

wyhappiness

玫瑰步道

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

博客分类：

研发技术综合

各種語系的unicode對應以及local編碼方式(zz)

另：或参见：

http://jrgraphix.net/research/unicode_blocks.php?block=87

另：在unicode里，\u0800-\u9FFF为中、韩、日字符。其中，中文的范围：\u4e00-\u9fa5，日文在\u0800-\u4e00，韩文为\u9fa5以上。

一.英文

Unicode範圍: 0041-005A, 0061-007A (若含數字與符號，則為0021-007E)

locale編碼: ANSI

1. ANSI

HTML charset: us-ascii

RTF charset: 0

編碼方式: 41-5A, 61-7A (若含數字與符號，則為21-7E)

二.中文

Unicode範圍: 2E80-2FDF, 3400-4DBF, 4E00-9FFF

備註：F900-FAFF的相容型中文字碼，應轉至一般的中文字碼處理，31A0-31BF則為注音符號表

locale編碼: 繁體中文有BIG5, CNS, 簡體中文為GB

1.BIG5

HTML charset: big5

RTF charset: 136

編碼方式: 雙byte語系, byte 1範圍為A1-FE, byte 2範圍為40-7E, A1-FE

備註：big5+目前幾乎無人使用，故省略不提

2.CNS

HTML charset: 無 (應為euc-tw或iso-2022-cn, 但IE並不支援)

RTF charset: 無

編碼方式: 多byte語系

byte 1範圍為A1-FE時為2 byte編碼, byte 2範圍為A1-FE

byte 1為8E時, 為4 byte編碼, byte 2範圍為A1-B0, byte 3與byte 4範圍均為A1-FE

備註: 4 byte編碼時, byte 2為A1與2 byte編碼之字碼相同 (即第1字面), CNS目前只使用了7個字面, 因此byte 2實際使用範圍為A1-A7, 早期第15字面有放了一些字碼, 後來都已編入前7個字面內了

3.GB

HTML charset: gb2312, gbk, euc-cn

RTF charset: 134

編碼方式: 雙byte語系, byte 1範圍為81-FE, byte 2範圍為40-7E, 80-FE

三.日文

Unicode範圍: 3040-30FF, 31F0-31FF（混用中文字碼）

備註：FF00-FFEF有半形日文，應轉至一般日文字碼處理

locale編碼: Shift-JIS, EUC-JP

1.Shift-JIS

HTML charset: shift_jis, x-sjis, iso-2022-jp

RTF charset: 128

編碼方式: 單/雙byte語系

byte 1範圍為A1-DF時為1 byte編碼

byte 1範圍為81-9F, E0-EF時為2 byte編碼, byte 2範圍為40-7E, 80-FC

2.EUC-JP

HTML charset: euc-jp, x-euc-jp

RTF charset: 無

編碼方式: 多byte語系

byte 1為8E時, 為2 byte編碼, byte 2範圍為A1-DF

byte 1範圍為A1-FE時, 為2 byte編碼, byte 2範圍為A1-FE

byte 1為8F時為3 byte編碼, byte 2與byte 3範圍均為A1-FE

備註: IE不支援3 byte編碼部份

四.韓文

Unicode範圍: 1100-11FF, 3130-318F, AC00-D7AF（混用中文字碼）

備註：FF00-FFEF有半形韓文，應轉至一般韓文字碼處理

locale編碼: Johab, EUC-KR

1.Johab

HTML charset: johab

RTF charset: 130

編碼方式: 雙byte語系

byte 1範圍為84-D3時, byte 2範圍為41-7E, 81-FE

byte 1範圍為D8-DE, E0-FE時, byte 2範圍為31-7E, 91-FE

2.EUC-KR

HTML charset: euc-kr, iso-2022-kr

RTF charset: 129

編碼方式: 雙byte語系, byte 1範圍為A1-FE, byte 2範圍為A1-FE

五.阿拉伯文

Unicode範圍: 0600-06FF, 0750-077F

locale編碼: Windows

1.Windows

HTML charset: windows-1256

RTF charset: 178

編碼方式: 1 byte語系

六.泰文

Unicode範圍: 0E00-0E7F

locale編碼: Windows

1.Windows

HTML charset: windows-874

RTF charset: 222

編碼方式: 1 byte語系

七.俄文

Unicode範圍: 0400-052F (西里爾文)

locale編碼: Windows, ISO, KOI8-U, KOI8-R

1.Windows

HTML charset: windows-1251

RTF charset: 204

編碼方式: 1 byte語系

2.ISO

HTML charset: iso-8859-5

RTF charset: 無

編碼方式: 1 byte語系

3.KOI8-U

HTML charset: koi8-u

RTF charset: 無

編碼方式: 1 byte語系

4.KOI8-R

HTML charset: koi8-r

RTF charset: 無

編碼方式: 1 byte語系

八.德文/法文

Unicode範圍: 00C0-00FF（混用英文字母）

備註：字母上面有2點者為德文, 字母上面有重音符號者為法文

locale編碼: ANSI

1.ANSI

HTML charset: iso-8859-1, windows-1252

RTF charset: 0

編碼方式: 1 byte語系

九.印尼文/馬來西亞文

Unicode範圍: 同英文, 為拼音語系

locale編碼: 同英文

十.其他

希臘文,土耳其文,希伯來文,中歐拉丁語文,越南文等尚在研究中...

十.中歐語系

Unicode範圍（拉丁語文）: 00C0-02AF, 1E00-1EFF（混用英文）

locale編碼: Windows, ISO

1.Windows

HTML charset: windows-1250

RTF charset: 238

編碼方式: 1 byte語系

2.ISO

HTML charset: iso-8859-2

RTF charset: 無

編碼方式: 1 byte語系

十一.希臘文

Unicode範圍: 0370-03FF, 1F00-1FFF, 2C80-2CFF

locale編碼: Windows

1.Windows

HTML charset: windows-1253, iso8859-7 (後者IE不支援)

RTF charset: 161

編碼方式: 1 byte語系

十二.希伯來文

Unicode範圍: 0590-05FF

locale編碼: Windows

1.Windows

HTML charset: windows-1255, iso8859-8 (後者IE不支援)

RTF charset: 177

編碼方式: 1 byte語系

十三.土耳其文

Unicode範圍: 同拉丁語文（混用英文）

locale編碼: Windows

1.Windows

HTML charset: windows-1254, iso8859-9 (後者IE不支援)

RTF charset: 162

編碼方式: 1 byte語系

分享到：

Unicode语系字碼分佈表(zz) | 黑莓真的被ElcomSoft破解了？RIM有非公开 ...

2012-08-15 11:48
浏览 2750
评论(0)
分类:行业应用
查看更多

发表评论

您还没有登录,请您登录后再发表评论

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论