各種語系的unicode對應以及local編碼方式(zz)
另:或参见:
http://jrgraphix.net/research/unicode_blocks.php?block=87
另:在unicode里,\u0800-\u9FFF为中、韩、日字符。其中,中文的范围:\u4e00-\u9fa5,日文在\u0800-\u4e00,韩文为\u9fa5以上。
一.英文
Unicode範圍: 0041-005A, 0061-007A (若含數字與符號,則為0021-007E)
locale編碼: ANSI
1. ANSI
HTML charset: us-ascii
RTF charset: 0
編碼方式: 41-5A, 61-7A (若含數字與符號,則為21-7E)
二.中文
Unicode範圍: 2E80-2FDF, 3400-4DBF, 4E00-9FFF
備註:F900-FAFF的相容型中文字碼,應轉至一般的中文字碼處理,31A0-31BF則為注音符號表
locale編碼: 繁體中文有BIG5, CNS, 簡體中文為GB
1.BIG5
HTML charset: big5
RTF charset: 136
編碼方式: 雙byte語系, byte 1範圍為A1-FE, byte 2範圍為40-7E, A1-FE
備註:big5+目前幾乎無人使用,故省略不提
2.CNS
HTML charset: 無 (應為euc-tw或iso-2022-cn, 但IE並不支援)
RTF charset: 無
編碼方式: 多byte語系
byte 1範圍為A1-FE時為2 byte編碼, byte 2範圍為A1-FE
byte 1為8E時, 為4 byte編碼, byte 2範圍為A1-B0, byte 3與byte 4範圍均為A1-FE
備註: 4 byte編碼時, byte 2為A1與2 byte編碼之字碼相同 (即第1字面), CNS目前只使用了7個字面, 因此byte 2實際使用範圍為A1-A7, 早期第15字面有放了一些字碼, 後來都已編入前7個字面內了
3.GB
HTML charset: gb2312, gbk, euc-cn
RTF charset: 134
編碼方式: 雙byte語系, byte 1範圍為81-FE, byte 2範圍為40-7E, 80-FE
三.日文
Unicode範圍: 3040-30FF, 31F0-31FF(混用中文字碼)
備註:FF00-FFEF有半形日文,應轉至一般日文字碼處理
locale編碼: Shift-JIS, EUC-JP
1.Shift-JIS
HTML charset: shift_jis, x-sjis, iso-2022-jp
RTF charset: 128
編碼方式: 單/雙byte語系
byte 1範圍為A1-DF時為1 byte編碼
byte 1範圍為81-9F, E0-EF時為2 byte編碼, byte 2範圍為40-7E, 80-FC
2.EUC-JP
HTML charset: euc-jp, x-euc-jp
RTF charset: 無
編碼方式: 多byte語系
byte 1為8E時, 為2 byte編碼, byte 2範圍為A1-DF
byte 1範圍為A1-FE時, 為2 byte編碼, byte 2範圍為A1-FE
byte 1為8F時為3 byte編碼, byte 2與byte 3範圍均為A1-FE
備註: IE不支援3 byte編碼部份
四.韓文
Unicode範圍: 1100-11FF, 3130-318F, AC00-D7AF(混用中文字碼)
備註:FF00-FFEF有半形韓文,應轉至一般韓文字碼處理
locale編碼: Johab, EUC-KR
1.Johab
HTML charset: johab
RTF charset: 130
編碼方式: 雙byte語系
byte 1範圍為84-D3時, byte 2範圍為41-7E, 81-FE
byte 1範圍為D8-DE, E0-FE時, byte 2範圍為31-7E, 91-FE
2.EUC-KR
HTML charset: euc-kr, iso-2022-kr
RTF charset: 129
編碼方式: 雙byte語系, byte 1範圍為A1-FE, byte 2範圍為A1-FE
五.阿拉伯文
Unicode範圍: 0600-06FF, 0750-077F
locale編碼: Windows
1.Windows
HTML charset: windows-1256
RTF charset: 178
編碼方式: 1 byte語系
六.泰文
Unicode範圍: 0E00-0E7F
locale編碼: Windows
1.Windows
HTML charset: windows-874
RTF charset: 222
編碼方式: 1 byte語系
七.俄文
Unicode範圍: 0400-052F (西里爾文)
locale編碼: Windows, ISO, KOI8-U, KOI8-R
1.Windows
HTML charset: windows-1251
RTF charset: 204
編碼方式: 1 byte語系
2.ISO
HTML charset: iso-8859-5
RTF charset: 無
編碼方式: 1 byte語系
3.KOI8-U
HTML charset: koi8-u
RTF charset: 無
編碼方式: 1 byte語系
4.KOI8-R
HTML charset: koi8-r
RTF charset: 無
編碼方式: 1 byte語系
八.德文/法文
Unicode範圍: 00C0-00FF(混用英文字母)
備註:字母上面有2點者為德文, 字母上面有重音符號者為法文
locale編碼: ANSI
1.ANSI
HTML charset: iso-8859-1, windows-1252
RTF charset: 0
編碼方式: 1 byte語系
九.印尼文/馬來西亞文
Unicode範圍: 同英文, 為拼音語系
locale編碼: 同英文
十.其他
希臘文,土耳其文,希伯來文,中歐拉丁語文,越南文等尚在研究中...
十.中歐語系
Unicode範圍(拉丁語文): 00C0-02AF, 1E00-1EFF(混用英文)
locale編碼: Windows, ISO
1.Windows
HTML charset: windows-1250
RTF charset: 238
編碼方式: 1 byte語系
2.ISO
HTML charset: iso-8859-2
RTF charset: 無
編碼方式: 1 byte語系
十一.希臘文
Unicode範圍: 0370-03FF, 1F00-1FFF, 2C80-2CFF
locale編碼: Windows
1.Windows
HTML charset: windows-1253, iso8859-7 (後者IE不支援)
RTF charset: 161
編碼方式: 1 byte語系
十二.希伯來文
Unicode範圍: 0590-05FF
locale編碼: Windows
1.Windows
HTML charset: windows-1255, iso8859-8 (後者IE不支援)
RTF charset: 177
編碼方式: 1 byte語系
十三.土耳其文
Unicode範圍: 同拉丁語文(混用英文)
locale編碼: Windows
1.Windows
HTML charset: windows-1254, iso8859-9 (後者IE不支援)
RTF charset: 162
編碼方式: 1 byte語系
相关推荐
这一描述明确指出所提供的编码表是基于Unicode标准的,用于记录和表示现代维吾尔文中使用的各种字符。通过这种标准化的编码方式,可以有效地解决跨平台、跨语言环境下的文本处理问题,使维吾尔文能够在不同操作系统...
Unicode编码是一种全球统一的字符编码标准,旨在为世界上所有的字符提供一个唯一的数字标识。这个标准由Unicode联盟制定,包括了各种书写系统中的字母、符号、表情等,从拉丁文到汉字,再到阿拉伯文和印度文等,...
标题中的“Fontcreate用Unicode编码下较完整的字符集分类压缩包”表明这是一份与字体设计软件Fontcreate相关的资源包,其中包含了使用Unicode编码的各种字符集合。Unicode是一种国际标准,旨在为全球所有语言提供一...
- **UTF-8**:Unicode Transformation Format - 8 bits,可变长度编码方式,常见的英文字符仍然保持为单字节,而对于非拉丁语系的字符则使用2至4个字节进行编码,非常适合网络传输。 - **UTF-16**:Unicode ...
然而,如果需要处理多种语言,尤其是非拉丁语系的文字,Unicode编码(如UTF-8)则是必需的。 在编程和数据存储中,理解ASCⅡ和Unicode之间的差异至关重要。例如,当你读取或写入文件时,需要确保正确地指定文件的...
### Unicode字符编码范围详解 #### 一、概述 Unicode是一种国际化的字符编码标准,旨在为世界上所有的书写系统提供统一的编码方案。它不仅包括了现代使用的各种语言文字,还覆盖了许多古代文字。本文将详细介绍...
例如,如果一个 ANSI 字符是 Windows-1252 编码下的“é”,其 ASCII 值为233,那么转换为 Unicode 后,对应的码点是 U+00E9(Unicode 中的拉丁小写字母带重音的 e)。 反之,Unicode 到 ANSI 的转换则需要考虑到...
在Unicode编码中,每个汉字都有一个固定的、全球唯一的数字标识,通常以“U+”开头,如“你好”的汉字“你”对应的Unicode码是“U+4F60”。 Ansi码,也称为Windows本地编码,实际上是一个相对模糊的概念。在不同的...
它使用16位(两个字节)编码,理论上可以表示65536个不同的字符,足够涵盖世界各大语系的字符需求。 在VC++环境中,Unicode编程可以带来显著的优势。首先,Unicode使得程序能够支持多种语言,有助于实现软件的国际...
在计算机诞生之初,编码问题并不是很重要,因为当时计算机基本上是在英语语系的国家内使用。因此美国制定了使用七位编码的 ASCII 码(0-127),这很快就成为世界性的标准,也是现在所有字符集的基础。通常被称为基本...
但是随着计算机技术的发展和全球化的推进,对于非拉丁语系的文字编码需求逐渐增加,因此出现了扩展ASCII码以及其他编码方式来支持更多的字符集,如汉字、日文、韩文等。 在提供的部分内容中,我们看到了一系列数字...
Unicode是一种国际化的字符编码标准,它为世界上几乎所有语言的文字提供了一种统一的编码方式。本文将详细介绍Unicode编码中的各种文字及其编码范围。 #### 基本拉丁字母与控制字符 (U+0000 - U+00FF) - **U+0000 ...
在5.7.1这一版本中,它引入了Unicode编码的支持,进一步提升了其在处理多语言文本时的兼容性和准确性。"RC"代表Release Candidate,意味着这是一个接近最终版的测试版本,对功能进行了全面优化,为正式发布做最后的...
这个主题由多个部分组成,包括字符集、编码方式以及它们的实际应用。在这个压缩包中,我们有三份文件,分别涉及了不同层面的字符集编码知识。 首先,"浅谈C中的wprintf和宽字符显示2008.doc"这篇文章可能探讨了...
Unicode 采用可变长度的编码方式,最常见的是UTF-8、UTF-16和UTF-32三种编码格式。 - **UTF-8**: 是一种变长的编码方式,兼容ASCII,并且对英文字符只占用一个字节,对于汉字则占用三个字节。 - **UTF-16**: 同样是...
- **Unicode不考虑与其他DBCS的兼容性**,各种DBCS到Unicode的转换通常需要通过查表的方式完成。 ##### 4. UTF-8 UTF-8(Unicode Transformation Format-8)是一种可变长度的字符编码格式,主要用于在网络中快速...
- 可打印字符包括大写英文字母(A-Z)、小写英文字母(a-z)、数字(0-9)以及各种标点符号。 #### 二、扩展字符集与本地化需求 随着计算机技术的发展和全球化进程的加速,各国和地区开始尝试使用计算机来处理...
ASCII编码是最早广泛使用的编码系统,它定义了128个字符,包括英文大小写字母、数字、标点符号以及一些控制字符。每个字符都用7位二进制数来表示,这在早期的计算机中很常见,因为它们的内存和处理器都是以8位字节为...
- **UTF-7/UTF-8/UTF-16**:这些都是Unicode的编码方式,分别用于不同场景。例如,UTF-8由于兼容ASCII且编码效率高,在互联网上传输时更为常用;而UTF-16则是Windows系统中处理Unicode的标准方式。 总之,字符编码...
UTF-8是Unicode的一种实现方式,也是目前网络上最常用的编码格式,它能有效兼容各种语言,包括中文。 在处理中文时,选择支持Unicode的字体和编码是基础。例如,GB2312、GBK和GB18030是中国大陆常用的中文编码,...