`

各種語系的unicode對應以及local編碼方式(zz)

阅读更多

種語系的unicode對應以及local編碼方式(zz)

 

另:或参见:

http://jrgraphix.net/research/unicode_blocks.php?block=87

 

另:在unicode里,\u0800-\u9FFF为中、韩、日字符。其中,中文的范围:\u4e00-\u9fa5,日文在\u0800-\u4e00,韩文为\u9fa5以上。

 

.英文

Unicode範圍: 0041-005A, 0061-007A (若含則為0021-007E)

locale編碼: ANSI

 

1. ANSI

HTML charset: us-ascii

RTF charset: 0

編碼方式: 41-5A, 61-7A (若含則為21-7E)

 

 

.中文

Unicode範圍: 2E80-2FDF, 3400-4DBF, 4E00-9FFF

備註F900-FAFF的相容型中文字應轉至一般的中文字碼處理,31A0-31BF則為注音符

 

locale編碼: 中文有BIG5, CNS, 簡體中文GB

 

1.BIG5

HTML charset: big5

RTF charset: 136

編碼方式: byte, byte 1範圍為A1-FE, byte 2範圍為40-7E, A1-FE

備註big5+目前人使用,故省略不提

2.CNS

HTML charset: (應為euc-twiso-2022-cn, IE不支援)

RTF charset:

編碼方式: byte

byte 1範圍為A1-FE時為2 byte編碼, byte 2範圍為A1-FE

byte 18E, 4 byte編碼, byte 2範圍為A1-B0, byte 3byte 4範圍A1-FE

 

備註: 4 byte編碼時, byte 2A12 byte編碼之字相同 (即第1字面), CNS目前只使用了7字面, 因此byte 2實際使用範圍為A1-A7, 早期第15字面有放了一些字, 都已入前7字面

 

3.GB

HTML charset: gb2312, gbk, euc-cn

RTF charset: 134

編碼方式: byte, byte 1範圍為81-FE, byte 2範圍為40-7E, 80-FE

 

.日文

Unicode範圍: 3040-30FF, 31F0-31FF(混用中文字

備註FF00-FFEF有半形日文,應轉至一般日文字碼處

 

locale編碼: Shift-JIS, EUC-JP

 

1.Shift-JIS

HTML charset: shift_jis, x-sjis, iso-2022-jp

RTF charset: 128

編碼方式: /byte

byte 1範圍為A1-DF時為1 byte編碼

byte 1範圍為81-9F, E0-EF時為2 byte編碼, byte 2範圍為40-7E, 80-FC

2.EUC-JP

HTML charset: euc-jp, x-euc-jp

RTF charset:

編碼方式: byte

byte 18E, 2 byte編碼, byte 2範圍為A1-DF

byte 1範圍為A1-FE, 2 byte編碼, byte 2範圍為A1-FE

byte 18F時為3 byte編碼, byte 2byte 3範圍A1-FE

 

備註: IE不支援3 byte編碼部份

 

.

Unicode範圍: 1100-11FF, 3130-318F, AC00-D7AF(混用中文字

備註FF00-FFEF有半形文,應轉至一般文字碼處

 

locale編碼: Johab, EUC-KR

 

1.Johab

HTML charset: johab

RTF charset: 130

編碼方式: byte

byte 1範圍為84-D3, byte 2範圍為41-7E, 81-FE

byte 1範圍為D8-DE, E0-FE, byte 2範圍為31-7E, 91-FE

2.EUC-KR

HTML charset: euc-kr, iso-2022-kr

RTF charset: 129

編碼方式: byte, byte 1範圍為A1-FE, byte 2範圍為A1-FE

 

.阿拉伯文

Unicode範圍: 0600-06FF, 0750-077F

 

locale編碼: Windows

 

1.Windows

HTML charset: windows-1256

RTF charset: 178

 

編碼方式: 1 byte

 

.泰文

Unicode範圍: 0E00-0E7F

 

locale編碼: Windows

 

1.Windows

HTML charset: windows-874

RTF charset: 222

編碼方式: 1 byte

 

.俄文

Unicode範圍: 0400-052F (西里)

 

locale編碼: Windows, ISO, KOI8-U, KOI8-R

 

1.Windows

HTML charset: windows-1251

RTF charset: 204

編碼方式: 1 byte

2.ISO

HTML charset: iso-8859-5

RTF charset:

編碼方式: 1 byte

3.KOI8-U

HTML charset: koi8-u

RTF charset:

編碼方式: 1 byte

4.KOI8-R

HTML charset: koi8-r

RTF charset:

編碼方式: 1 byte

 

.德文/法文

Unicode範圍: 00C0-00FF(混用英文字母)

備註:字母上面有2德文, 字母上面有重音符法文

 

locale編碼: ANSI

 

1.ANSI

HTML charset: iso-8859-1, windows-1252

RTF charset: 0

編碼方式: 1 byte

 

.印尼文/馬來西

Unicode範圍: 同英文, 拼音

locale編碼: 同英文

 

.其他

,土耳其文,希伯,拉丁,越南文等尚在研究中...

 

.歐語

Unicode範圍(拉丁文): 00C0-02AF, 1E00-1EFF(混用英文)

 

locale編碼: Windows, ISO

 

1.Windows

HTML charset: windows-1250

RTF charset: 238

編碼方式: 1 byte

2.ISO

HTML charset: iso-8859-2

RTF charset:

編碼方式: 1 byte

 

十一.

Unicode範圍: 0370-03FF, 1F00-1FFF, 2C80-2CFF

 

locale編碼: Windows

 

1.Windows

HTML charset: windows-1253, iso8859-7 (後者IE不支援)

RTF charset: 161

編碼方式: 1 byte

 

十二.希伯

Unicode範圍: 0590-05FF

 

locale編碼: Windows

 

1.Windows

HTML charset: windows-1255, iso8859-8 (後者IE不支援)

RTF charset: 177

編碼方式: 1 byte

 

十三.土耳其文

Unicode範圍: 同拉丁文(混用英文)

 

locale編碼: Windows

 

1.Windows

HTML charset: windows-1254, iso8859-9 (後者IE不支援)

RTF charset: 162

編碼方式: 1 byte

分享到:
评论

相关推荐

    维吾尔文unicode编码表

    这一描述明确指出所提供的编码表是基于Unicode标准的,用于记录和表示现代维吾尔文中使用的各种字符。通过这种标准化的编码方式,可以有效地解决跨平台、跨语言环境下的文本处理问题,使维吾尔文能够在不同操作系统...

    各国文字Unicode编码范围.zip

    Unicode编码是一种全球统一的字符编码标准,旨在为世界上所有的字符提供一个唯一的数字标识。这个标准由Unicode联盟制定,包括了各种书写系统中的字母、符号、表情等,从拉丁文到汉字,再到阿拉伯文和印度文等,...

    Fontcreate用Unicode编码下较完整的字符集分类压缩包

    标题中的“Fontcreate用Unicode编码下较完整的字符集分类压缩包”表明这是一份与字体设计软件Fontcreate相关的资源包,其中包含了使用Unicode编码的各种字符集合。Unicode是一种国际标准,旨在为全球所有语言提供一...

    Unicode编码详细介绍

    - **UTF-8**:Unicode Transformation Format - 8 bits,可变长度编码方式,常见的英文字符仍然保持为单字节,而对于非拉丁语系的字符则使用2至4个字节进行编码,非常适合网络传输。 - **UTF-16**:Unicode ...

    ASCⅡ+Unicode编码

    然而,如果需要处理多种语言,尤其是非拉丁语系的文字,Unicode编码(如UTF-8)则是必需的。 在编程和数据存储中,理解ASCⅡ和Unicode之间的差异至关重要。例如,当你读取或写入文件时,需要确保正确地指定文件的...

    Unicode字符编码范围

    ### Unicode字符编码范围详解 #### 一、概述 Unicode是一种国际化的字符编码标准,旨在为世界上所有的书写系统提供统一的编码方案。它不仅包括了现代使用的各种语言文字,还覆盖了许多古代文字。本文将详细介绍...

    UNICODE_ANSI.rar_AnsiTOUnicode.rar_unicode_unicode ansi_unicode

    例如,如果一个 ANSI 字符是 Windows-1252 编码下的“é”,其 ASCII 值为233,那么转换为 Unicode 后,对应的码点是 U+00E9(Unicode 中的拉丁小写字母带重音的 e)。 反之,Unicode 到 ANSI 的转换则需要考虑到...

    汉字内码查询器,包括unicode和Ansi码

    在Unicode编码中,每个汉字都有一个固定的、全球唯一的数字标识,通常以“U+”开头,如“你好”的汉字“你”对应的Unicode码是“U+4F60”。 Ansi码,也称为Windows本地编码,实际上是一个相对模糊的概念。在不同的...

    VC++的Unicode编程.doc

    它使用16位(两个字节)编码,理论上可以表示65536个不同的字符,足够涵盖世界各大语系的字符需求。 在VC++环境中,Unicode编程可以带来显著的优势。首先,Unicode使得程序能够支持多种语言,有助于实现软件的国际...

    Unicode及中文到Unicode转换.pdf

    在计算机诞生之初,编码问题并不是很重要,因为当时计算机基本上是在英语语系的国家内使用。因此美国制定了使用七位编码的 ASCII 码(0-127),这很快就成为世界性的标准,也是现在所有字符集的基础。通常被称为基本...

    汉字ASCII码表

    但是随着计算机技术的发展和全球化的推进,对于非拉丁语系的文字编码需求逐渐增加,因此出现了扩展ASCII码以及其他编码方式来支持更多的字符集,如汉字、日文、韩文等。 在提供的部分内容中,我们看到了一系列数字...

    unicode编码范围.txt

    Unicode是一种国际化的字符编码标准,它为世界上几乎所有语言的文字提供了一种统一的编码方式。本文将详细介绍Unicode编码中的各种文字及其编码范围。 #### 基本拉丁字母与控制字符 (U+0000 - U+00FF) - **U+0000 ...

    npp.5.7.1.Unicode.RC.zip

    在5.7.1这一版本中,它引入了Unicode编码的支持,进一步提升了其在处理多语言文本时的兼容性和准确性。"RC"代表Release Candidate,意味着这是一个接近最终版的测试版本,对功能进行了全面优化,为正式发布做最后的...

    字符集编码和理解材料

    这个主题由多个部分组成,包括字符集、编码方式以及它们的实际应用。在这个压缩包中,我们有三份文件,分别涉及了不同层面的字符集编码知识。 首先,"浅谈C中的wprintf和宽字符显示2008.doc"这篇文章可能探讨了...

    常用的几种编码格式

    Unicode 采用可变长度的编码方式,最常见的是UTF-8、UTF-16和UTF-32三种编码格式。 - **UTF-8**: 是一种变长的编码方式,兼容ASCII,并且对英文字符只占用一个字节,对于汉字则占用三个字节。 - **UTF-16**: 同样是...

    Java字符集和编码

    - **Unicode不考虑与其他DBCS的兼容性**,各种DBCS到Unicode的转换通常需要通过查表的方式完成。 ##### 4. UTF-8 UTF-8(Unicode Transformation Format-8)是一种可变长度的字符编码格式,主要用于在网络中快速...

    文字编码简介,学字符在内存中的表示

    - 可打印字符包括大写英文字母(A-Z)、小写英文字母(a-z)、数字(0-9)以及各种标点符号。 #### 二、扩展字符集与本地化需求 随着计算机技术的发展和全球化进程的加速,各国和地区开始尝试使用计算机来处理...

    word-test.rar_字符编码

    ASCII编码是最早广泛使用的编码系统,它定义了128个字符,包括英文大小写字母、数字、标点符号以及一些控制字符。每个字符都用7位二进制数来表示,这在早期的计算机中很常见,因为它们的内存和处理器都是以8位字节为...

    系统如何从字符集显示字体

    - **UTF-7/UTF-8/UTF-16**:这些都是Unicode的编码方式,分别用于不同场景。例如,UTF-8由于兼容ASCII且编码效率高,在互联网上传输时更为常用;而UTF-16则是Windows系统中处理Unicode的标准方式。 总之,字符编码...

    多语种全字体编码|包括中文

    UTF-8是Unicode的一种实现方式,也是目前网络上最常用的编码格式,它能有效兼容各种语言,包括中文。 在处理中文时,选择支持Unicode的字体和编码是基础。例如,GB2312、GBK和GB18030是中国大陆常用的中文编码,...

Global site tag (gtag.js) - Google Analytics