网上关于GBK、GB2312和BIG5编码范围的资料比较多,但是日文的资料比较少,我总结了一下,希望能对大家在正则中判断这些字符集尤其是日文字符集的各种字、标点以及特殊符号的时候有所帮助。
UTF8
CODE:[\x01-\x7f]|[\xc0-\xdf][\x80-\xbf]|[\xe0-\xef][\x80-\xbf]{2}|[\xf0-\xff][\x80-\xbf]{3}
UTF16
CODE:[\x00-\xd7][\xe0-\xff]|[\xd8-\xdf][\x00-\xff]{2}
JIS
CODE:[\x20-\x7e]|[\x21-\x5f]|[\x21-\x7e]{2}
SJIS
CODE:[\x20-\x7e]|[\xa1-\xdf]|([\x81-\x9f]|[\xe0-\xef])([\x40-\x7e]|[\x80-\xfc])
EUC_JP
CODE:[\x20-\x7e]|\x81[\xa1-\xdf]|[\xa1-\xfe][\xa1-\xfe]|\x8f[\xa1-\xfe]{2}
EUC_JP标点符号及特殊字符
CODE:[\xa1-\xa2][\xa0-\xfe]
EUC_JP全角数字
[Copy to clipboard] [ - ]
CODE:\xa3[\xb0-\xb9]
EUC_JP全角大写英文
CODE:\xa3[\xc1-\xda]
EUC_JP全角小写英文
CODE:\xa3[\xe1-\xfa]
EUC_JP全角平假名
CODE:\xa4[\xa1-\xf3]
EUC_JP全角片假名
CODE:\xa3[\xb0-\xb9]|\xa3[\xc1-\xda]|\xa5[\xa1-\xf6][\xa3][\xb0-\xfa]|[\xa1][\xbc-\xbe]|[\xa1][\xdd]
EUC_JP全角汉字
CODE:[\xb0-\xcf][\xa0-\xd3]|[\xd0-\xf4][\xa0-\xfe]|[\xB0-\xF3][\xA1-\xFE]|[\xF4][\xA1-\xA6]|[\xA4][\xA1-\xF3]|[\xA5][\xA1-\xF6]|[\xA1][\xBC-\xBE]
Big5
CODE:[\x01-\x7f]|[\x81-\xfe]([\x40-\x7e]|[\xa1-\xfe])
GBK
CODE:[\x01-\x7f]|[\x81-\xfe][\x40-\xfe]
GB2312汉字
CODE:[\xb0-\xf7][\xa0-\xfe]
GB2312半角标点符号及特殊符号
CODE:\xa1[\xa2-\xfe]
GB2312罗马数组及项目序号
CODE:\xa2([\xa1-\xaa]|[\xb1-\xbf]|[\xc0-\xdf]|[\xe0-\xe2]|[\xe5-\xee]|[\xf1-\xfc])
GB2312全角标点及全角字母
CODE:\xa3[\xa1-\xfe]
GB2312日文平假名
CODE:\xa4[\xa1-\xf3]
GB2312日文片假名
CODE:\xa5[\xa1-\xf6]
GB18030
CODE:[\x00-\x7f]|[\x81-\xfe][\x40-\xfe]|[\x81-\xfe][\x30-\x39][\x81-\xfe][\x30-\x39]
日文半角空格
[Copy to clipboard] [ - ]
CODE:\x20
SJIS全角空格
CODE:(?:\x81\x81)
SJIS全角数字
CODE:(?:\x82[\x4f-\x58])
SJIS全角大写英文
CODE:(?:\x82[\x60-\x79])
SJIS全角小写英文
CODE:(?:\x82[\x81-\x9a])
SJIS全角平假名
CODE:(?:\x82[\x9f-\xf1])
SJIS全角平假名扩展
CODE:(?:\x82[\x9f-\xf1]|\x81[\x4a\x4b\x54\x55])
SJIS全角片假名
CODE:(?:\x83[\x40-\x96])
SJIS全角片假名扩展
CODE:(?:\x83[\x40-\x96]|\x81[\x45\x5b\x52\x53])
EUC_JP全角空格
CODE:(?:\xa1\xa1)
EUC半角片假名
CODE:(?:\x8e[\xa6-\xdf])
分享到:
相关推荐
在计算机科学领域,字符集(Character Set)是用于表示文本的一组符号集合,它定义了可以被编码的字符范围和编码方式。字符集对于不同语言的处理至关重要,尤其是在存储、显示和传输文本时。本篇文章将详细介绍韩文...
jis.rar_jis0208_日文编码这个文件包主要涉及的是日文字符编码标准JIS X 0208的相关知识。JIS X 0208是日本工业标准(Japanese Industrial Standard)中定义的一种字符编码系统,主要用于表示日本汉字、假名和其他...
4. **应用范围**:除了日文游戏,Locale Emulator也可以用于处理其他语言的乱码问题,尤其是那些对区域设置敏感的软件,例如一些旧版的日文软件或游戏,或者某些需要特定语言环境运行的国际软件。 5. **安装与使用*...
描述中提到的“只适用日文环境”,意味着这个工具可能特别优化了对日文字符的支持,比如在处理包含日文注释或字符串的源代码时能正确识别和计数。它支持多种编程语言,如VB(Visual Basic)、Java、C和HTML、JSP等。...
在ASCII编码系统中,只包含英文字符,而简体中文、繁体中文和日文字符不在其范围内。因此,当使用不支持这些语言的编码方式时,就会出现乱码。Unicode编码,尤其是UTF-8,是一个全球通用的编码标准,可以涵盖几乎...
### Unicode字符编码范围详解 #### 一、概述 Unicode是一种国际化的字符编码标准,旨在为世界上所有的书写系统提供统一的编码方案。它不仅包括了现代使用的各种语言文字,还覆盖了许多古代文字。本文将详细介绍...
它不仅包括了西文字符,还涵盖了其他多种语言文字,如汉字、日文、韩文等,并且还包括了一些特殊符号。本文将对给定的Unicode字符列表进行详细解析,帮助读者更好地理解这些字符及其用途。 #### 二、基本概念 1. *...
这些标签强调文档的用途,比如日文字符表指的是文档中列出了大量的日文字符,JISX0208则指明了这些字符所遵循的编码标准,日文常用汉字表示文档会侧重于第一水準漢字区的常见汉字,而日文字符内码表则是指这些字符...
然而,随着全球化的发展,需要支持更多的语言,如中文、日文、韩文等,这就需要更广泛的字符集。多字符集(Multi-Byte Character Set,简称MBCS)应运而生,它可以表示各种语言的字符,比如GBK、Big5等。在MBCS中,...
2. **MBCS(多字节字符集)**:适用于包含非英文字符的环境,如中文、日文等,通常利用扩展ASCII码的高半部分来表示。例如 `const char * p = "你好";`,这里使用的是GB-2312等编码方案。 3. **UNICODE字符集**:...
1. **查看字符**:用户可以通过字符映射表看到Unicode编码范围内的所有字符,包括ASCII码、拉丁文、希腊文、希伯来文、阿拉伯文、中文、日文、韩文等不同语言的字符。 2. **搜索字符**:用户可以根据字符名称、...
- 同样遍历输入字符串的每个字符,检查是否为全角空格(12288)或在全角字符范围内(65281-65374)。 - 对于全角空格,转换为半角空格(32)。 - 对于其他全角字符,通过减去65248得到半角字符。 ### 示例代码...
在Unicode中,每种语言或文字系统的字符都有一个特定的编码范围。以下是一些主要语言的Unicode编码范围: 1. **英文**: - Unicode范围:0041-005A(大写), 0061-007A(小写);如果包含数字和符号,范围是0021-...
GB2312 字符集中除常用简体汉字字符外还包括希腊字母、日文平假名及片假名字母、俄语西里尔字母等字符,未收录繁体中文汉字和一些生僻字。可以用繁体汉字测试某些系统是不是只支持 GB2312 编码。 三、GBK 编码 GBK...
7. **日文**:日文字符包括平假名(3040-309F)、片假名(30A0-30FF)、汉字以及一些特殊符号,它们分散在不同的Unicode区间。 8. **韩文**:韩文或朝鲜文的谚文在AC00至D7AF之间,而韩文的汉字则与汉字一同在4E00...
- 在iOS开发中,字符串的比较应考虑本地化和国际化的需求,正确处理Unicode字符集,特别是在比较中文、日文等多字节字符时。 ### 结语 掌握Objective-C中的NSString和NSMutableString类的使用,对于任何iOS开发者...
除了汉字之外,GB2312字符集中还包含了希腊字母、日文平假名和片假名字母、俄语西里尔字母等其他字符,但不支持繁体汉字和一些生僻字。GB2312的兼容性较差,无法覆盖更多的汉字和符号,因此在后续的发展中被其他更...
- `[^\x00-\xff]`:`^` 表示否定,`\x00-\xff` 指的是 ASCII 字符范围。 - `/g`:全局搜索标志,确保匹配整个字符串中的所有非 ASCII 字符。 ##### 总结 以上示例展示了如何使用 JavaScript 实现对输入框中的字符...
这个编码表包括了汉字、日文以及其他多种语言的字符,极大地推动了全球信息处理的标准化。 在Unicode编码表中,每个字符都有一个独一无二的数值,称为码点(Code Point)。码点是一个无符号整数,通常用十六进制...
- **支持全球语言**:能够表示几乎所有语言的字符,包括中文、日文、韩文等。 #### 三、UTF-8中文字符编码规则 UTF-8对于不同的Unicode字符使用不同的编码规则。对于中文字符来说,由于其Unicode值范围较大,通常...