转自http://bbs.chinaunix.net/viewthread.php?tid=907172
,我有删减,只帖出常用的。原文有非常详细的日文的。
UTF8
CODE:
[\x01-\x7f]|[\xc0-\xdf][\x80-\xbf]|[\xe0-\xef][\x80-\xbf]{2}|[\xf0-\xff][\x80-\xbf]{3}
UTF16
CODE:
[\x00-\xd7][\xe0-\xff]|[\xd8-\xdf][\x00-\xff]{2}
JIS
CODE:
[\x20-\x7e]|[\x21-\x5f]|[\x21-\x7e]{2}
SJIS
CODE:
[\x20-\x7e]|[\xa1-\xdf]|([\x81-\x9f]|[\xe0-\xef])([\x40-\x7e]|[\x80-\xfc])
EUC_JP
CODE:
[\x20-\x7e]|\x81[\xa1-\xdf]|[\xa1-\xfe][\xa1-\xfe]|\x8f[\xa1-\xfe]{2}
EUC_JP标点符号及特殊字符
CODE:
[\xa1-\xa2][\xa0-\xfe]
EUC_JP全角数字
CODE:
\xa3[\xb0-\xb9]
EUC_JP全角大写英文
CODE:
\xa3[\xc1-\xda]
EUC_JP全角小写英文
CODE:
\xa3[\xe1-\xfa]
EUC_JP全角平假名
CODE:
\xa4[\xa1-\xf3]
EUC_JP全角片假名 2007-03-12 15:00更新
CODE:
\xa3[\xb0-\xb9]|\xa3[\xc1-\xda]|\xa5[\xa1-\xf6][\xa3][\xb0-\xfa]|[\xa1][\xbc-\xbe]|[\xa1][\xdd]
EUC_JP全角汉字 2007-03-12 15:06更新
CODE:
[\xb0-\xcf][\xa0-\xd3]|[\xd0-\xf4][\xa0-\xfe]|[\xB0-\xF3][\xA1-\xFE]|[\xF4][\xA1-\xA6]|[\xA4][\xA1-\xF3]|[\xA5][\xA1-\xF6]|[\xA1][\xBC-\xBE]
Big5
CODE:
[\x01-\x7f]|[\x81-\xfe]([\x40-\x7e]|[\xa1-\xfe])
GBK
CODE:
[\x01-\x7f]|[\x81-\xfe][\x40-\xfe]
GB2312汉字
CODE:
[\xb0-\xf7][\xa0-\xfe]
GB2312半角标点符号及特殊符号
CODE:
\xa1[\xa2-\xfe]
GB2312罗马数组及项目序号
CODE:
\xa2([\xa1-\xaa]|[\xb1-\xbf]|[\xc0-\xdf]|[\xe0-\xe2]|[\xe5-\xee]|[\xf1-\xfc])
GB2312全角标点及全角字母
CODE:
\xa3[\xa1-\xfe]
GB2312日文平假名
CODE:
\xa4[\xa1-\xf3]
GB2312日文片假名
CODE:
\xa5[\xa1-\xf6]
補充:
GB18030
CODE:
[\x00-\x7f]|[\x81-\xfe][\x40-\xfe]|[\x81-\xfe][\x30-\x39][\x81-\xfe][\x30-\x39]
分享到:
相关推荐
JAVA及相关字符集编码问题 在深入探讨JAVA与字符集编码问题之前,我们首先需要理解不同字符集编码的基本概念以及它们在JAVA环境中的应用。字符集编码是计算机系统中表示文字的一种方式,它决定了如何将字符转换为二...
### 字符集编码知识点 #### 一、概述与背景 在Web开发中,字符集编码问题经常成为开发者需要解决的关键技术挑战之一。不同语言、不同系统间的字符编码差异可能导致数据在传输过程中出现乱码等问题。因此,理解字符...
### 维吾尔文字符集Unicode编码表 #### 概述 本文档提供了一份详细的现代维吾尔文字符集的Unicode编码表。这份表格对于理解、处理和展示维吾尔语文字具有重要意义。通过这份表格,我们可以清晰地看到每一个维吾尔文...
总结来说,字符集编码的原理主要包括字符的数字化表示、编码范围、编码格式以及它们之间的兼容性。掌握这些知识能帮助我们更好地处理文本数据,避免乱码问题,实现跨平台的文本通信。在实际应用中,我们需要根据具体...
总结而言,字符集编码的选择和使用直接影响到数据的存储、传输和展示效果。随着全球化的发展,Unicode及其变种如UTF-8已成为国际间数据交换的首选编码,它不仅解决了多语言字符的兼容性问题,也为未来新字符的加入...
总结,GB18030字符集作为中文编码的重要标准,对于理解和处理中文信息具有重要意义。通过深入研究"gb18030所有字符集与码表.xls",开发者可以更好地掌握GB18030的编码规则,从而在嵌入式系统和其他应用场景中实现...
### 正则表达式中对各字符集编码范围的总结 #### 1. UTF-8 编码 UTF-8 是一种变长字符编码,用于表示 Unicode 字符集。其正则表达式形式如下: ``` [\x01-\x7f]|[\xc0-\xdf][\x80-\xbf]|[\xe0-\xef][\x80-\xbf]{2...
编码范围从8140到F95E(共21003个字符),其中包括: - 汉字:19967个 - 西文符号:101个 - 其他符号:935个 #### 五、GBK字符集示例分析 根据给定的部分内容,我们可以看到GBK字符集的具体编码形式。例如,8140@...
- **编码范围**:标准ASCII码使用7位二进制数来表示字符,范围从`0000000`到`0111111`(十进制0到127)。 - **内容**: - 控制字符(0~31及127,共33个):这些字符通常用于控制设备的操作,如回车、换行等。 - 可...
2. **数据丢失问题**:当数据从一个字符集转换到另一个字符集时,如果后者的编码范围小于前者,则可能会导致某些字符无法正确转换,从而造成数据丢失。 - 解决方法:避免使用编码范围较小的字符集进行转换。例如,...
总结起来,`CBW`类是对Windows API中字符转换函数的封装,它提供了一种在多字符集与宽字符集之间进行转换的抽象化方法,简化了开发者的编码工作。通过理解和正确使用这类工具,开发者可以更好地处理跨语言的软件开发...
本文将深入探讨字符集的基本概念、不同类型的字符集及其编码方式,重点介绍Unicode这一广泛使用的字符集。 #### 二、文本与字符 在计算机中,文本由字符组成。字符可以是字母、数字、标点符号或其他符号,例如数学...
GB2312,全称为《信息交换用汉字编码字符集·基本集》,是1980年制定的国家标准,也是中国第一个汉字编码标准。GB2312编码包含了6763个最常见的汉字,以及682个非汉字字符,如标点符号和一些特殊符号。它的编码方式...
配置系统范围内的字符集 除了临时设置环境变量外,还可以通过编辑`/etc/default/locale`文件来永久性地更改字符集设置。打开该文件并进行相应的修改,例如: ```bash sudo nano /etc/default/locale ``` 将文件...
不同的字符集覆盖的字符范围不同,例如ASCII主要包含英文字符,而UTF-8可以涵盖世界上大部分语言的字符。 2. Oracle字符集:Oracle支持多种字符集,如AL32UTF8(Unicode的UTF-8编码)、WE8ISO8859P1(西欧语言)等...