UTF-8范围(PHP正则):
UTF-8のエンコード方法
UTF-8は、UnicodeとASCIIコードを混在させるための規格です。Unicodeでは、0x0000-0x007Fの文字コードは、ASCIIコードの0x00-0x7Fと同じとなっていることを利用して変換します。
UTF-8では、ASCIIコードは、1バイトで表しますが、0x0800から0xFFFFまでのマルチバイト文字は、3バイトで表します。
UTF-8では、各文字の先頭ビットにより、文字の種類を簡単に判定できます。
http://www.rikai.com/library/kanjitables/kanji_codes.unicode.shtml
0、ASCII: 00-ff \x{00}-\x{ff}
1、日式标点: 3000 - 303f \x{3000}-\x{303f}
2、平假名: 3040 - 309f \x{3040}-\x{309f}
3、片假名: 30a0 - 30ff \x{30a0}-\x{30ff}
4、全角标点和半宽片假名:
ff00 - ffef \x{ff00}-\x{ffef}
5、中日韩unifed象形文字-汉字常见和罕见:
4e00 - 9faf \x{4e00}-\x{9faf}
6、中日韩统一表意文字扩展区A -罕见汉字
3400 - 4dbf \x{3400}-\x{4dbf}
正则表达式:/(.*)/u
1、非半角字符(非ASCII码字符)
/([^\x{00}-\x{ff}]+)/u
2、非半角字符、日式标点、全角标点和半宽片假名
/([^\x{00}-\x{ff}\x{3000}-\x{303f}\x{ff00}-\x{ffef}]+)/u
3、半角字符、日式标点、全角标点和半宽片假名
/([\x{30a0}-\x{30fa}\x{30fc}-\x{30ff}\x{4e00}-\x{9faf}\x{3400}-\x{4dbf}0-9a-zA-Z]+)/u
分享到:
相关推荐
UTF-8编码转换工具是一种专门用于处理文本编码问题的实用程序,它可以帮助用户批量将非UTF-8编码的文件转换为UTF-8编码格式。在IT领域,编码是存储和传输字符的重要方式,不同的编码标准可能导致乱码问题,尤其是在...
转换“pb12 gb转utf-8”意味着你可能有一个使用PowerBuilder 12编写的程序或数据库,其中的数据是以GBK编码存储的,现在需要将这些数据转换为UTF-8编码以便在更广泛的环境中使用或与其他系统进行兼容。 这个过程...
在涉及到UTF-8编码时,我们确保生成的静态网页能够正确显示多种语言的字符,特别是非英文字符,如中文、日文、韩文等。 在ASP中生成静态网页的过程主要包括以下步骤: 1. **动态数据获取**:首先,ASP脚本需要获取...
UTF-8和ANSI是两种常见的字符编码标准,它们各自有其特点和适用场景。本文将深入探讨UTF-8与ANSI字符编码的区别、转换方法以及相关工具。 首先,让我们了解这两种编码的基本概念: 1. **UTF-8**:全称为“Unicode ...
"UTF-8转ANSI文本文件转换器"就是这样一个工具,它能够帮助用户批量将UTF-8编码的文本文件转换为ANSI编码的文本文件。在此,我们将深入探讨UTF-8和ANSI编码的原理以及转换过程中涉及的关键知识点。 **一、UTF-8编码...
在Java JSP开发中,遇到UTF-8编码导致的乱码问题是一个常见的困扰。这个问题主要涉及到字符编码的统一和正确处理。UTF-8是一种广泛使用的Unicode字符编码方案,它可以支持几乎所有的字符集,包括中文、日文和韩文。...
2. UTF-8编码:这是一种Unicode的变体,支持几乎世界上所有的字符,包括汉字、日文、韩文等。UTF-8的特点是它使用1至4个字节表示一个字符,英文字符和ASCII字符只占用1个字节,这使得它在互联网上传输和存储时更为...
此时,就需要将UTF-8编码的文本转换为ASCII,但这通常意味着非ASCII字符将被替换为问号或其他替代字符,因为ASCII没有对应的空间来表示这些字符。 另一方面,如果你有ASCII编码的文本,但需要在支持多语言的环境中...
或者在从数据库中读取数据后,将UTF-8编码的数据转换为GB2312,以适应那些仍使用GB2312编码的客户端环境。 在文件名为"chinese"的压缩包中,可能包含了一些示例代码或测试数据,用于演示如何使用这个转换类。通过...
UTF-8编码是一种广泛使用的字符编码标准,在IT行业中扮演着至关重要的角色。它能够表示世界上几乎所有的文字和符号,包括拉丁字母、希腊字母、汉字、日文、韩文等,使得多语言环境下的信息交流变得简单而统一。 UTF...
因此,将VC工程相关文件转换为UTF-8编码格式是必要的,以确保代码的可移植性和跨平台兼容性。 UTF-8是一种广泛接受的多字节字符编码方案,它能表示Unicode字符集中的所有字符,支持世界上几乎所有的语言。与ANSI...
- **兼容ASCII**:对于ASCII码,UTF-8编码与ASCII编码完全相同。 - **变长编码**:不同字符可能占用不同数量的字节,从而有效压缩文本空间。 - **支持全球语言**:能够表示几乎所有语言的字符,包括中文、日文、韩文...
在处理包含中文字符的Java工程时,有时需要将GBK编码的工程转换为UTF-8编码,以确保在不同系统或工具中的正常显示和处理。本教程将详细讲解如何使用Java代码来完成这个转换过程。 首先,我们需要了解GBK和UTF-8编码...
Utf-8编码的最大优点在于其兼容性,它能够完美地显示各种语言的字符,包括英文、中文、日文等。而GB2312编码则主要适用于简体中文环境,对于非中文字符的支持相对较弱。 在winForm中进行Utf-8和GB2312之间的转换,...
- Unicode码点转换为UTF-8的过程相对复杂,因为UTF-8编码是变长的,根据Unicode码点的大小,可能会占用1到4个字节。 - 对于小于128的码点(ASCII字符),直接用单字节表示,最高位为0。 - 对于大于127的码点,...
例如,一个使用ANSII编码的文件在预期使用UTF-8编码的环境中打开时,由于字符集不匹配,会出现无法识别的字符,呈现为乱码。 在这种情况下,我们需要进行文件编码转换。提供的压缩包文件“Ansi 2 Utf8.exe”很可能...
2. **BOM(Byte Order Mark)**:在UTF-8编码中,BOM是字节序列`0xEF, 0xBB, 0xBF`,它不是必须的,但可以用来标识文件是用UTF-8编码的。对于大多数现代文本编辑器和浏览器来说,它们能够识别并忽略这个标记。然而,...
"UTF-8编码转BIG5、gb2312"这个主题聚焦于三种常见的字符编码格式之间的转换,这对于处理不同地区或者历史遗留系统的数据时尤其重要。 首先,UTF-8是一种广泛使用的多字节字符编码,它可以表示Unicode字符集中的...
对于非ASCII字符,如中文、日文等,UTF-8会使用2至4个字节来表示,这使得它具有良好的跨平台和跨语言支持,尤其是在国际化的软件开发中。 GBK是GB2312的扩展,是中国大陆常用的汉字编码标准,它在GB2312的基础上...
UTF-8编码是一种广泛使用的字符编码方案,尤其在互联网和多语言环境中的应用非常普遍。它是由Unicode联盟设计的一种变长编码方式,旨在兼容ASCII编码并能表示Unicode字符集中的所有字符。 首先,我们来详细了解一下...