2E80~33FFh:中日韩符号区。收容康熙字典部首、中日韩辅助部首、注音符号、日本假名、韩文音符,中日韩的符号、标点、带圈或带括符文数字、月份,以及日本的假名组合、单位、年号、月份、日期、时间等。
3400~4DFFh:中日韩认同表意文字扩充A区,总计收容6,582个中日韩汉字。
4E00~9FFFh:中日韩认同表意文字区,总计收容20,902个中日韩汉字。
A000~A4FFh:彝族文字区,收容中国南方彝族文字和字根。
AC00~D7FFh:韩文拼音组合字区,收容以韩文音符拼成的文字。
F900~FAFFh:中日韩兼容表意文字区,总计收容302个中日韩汉字。
FB00~FFFDh:文字表现形式区,收容组合拉丁文字、希伯来文、阿拉伯文、中日韩直式标点、小符号、半角符号、全角符号等。
比如需要匹配所有中日韩非符号字符,那么正则表达式应该是^[\u3400-\u9FFF]+$
理论上没错, 可是我到msn.co.ko随便复制了个韩文下来, 发现根本不对, 诡异
再到msn.co.jp复制了个 'お ', 也不得行..
然后把范围扩大到^[\u2E80-\u9FFF]+$, 这样倒是都通过了, 这个应该就是匹配中日韩文字的正则表达式了, 包括我們臺灣省還在盲目使用的繁體中文
而关于中文的正则表达式, 应该是^[\u4E00-\u9FFF]+$, 和论坛里常被人提起的^[\u4E00-\u9FA5]+$很接近
需要注意的是论坛里说的^[\u4E00-\u9FA5]+$这是专门用于匹配简体中文的正则表达式, 实际上繁体字也在里面, 我用测试器测试了下 '中華人民共和國 ', 也通过了, 当然, ^[\u4E00-\u9FFF]+$也是一样的结果
分享到:
相关推荐
PHP 去HTML,截取指定汉字正则表达试PHP 去HTML,截取指定汉字正则表达试PHP 去HTML,截取指定汉字正则表达试PHP 去HTML,截取指定汉字正则表达试PHP 去HTML,截取指定汉字正则表达试PHP 去HTML,截取指定汉字正则表达试...
二、中文正则表达式实例 1. 验证全中文字符串:如果你需要验证字符串是否只包含中文字符,可以使用以下正则表达式: ```regex ^[\u4e00-\u9fff]+$ ``` 这将确保字符串从头到尾都是中文字符。 2. 验证含有中文...
本中文正则表达式系统教程旨在帮助程序员熟练掌握这一技能,使其成为解决复杂问题的利器。 教程内容可能包括以下几个核心部分: 1. **基础概念**:首先介绍正则表达式的起源和基本概念,如模式匹配、元字符(如`.`...
ORACLE 正则表达式的使用(REGEXP_LIKE REGEXP_INSTR REGEXP_SUBSTR REGEXP_REPLACE)
这个"VC_支持中文的正则表达式库"便是为了解决这个问题,它允许在Visual C++ (VC)环境下,配合C++编程语言,进行中文正则表达式的操作。 首先,我们来看一下压缩包内的文件: 1. `example.cpp`:这是一个示例代码...
匹配中文字符的正则表达式: [\u4e00-\u9fa5] 或许你也需要匹配双字节字符,中文也是双字节的字符 代码如下: 匹配双字节字符(包括汉字在内):[^\x00-\xff] 注:可以用来计算字符串的长度(一个双字节字符长度计2,...
### 匹配中文字符的正则表达式 在日常开发工作中,经常需要处理各种各样的字符串,其中就包括中文字符的处理。对于中文字符的匹配,正则表达式是一种非常有效的工具。 #### 正则表达式的概念 正则表达式(Regular...
在这个主题中,我们主要关注的是如何处理URL中的中文参数,以及涉及到的中文正则表达式问题。下面将详细讨论PHP伪静态处理和中文正则表达式的应用。 首先,理解PHP伪静态的实现原理。伪静态通常通过重写URL来完成,...
### 正则表达式在Python中的应用 #### 一、正则表达式的概念与起源 正则表达式(Regular Expression,简称RE),是一种强大的文本处理工具,在计算机科学领域有着广泛的应用。它允许用户灵活地检查或者操作字符串...
在本案例中,"VC++支持中文的正则表达式函数库" 提供了一个专门为VC++(Visual C++)设计的正则表达式库,尤其值得注意的是,它特别优化了对中文字符的支持。 这个库由一位大陆程序员编写并开源,作者为了促进技术...
本文实例讲述了Python使用中文正则表达式匹配指定中文字符串的方法。分享给大家供大家参考,具体如下: 业务场景: 从中文字句中匹配出指定的中文子字符串 .这样的情况我在工作中遇到非常多, 特梳理总结如下. 难点: ...
在本主题中,“使用正则表达式验证中文汉字输入”着重讲解如何利用正则表达式来确保用户输入的数据仅包含合法的中文汉字。 首先,我们需要了解中文汉字在计算机中的表示方式。中文字符在Unicode编码中占据着一定的...
例如,对于一个新闻网站,可以利用正则表达式类匹配中文源码来提取文章标题或关键词,或者在用户输入的搜索查询中进行模糊匹配,提高搜索效率。 通过易语言提供的正则表达式类,我们可以高效地处理中文文本,进行...
在C#语言中,正则表达式的应用非常广泛,尤其在处理中文字符时,其灵活性和效率更是得到了充分的体现。下面将深入探讨如何使用C#的正则表达式来提取中文字符,这不仅适用于简单的文本处理,也广泛应用于网页抓取、...
根据提供的文件信息,我们可以归纳出一系列与验证数字和汉字相关的正则表达式的知识点。下面将对这些知识点进行详细的解释和扩展。 ### 1. 验证纯数字的正则表达式 #### 1.1 纯数字 - **表达式**:`^[0-9]*$` - **...
这篇文章主要讲如何使用正则匹配中文字符,中文正则表达式的匹配规则不像其他正则规则一样容易记住,下面一起看看这个中文正则表达式是怎么样的。 \w匹配的仅仅是中文,数字,字母,对于国人来讲,仅匹配中文时常会...
本文将深入探讨C#中的正则表达式,以及如何匹配数字、汉字和英文等不同类型的字符。 首先,我们要了解C#中的`Regex`类,它是处理正则表达式的主干。你可以使用它的静态方法如`Match`、`Matches`、`IsMatch`和`...
在易语言中,正则表达式是进行文本处理、数据提取和搜索的关键工具,尤其在处理中文字符时显得尤为重要。本文将深入探讨易语言中的正则表达式匹配中文的原理、方法以及应用。 正则表达式(Regular Expression)是一...
JavaScript中的正则表达式是处理字符串的强大工具,用于执行模式匹配、查找和替换等功能。在JavaScript中,正则表达式可以使用两种方式创建:直接量(即斜杠包围的模式,如`/s$/`)或通过`RegExp`构造函数(如`new ...