正则表达式的汉字匹配
这里是几个主要非英文语系字符范围
2E80~33FFh:中日韩符号区。收容康熙字典部首、中日韩辅助部首、注音符号、日本假名、韩文音符,中日韩的符号、标点、带圈或带括符文数字、月份,以及日本的假名组合、单位、年号、月份、日期、时间等。
3400~4DFFh:中日韩认同表意文字扩充A区,总计收容6,582个中日韩汉字。
4E00~9FFFh:中日韩认同表意文字区,总计收容20,902个中日韩汉字。
A000~A4FFh:彝族文字区,收容中国南方彝族文字和字根。
AC00~D7FFh:韩文拼音组合字区,收容以韩文音符拼成的文字。
F900~FAFFh:中日韩兼容表意文字区,总计收容302个中日韩汉字。
FB00~FFFDh:文字表现形式区,收容组合拉丁文字、希伯来文、阿拉伯文、中日韩直式标点、小符号、半角符号、全角符号等。
比如需要匹配所有中日韩非符号字符,那么正则表达式应该是^[\u3400-\u9FFF]+$
理论上没错, 可是我到msn.co.ko随便复制了个韩文下来, 发现根本不对, 诡异
再到msn.co.jp复制了个'お', 也不得行..
然后把范围扩大到^[\u2E80-\u9FFF]+$, 这样倒是都通过了, 这个应该就是匹配中日韩文字的正则表达式了, 包括我們臺灣省還在盲目使用的繁體中文
而关于中文的正则表达式, 应该是^[\u4E00-\u9FFF]+$, 和论坛里常被人提起的^[\u4E00-\u9FA5]+$很接近
需要注意的是论坛里说的^[\u4E00-\u9FA5]+$这是专门用于匹配简体中文的正则表达式, 实际上繁体字也在里面, 我用测试器测试了下'中華人民共和國', 也通过了, 当然, ^[\u4E00-\u9FFF]+$也是一样的结果
分享到:
相关推荐
Java 第三阶段增强分析需求,代码实现能力【正则表达式】---- 代码 Java 第三阶段增强分析需求,代码实现能力【正则表达式】---- 代码 Java 第三阶段增强分析需求,代码实现能力【正则表达式】---- 代码 Java 第三...
提取URL,正则表达式 - C# - 开发者参考网提取URL,正则表达式 - C# - 开发者参考网提取URL,正则表达式 - C# - 开发者参考网提取URL,正则表达式 - C# - 开发者参考网提取URL,正则表达式 - C# - 开发者参考网提取URL,...
### 常用Java正则表达式知识点 #### 一、引言 正则表达式是一种强大的工具,用于处理文本并查找模式。多种编程语言,包括Perl、PHP、Python、JavaScript以及Java等均内置了对正则表达式的支持。本文将详细介绍Java...
在编程领域,验证E-mail地址的格式是一项常见的任务,它能确保用户输入的电子邮件地址符合标准格式,从而提高数据质量并减少错误。...希望这个示例可以帮助你理解和应用正则表达式进行E-mail验证。
director正则表达式插件--强大的字符串匹配工具 demo, 正则表达式功能很强大,匹配字符串很容易,现在,在director中借助这款插件,也可以实现正式表达式的功能了,lingo处理字符串更加容易。
百度正则表达式的例子-易程序源 百度正则表达式的例子-易程序源
正则表达式是强大的字符串匹配模式,可以用来检查一个串是否含有某种子串、将匹配的子串做替换或者从某个串中取出符合某个条件的子串等。下面是正则表达式的基本概念和运用方法: 1. 正则表达式的历史:正则表达式...
例如,使用“正则表达式匹配”命令可以对字符串进行模式匹配,判断是否符合预设的规则。这个命令接受两个参数:一个是待检测的字符串,另一个是正则表达式模式。 对于匹配中文,我们需要了解中文字符的编码。在...
1. 匹配中文字符:`[u4e00-u9fa5]` - 这个正则表达式用于匹配所有中文字符,包括简体和繁体。它基于Unicode范围,u4e00到u9fa5涵盖了大部分常用汉字。 2. 匹配双字节字符:`[^x00-xff]` - 用于匹配包括汉字在内的...
学习编译原理,做一个简单的正则表达式。 ---------------------------------------- 实现了基本的正则表达式功能,支持基本的运算符:|、连接、*、+、?。 暂不支持转义字符,不过通过修改Scanner可以轻松解决。 ...
正则表达式是一种强大的文本处理工具,用于匹配、查找、替换和分析字符串。它通过一套特定的语法,即正则表达式模式,来定义要匹配的字符串格式。这些模式可以非常简单,比如单个字符,也可以非常复杂,涵盖一系列...
正则表达式是一种强大的文本处理工具,用于匹配、查找、替换等操作,广泛应用于编程语言中。在IT行业中,正则表达式是处理字符串时不可或缺的一部分,尤其在数据验证、文本提取等方面。在这个场景中,我们需要创建一...
广告过滤正则式 来自闻仲 可以和大家交流一下
常用正则表达式-常用正则表达式-常用正则表达式 常用正则表达式-常用正则表达式-常用正则表达式
常用验证正则表达式,手机号验证,身份证号验证,邮箱验证,等等,
1. 元字符:正则表达式中的元字符包括`.`(匹配任意单个字符)、`^`(匹配行首)、`$`(匹配行尾)、`\`(转义字符)等,它们具有特殊的含义,能帮助我们构建复杂的匹配规则。 2. 字符类:`[]`用于定义一个字符类,...
### Java常用正则表达式详解 #### 匹配腾讯QQ号 **正则表达式:** [1-9][0-9]{4,} **评注:** 腾讯QQ号从10000开始。 - **解析:** 此表达式确保了QQ号的第一个数字必须是非零数字(即1到9之间的任意一个),接着...
内容主要包括:自定义正则文法(在ProgramManager类中自定义),根据正则文法和输入的正则表达式构建NFA,NFA自动构建DFA,DFA最小化,DFA匹配字符串。其中含有大量的中文注释,并提供了测试方法。本人还是学生,...
正则表达式(Regular Expression,简称regex)是用于匹配字符串的一种模式,广泛应用于文本处理、数据验证、搜索和替换等场景。它通过一系列特定的字符、符号和语法来定义一个规则,用来查找、提取或替换符合该规则...