#在rubymine控制台
"幸福".match(/\w/)
>> #<MatchData:0x4f547dc>
#在Scite里
"幸福".match(/\w/)
>>nil
我还是比较同意这个人的观点:
下面段话来自:http://topic.csdn.net/u/20080612/16/3c91ab9c-978e-44b1-8d92-c97b74f7a346.html
1、
\w能不能匹配汉字要视你的操作系统和你的应用环境而定
\w 任意一个字母或数字或下划线,也就是 A~Z,a~z,0~9,_ 中任意一个
一般来说,是这样的,但是在某些情况下,\w也会匹配本地字符集,比如中文系统的中文,全角数字等,所以在明确要求是A~Z,a~z,0~9,_ 中的一个的时候,用[A-Za-z0-9_],而不用\w
判定条件我知道的有两个,两个条件是互相制约的:
一是要看你的系统是什么系统,中文系统下是可以匹配汉字的
二是要看你的应用环境,如果是在C#程序中,是可以匹配汉字的,在javascript或验证控件中,是不可以匹配汉字的
其它\d,\s也是如此
2、VMM已经给出答案了,就不废话了
分享到:
相关推荐
### 匹配中文字符的正则表达式 在日常开发工作中,经常需要处理各种各样的字符串,其中就包括中文字符的处理。对于中文字符的匹配,正则表达式是一种非常有效的工具。 #### 正则表达式的概念 正则表达式(Regular...
- 示例:假设我们要匹配一个字符串中的所有单词,但不考虑换行符,可以使用`.`来表示任意字符。 2. **`\w`** - 含义:匹配字母、数字、下划线以及汉字等字符。 - 等价于`[A-Za-z0-9_]`或`[\u4e00-\u9fa5A-Za-z0...
1. **匹配中文字符**: `[\u4e00-\u9fa5]`:这个正则表达式用于匹配任何中文字符。Unicode 范围 `\u4e00` 至 `\u9fa5` 包括了大部分的简体和繁体中文字符。 2. **匹配双字节字符**: `[^\x00-\xff]`:这个表达式...
7. **预定义字符类**:`\w` 匹配单词字符(等同于字母、数字和下划线),`\W` 匹配非单词字符,`\s` 匹配空白字符(包括空格、换行、制表符等),`\S` 匹配非空白字符,`\d` 匹配数字,`\D` 匹配非数字字符。...
1. 匹配中文字符:正则表达式中,Unicode范围是表示中文字符集的常用方式。如[\u4e00-\u9fa5],它能够匹配从汉字“一”到“龥”的所有中文汉字。这个范围涵盖了GB2312编码中所有的汉字,以及部分扩展汉字。 2. 匹配...
10. **匹配字符串中的汉字:** 使用`[\u4e00-\u9fa5]+`,这个范围涵盖了Unicode中的所有汉字。 11. **匹配邮箱地址:** 使用`[A-Za-z0-9._%+-]+@[A-Za-z0-9.-]+\.[A-Za-z]{2,}`,匹配标准的电子邮件地址格式。 ...
\w匹配的仅仅是中文,数字,字母,对于国人来讲,仅匹配中文时常会用到,见下 代码如下: 匹配中文字符的正则表达式: [\u4e00-\u9fa5] 或许你也需要匹配双字节字符,中文也是双字节的字符 代码如下: 匹配双字节...
这篇文章主要讲如何使用正则匹配中文字符,中文正则表达式的匹配规则不像其他正则规则一样容易记住,下面一起看看这个中文正则表达式是怎么样的。 \w匹配的仅仅是中文,数字,字母,对于国人来讲,仅匹配中文时常会...
易语言是一种专为中国人设计的编程语言,它以简化的语法和中文编程为特色,旨在降低编程门槛,让更多的人能够参与到编程中来。在易语言中,“正则万能匹配”是一个重要的功能,用于处理字符串的模式匹配和查找。本文...
- 匹配中文、英文、数字但不包括下划线等符号的表达式:`^[\u4E00-\u9FA5A-Za-z0-9]+$` 或 `^[\u4E00-\u9FA5A-Za-z0-9]{2,20}$`; - 允许输入含有特定符号如`^%&',;=?$"`等字符的表达式:`[^%&',;=?$\x22]+`; - ...
在这个场景中,可能会用正则表达式来匹配中文字符,因为中文字符在Unicode编码中有一个特定的范围。 2. **Unicode与编码**:Python默认使用Unicode编码,因此在处理中文字符时需要理解Unicode编码的基本概念。中文...
* `\W` 匹配字母、数字、下划线或汉字以外的字符 * `\s` 匹配任意的空白符 * `\b` 匹配单词的开始或结束 * `\d` 匹配数字 * `?` 匹配前面的字符零次或一次 * `+` 匹配前面的字符一次或多次 * `*` 匹配前面的字符零次...
3. **分割字符串为单词列表**:使用正则表达式`\b\w+\b`将字符串拆分为单词列表。 ```python words = re.findall(r'\b\w+\b', text) ``` 4. **创建词频字典**:使用Python的`collections.Counter`来计算每个单词...
`i`使匹配不区分大小写,`g`全局匹配,不只在字符串的开始处查找,`m`使`^`和`$`分别匹配每一行的开始和结束。 这些只是JavaScript正则表达式的基础知识,实际上正则表达式还可以使用更复杂的构造,如递归、回溯...
1. **匹配中文字符** - **表达式**:`[\u4e00-\u9fa5]` - **解析**:该表达式匹配所有中文字符。Unicode 范围 `[\u4e00-\u9fa5]` 涵盖了所有的常用汉字。 2. **匹配双字节字符(包括汉字在内)** - **表达式**:...
点号匹配除换行符以外的任何字符,\w匹配字母、数字、汉字和下划线,\W则是其反义,匹配非单词字符。\d匹配数字,\D匹配非数字字符,\s匹配空白字符,\S则匹配非空白字符。 字符类是另一种重要的概念,它允许我们...
4. **字符类型识别**:在分词过程中,首先识别当前字符串是否为字母、数字或汉字,并据此进行相应的匹配,以此提高分词效率。 5. **二级Hash表处理**:利用二级Hash表结构,加速分词过程的同时,保持较高的分词精度...
这意味着在 .NET 环境下,`\w` 的定义实际上更宽泛了,除了标准的字母、数字和下划线外,还包括了汉字字符。 - **注意事项**: - 不同的编程环境对于正则表达式的解释可能略有差异,因此在使用时需要注意当前环境下...