转帖过来的 直接看程序吧
public class StringUtil {
public void demo() {
// String stringInfo =
// "{infoNum='10' EdwardBlog='http://hi.baidu.com/Edwardworld' topicLength='20' titleShow='yes' EdwardMotto='I am a man,I am a true man!' /}";
String stringInfo = "Madam, I'm Adam";
System.out.println("待处理的字符串:" + stringInfo);
Pattern p = Pattern.compile("[.,\"\\?!:']");// 增加对应的标点
Matcher m = p.matcher(stringInfo);
String first = m.replaceAll(""); // 把英文标点符号替换成空,即去掉英文标点符号
System.out.println("去掉英文标点符号后的字符串:" + first);
p = Pattern.compile(" {2,}");// 去除多余空格
m = p.matcher(first);
String second = m.replaceAll(" ");
System.out.println("去掉多余空格后的字符串" + second);// second为最终输出的字符串
second = first.replace(" ", "");
System.out.println("去掉所有空格:" + second);
}
}
分享到:
相关推荐
在项目中直接使用正则表达式可以极大地提高代码的效率和可读性。以下是对给定文件中的正则表达式知识点的详细解析: ### 1. 匹配中文字符 正则表达式:`[\u4e00-\u9fa5]` 此表达式用于匹配中文字符,其中`\u4e00`...
在Java中,去除标点符号可以使用replaceAll()方法和正则表达式。 1. 使用replaceAll()方法去除标点符号 可以使用正则表达式 `\p{Punct}` 匹配标点符号,并使用replaceAll()方法去除标点符号。例如: ```java ...
1. **文本预处理**:在分析之前,文本通常需要进行预处理,包括去除标点符号、停用词(如“the”、“is”等常见词)以及词干提取,以便更好地提取关键信息。 2. **正则表达式构建器**:程序可能提供一个界面,让...
1. 基本字符:正则表达式由一些基本字符组成,包括字母、数字、标点符号以及特殊字符。例如,"."代表任意字符,"\d"表示数字,"\w"表示字母或数字,"\s"表示空白字符。 2. 量词:量词用来指定一个模式出现的次数。...
如果想在正则表达式中使用特殊的标点符号,必须在它们之前加上一个 "\" . 2.字符类 将单独的直接符放进中括号内就可以组合成字符类.一个字符类和它所包含的任何一个字符都匹配,所以正则表达式 / [abc] / 和字母 ...
在Java中,可以使用replaceAll()方法结合Unicode属性匹配去除标点符号。正则表达式 "\\p{Punct}" 表示匹配任何标点符号字符。 ```java String stri = "ss&*(,.~1如果@&(^-自己!!知道`什`么#是$苦%……Z,&那*()么一...
但仅去除字母可能不足以处理英文句子,因为还需要处理标点符号、空格以及可能的换行符。可以扩展正则表达式来匹配这些情况: ```java String cleanedText = text.replaceAll("[\\p{Alpha}\\s.,!?]+", ""); // 去除...
- **文本清理**:例如,去除或标准化文本中的特殊字符、标点符号等。 - **格式转换**:比如,将日期格式从`dd-mm-yyyy`转换为`yyyy-mm-dd`。 - **数据验证**:确保输入的字符串符合某种格式,如电子邮件地址或电话...
总结来说,JavaScript的正则表达式是处理字符串的强大工具,可以有效地去除标点符号和提取HTML中的纯文本。这两个功能在许多Web应用程序中都非常有用,例如数据清理、文本分析和用户输入验证。理解并熟练运用正则...
对于英文文本,可以使用空格作为分隔符,然后使用正则表达式去除标点符号。 6. **文件操作**:Java提供了丰富的API来进行文件操作。在这里,程序可能创建一个`PrintWriter`对象来写入统计结果到TXT文件,如: ```...
在数据库领域,Oracle 10g引入了对正则表达式的支持,这大大增强了SQL语言的功能性与灵活性。 在介绍Oracle 10g中正则表达式的新功能之前,我们先来了解一下正则表达式的基本概念: - **基本概念**:正则表达式是...
特殊字符通常指的是那些非字母数字的字符,如空格、标点符号、制表符等。表情符号则是由Unicode编码支持的一系列图形符号,包括表情、手势、动物、食物等,常见于社交媒体和聊天应用。 2. **为什么要过滤特殊字符...
1. **预处理**:使用正则表达式去除字符串中的标点符号,并将所有字母转换为小写。 2. **单词提取**:通过空格分隔字符串得到单词列表。 3. **频次统计**:使用HashMap存储每个单词及其出现次数。遍历单词列表,每次...
因此,整个正则表达式的意思是匹配任何非数字、非字母、非指定汉字和非指定标点符号的字符序列。 在给出的代码示例中,`str`是包含特殊字符的字符串变量。通过`replaceAll`方法,所有的特殊字符将被替换为空字符串...
在这个例子中,使用了正则表达式\pP来匹配所有的标点符号。这里的P代表Unicode中的“Punctuation”类别。在Unicode正则表达式中,\pP可以匹配任何标点字符。与此相对应的还有一个大写的P,它表示匹配任何属于标点...
- 可能还会有其他辅助方法,如加载违禁词列表、预处理文本(去除标点符号、转换为小写等)。 5. **性能优化**: - 为了提高性能,可能会采用缓存策略,将已经过滤过的文本或结果存储起来,避免重复计算。 - 对于...
// 去除标点符号和多余空格 String[] words = text.replaceAll("[^a-zA-Z ]", "").toLowerCase().split("\\s+"); ``` 这里使用 `replaceAll("[^a-zA-Z ]", "")` 方法去除除了字母和空格之外的所有字符,其中 `[^a-...
这可以通过自定义的map函数实现,使用正则表达式去除标点符号,并使用`toLowerCase()`方法转换为小写: ```java JavaRDD<String> words = textFile.flatMap(line -> Arrays.asList(line.replaceAll("[^a-zA-Z0-9]",...