// 去掉多个换行
ontent = content.replaceAll("(\r?\n(\\s*\r?\n)+)", "\r\n");
从word中读取内容,通过正则去掉文章里的多个连续空行
package cn.com.quiz;
/*
读取word内容并把内容写入到一个String中
去掉那些
换行+(任意个空白+换行) 替换为一个换行
换行可能是\n 也可能是 \r\n 所以使用 \r?
*/
import java.io.*;
import org.textmining.text.extraction.WordExtractor;
class FileToString
{
public static void main(String[] args) throws IOException
{
FileInputStream in = new FileInputStream(".\\123.doc");
WordExtractor extractor = new WordExtractor();
try
{
String out = extractor.extractText(in);
System.out.println("before: " + out);
out = out.replaceAll("(\r?\n(\\s*\r?\n)+)", "\r\n");
System.out.println("after: " + out);
}
catch (Exception e)
{
e.printStackTrace();
}
}
}
分享到:
相关推荐
综上所述,去除Java源代码注释是一个涉及多个层面的任务,从简单的文本编辑到复杂的代码解析和混淆。根据项目需求和规模,选择合适的方法至关重要。在实际操作时,务必谨慎,以免误删重要信息。
例如,清理空行可能涉及删除连续的多个空行,或者统一代码中的空行规则,如每个函数定义前后保持一致的空行数。 为了实现自动清理代码注释和空行,我们可以编写脚本或者利用现有的工具。对于C++、Java等语言,可以...
在Java开发中,正则表达式是处理字符串模式匹配的强大工具。通过正则表达式的灵活运用,开发者可以高效地进行字符串的搜索、替换等操作。下面将详细介绍文章中提到的正则表达式及其应用场景。 ### 整数与浮点数匹配...
其中,`^`表示行的开始,`\s*`表示任意数量的空白字符,`\d+`表示一个或多个数字,最后的`\.`表示点号。 在输入了正则表达式后,可以将其应用于整个文件中,替换功能会自动找到所有匹配该模式的行,并去除行号部分...
本文将介绍使用 Java 语言编写的代码量统计工具,该工具可以统计去掉注释和空行的代码量。 代码量统计工具 以下是使用 Java 语言编写的代码量统计工具的代码: ```java import java.io.BufferedReader; import ...
星号表示,其前面的括号“[]”内的空格符或制表符,在一行中出现0个或多个。 (6)选择“换行符”,插入“\n”,表示回车符。 ④、“替换为”组合框保持空,表示删除查找到的内容。单击“替换”按钮逐个行删除空行,...
在IT行业中,代码行数(Lines of Code, LOC)经常被用作衡量软件项目规模和...通过理解`ReadFromFile.java`和`ComputeCode.java`这两个文件的功能,我们可以更好地理解这一过程,并将其应用于实际的软件开发项目中。
【Java实现代码统计小程序】是Java编程中一个实用的小项目,它的主要目的是统计指定目录下所有`.java`源代码文件中的代码行数、注释行数以及空行数。这个程序可以帮助开发者了解自己的编程工作量,例如统计每周完成...
星号表示,其前面的括号“[]”内的空格符或制表符,在一行中出现0个或多个。 (6)选择“换行符”,插入“\n”,表示回车符。 ④、“替换为”组合框保持空,表示删除查找到的内容。单击“替换”按钮逐个行删除空行,...
星号表示,其前面的括号“[]”内的空格符或制表符,在一行中出现0个或多个。 (6)选择“换行符”,插入“\n”,表示回车符。 ④、“替换为”组合框保持空,表示删除查找到的内容。单击“替换”按钮逐个行删除空行,...
1. 在“查找内容”栏输入`^\s*$`(`^`表示行首,`\s*`表示零个或多个空白字符,`$`表示行尾)。 2. 在“替换为”栏留空。 3. 选择“使用正则表达式”。 4. 点击“全部替换”。 这种方法能够有效去除文本中的空行。 ...
36. **正则表达式**:`s+`匹配一个或多个空格字符。 37. **Runtime.exec()**:执行操作系统命令,返回一个`Process`对象,可以获取命令执行的信息。 38. **Win-Api**:Windows API是Windows系统的应用程序编程接口...
合并多行文字需要对字符串进行操作,例如连接(concatenation)或拼接多个字符串。 2. **换行符**:不同的操作系统使用不同的字符表示换行。在Windows上,它是"\r\n",在Unix/Linux上是"\n",在MacOS老版本中是"\r...
信息采集系统是一种专门用于收集特定...总的来说,信息采集系统涉及网络通信、HTML解析、正则表达式、数据过滤和存储等多个技术领域。通过优化这些步骤,可以构建出高效、精准的信息采集解决方案,满足特定信息需求。
2. **预处理**:去除标点符号、数字和其他非字母字符,可能需要使用正则表达式。同时,将所有字母转换为小写,以确保不区分大小写的词频统计。 3. **分词**:将预处理后的字符串按空格或其他分隔符分割成单词列表。 ...