`
meohao
  • 浏览: 97746 次
  • 性别: Icon_minigender_1
  • 来自: 成都
社区版块
存档分类
最新评论

Java通过正则去掉文章里的多个连续空行

阅读更多
// 去掉多个换行  
ontent = content.replaceAll("(\r?\n(\\s*\r?\n)+)", "\r\n"); 


从word中读取内容,通过正则去掉文章里的多个连续空行
package cn.com.quiz;

/*
读取word内容并把内容写入到一个String中

去掉那些
换行+(任意个空白+换行) 替换为一个换行

换行可能是\n 也可能是 \r\n 所以使用 \r?

*/

import java.io.*;

import org.textmining.text.extraction.WordExtractor;

class FileToString
{
public static void main(String[] args) throws IOException
{


FileInputStream in = new FileInputStream(".\\123.doc");
WordExtractor extractor = new WordExtractor();

try
{
String out = extractor.extractText(in);
System.out.println("before: " + out);
out = out.replaceAll("(\r?\n(\\s*\r?\n)+)", "\r\n");
System.out.println("after: " + out);
}
catch (Exception e)
{
e.printStackTrace();
}

}
}
分享到:
评论

相关推荐

    去除源代码注释

    综上所述,去除Java源代码注释是一个涉及多个层面的任务,从简单的文本编辑到复杂的代码解析和混淆。根据项目需求和规模,选择合适的方法至关重要。在实际操作时,务必谨慎,以免误删重要信息。

    清理代码注释和空行

    例如,清理空行可能涉及删除连续的多个空行,或者统一代码中的空行规则,如每个函数定义前后保持一致的空行数。 为了实现自动清理代码注释和空行,我们可以编写脚本或者利用现有的工具。对于C++、Java等语言,可以...

    常用的 正则表达式

    在Java开发中,正则表达式是处理字符串模式匹配的强大工具。通过正则表达式的灵活运用,开发者可以高效地进行字符串的搜索、替换等操作。下面将详细介绍文章中提到的正则表达式及其应用场景。 ### 整数与浮点数匹配...

    MyEclipse删除网上复制下来的来代码带有的行号(正则去除行号)

    其中,`^`表示行的开始,`\s*`表示任意数量的空白字符,`\d+`表示一个或多个数字,最后的`\.`表示点号。 在输入了正则表达式后,可以将其应用于整个文件中,替换功能会自动找到所有匹配该模式的行,并去除行号部分...

    代码量统计,可以统计去掉注释和空行的代码量.pdf

    本文将介绍使用 Java 语言编写的代码量统计工具,该工具可以统计去掉注释和空行的代码量。 代码量统计工具 以下是使用 Java 语言编写的代码量统计工具的代码: ```java import java.io.BufferedReader; import ...

    editplus 代码编辑器html c++ jsp css

    星号表示,其前面的括号“[]”内的空格符或制表符,在一行中出现0个或多个。 (6)选择“换行符”,插入“\n”,表示回车符。 ④、“替换为”组合框保持空,表示删除查找到的内容。单击“替换”按钮逐个行删除空行,...

    智能代码行数检测

    在IT行业中,代码行数(Lines of Code, LOC)经常被用作衡量软件项目规模和...通过理解`ReadFromFile.java`和`ComputeCode.java`这两个文件的功能,我们可以更好地理解这一过程,并将其应用于实际的软件开发项目中。

    java实现代码统计小程序

    【Java实现代码统计小程序】是Java编程中一个实用的小项目,它的主要目的是统计指定目录下所有`.java`源代码文件中的代码行数、注释行数以及空行数。这个程序可以帮助开发者了解自己的编程工作量,例如统计每周完成...

    EditPlus 2整理信箱的工具

    星号表示,其前面的括号“[]”内的空格符或制表符,在一行中出现0个或多个。 (6)选择“换行符”,插入“\n”,表示回车符。 ④、“替换为”组合框保持空,表示删除查找到的内容。单击“替换”按钮逐个行删除空行,...

    Editplus 3[1].0

    星号表示,其前面的括号“[]”内的空格符或制表符,在一行中出现0个或多个。 (6)选择“换行符”,插入“\n”,表示回车符。 ④、“替换为”组合框保持空,表示删除查找到的内容。单击“替换”按钮逐个行删除空行,...

    EditPlus 2.12 使用技巧集萃

    1. 在“查找内容”栏输入`^\s*$`(`^`表示行首,`\s*`表示零个或多个空白字符,`$`表示行尾)。 2. 在“替换为”栏留空。 3. 选择“使用正则表达式”。 4. 点击“全部替换”。 这种方法能够有效去除文本中的空行。 ...

    j2se一句话学习笔记

    36. **正则表达式**:`s+`匹配一个或多个空格字符。 37. **Runtime.exec()**:执行操作系统命令,返回一个`Process`对象,可以获取命令执行的信息。 38. **Win-Api**:Windows API是Windows系统的应用程序编程接口...

    合并多行文字 HBWZ_合并多行文字HBWZ_源码.zip

    合并多行文字需要对字符串进行操作,例如连接(concatenation)或拼接多个字符串。 2. **换行符**:不同的操作系统使用不同的字符表示换行。在Windows上,它是"\r\n",在Unix/Linux上是"\n",在MacOS老版本中是"\r...

    信息采集的整个流程11111111111

    信息采集系统是一种专门用于收集特定...总的来说,信息采集系统涉及网络通信、HTML解析、正则表达式、数据过滤和存储等多个技术领域。通过优化这些步骤,可以构建出高效、精准的信息采集解决方案,满足特定信息需求。

    programming-style-exercise:实现不同编程风格的词频

    2. **预处理**:去除标点符号、数字和其他非字母字符,可能需要使用正则表达式。同时,将所有字母转换为小写,以确保不区分大小写的词频统计。 3. **分词**:将预处理后的字符串按空格或其他分隔符分割成单词列表。 ...

Global site tag (gtag.js) - Google Analytics