import java.io.BufferedReader;
import java.io.FileInputStream;
import java.io.InputStreamReader;
import java.util.regex.Matcher;
import java.util.regex.Pattern;
public class HtmltoText {
public static String HtmlToText(String inputString)
{
String htmlStr = inputString; //含html标签的字符串
String textStr ="";
Pattern p_script;
Matcher m_script;
Pattern p_style;
Matcher m_style;
Pattern p_html;
Matcher m_html;
Pattern p_spe;
Matcher m_spe;
Pattern p_blank;
Matcher m_blank;
Pattern p_table;
Matcher m_table;
Pattern p_enter;
Matcher m_enter;
try {
String regEx_script = "<[\\s]*?script[^>]*?>[\\s\\S]*?<[\\s]*?\\/[\\s]*?script[\\s]*?>";
//定义script的正则表达式.
String regEx_style = "<[\\s]*?style[^>]*?>[\\s\\S]*?<[\\s]*?\\/[\\s]*?style[\\s]*?>";
//定义style的正则表达式.
String regEx_html = "<[^>]+>";
//定义HTML标签的正则表达式
String regEx_spe="\\&[^;]+;";
//定义特殊符号的正则表达式
String regEx_blank=" +";
//定义多个空格的正则表达式
String regEx_table="\t+";
//定义多个制表符的正则表达式
String regEx_enter="\n+";
//定义多个回车的正则表达式
p_script = Pattern.compile(regEx_script,Pattern.CASE_INSENSITIVE);
m_script = p_script.matcher(htmlStr);
htmlStr = m_script.replaceAll(""); //过滤script标签
p_style = Pattern.compile(regEx_style,Pattern.CASE_INSENSITIVE);
m_style = p_style.matcher(htmlStr);
htmlStr = m_style.replaceAll(""); //过滤style标签
p_html = Pattern.compile(regEx_html,Pattern.CASE_INSENSITIVE);
m_html = p_html.matcher(htmlStr);
htmlStr = m_html.replaceAll(""); //过滤html标签
p_spe = Pattern.compile(regEx_spe,Pattern.CASE_INSENSITIVE);
m_spe = p_spe.matcher(htmlStr);
htmlStr = m_spe.replaceAll(""); //过滤特殊符号
p_blank = Pattern.compile(regEx_blank,Pattern.CASE_INSENSITIVE);
m_blank = p_blank.matcher(htmlStr);
htmlStr = m_blank.replaceAll(" "); //过滤过多的空格
p_table = Pattern.compile(regEx_table,Pattern.CASE_INSENSITIVE);
m_table = p_table.matcher(htmlStr);
htmlStr = m_table.replaceAll(" "); //过滤过多的制表符
p_enter = Pattern.compile(regEx_enter,Pattern.CASE_INSENSITIVE);
m_enter = p_enter.matcher(htmlStr);
htmlStr = m_enter.replaceAll(" "); //过滤过多的制表符
textStr = htmlStr;
}catch(Exception e)
{
System.err.println("Html2Text: " + e.getMessage());
}
return textStr;//返回文本字符串
}
public static void main(String[] args)throws Exception{
FileInputStream fis = new FileInputStream("f:\\UPGRADING-2.0.html");
BufferedReader buff = new BufferedReader(new InputStreamReader(fis));
String str = null;
long lstart = System.currentTimeMillis();
StringBuffer Sbuff = new StringBuffer();
str = buff.readLine();
while(str!=null){
Sbuff.append(str+"\n");
str = buff.readLine();
}
HtmlToText(Sbuff.toString());
long lend = System.currentTimeMillis();
System.out.println(lend-lstart);
//System.out.println(HtmlToText(Sbuff.toString()));
}
}
相关推荐
总的来说,"Html To Txt 批量转换"是一个实用的工具,它能够帮助用户快速有效地将HTML文档转换为纯文本格式,适用于多种工作场景。无论是个人使用还是在团队项目中,都能显著提高处理HTML文件的效率,同时保证系统的...
"Html To Txt 批量转换 1.10.txt"文件很可能是该软件的使用说明书或者说明文档。它可能包含了详细的安装步骤、操作指南、常见问题解答以及任何特定的系统要求。用户应该首先阅读此文件,以了解如何正确使用该工具,...
【标题】"totxt从 HTML 文档中提取 TEXT 文件.zip" 涉及的主要知识点是使用VB(Visual Basic)编程语言来实现从HTML文档中提取纯文本内容,并将其转化为TXT文件。这一过程对于数据处理、网页抓取或者文本分析等场景...
“html_to_txt”和“html2text”是该程序的关键词,表示其核心功能是进行HTML到TXT的转换。 在压缩包内的文件"html2text-1.2.1"可能包含了源代码、文档、示例以及安装脚本等资源。用户通常需要使用tar和gzip命令来...
1. **支持的文件格式**:Atrise ToTXT能够处理多种非纯文本格式,包括但不限于Microsoft Word(.doc, .docx)、Microsoft Excel(.xls, .xlsx)、PDF文档、HTML网页、RTF富文本、XML、CSV等。这使得用户无需拥有原始...
这个过程通常通过特定的工具或软件来实现,如描述中提到的“html to txt”。 标签“sbquj”可能是错误的或不明确的,因此在此我们不会进一步讨论。我们将重点放在HTML到TXT的转换上。 在提供的压缩包文件中,我们...
绝对免费在线HTML到TXT转换器。 HTML到TXT Converter - YCT好吧,转换器的工作似乎很容易。您可能可能会争辩说,您可以将文本从网页复制并在文本编辑器中粘贴以获取TXT版本。但这不是这种情况。在某些情况下,该...
《All to txt 电子书转换》把世面上所有电子书转换所用到的软件全部打包了!大家只需要下载一个包,就可以搞定所有的电子书,转成TXT格式!很轻松! 功能包括: 1 HTM(HTML)转TXT 2 CHM转TXT 3 PDF转TXT 4 JAR转TXT ...
"Some PDF to Txt Converter.JPG" 可能是该软件的截图或者界面预览,用户可以通过这张图片了解软件的外观和界面布局,以及如何操作软件进行PDF到TXT的转换。 "汉化说明.txt" 文件则提供了关于汉化过程的详细信息,...
在压缩包中,"使用说明.txt" 文件应当包含了详细的操作步骤和注意事项,指导用户如何使用HTML_to_Exe工具进行打包操作。"3. PACK" 可能是描述打包过程的一个文件,或者是工具中的一个步骤或配置选项。"1. DO" 和 "2....
Weeny Free HTML to PDF Converter是一款免费且功能强大的转换工具,专为用户设计,旨在将HTML、XML以及TXT文档轻松快捷地转换为高质量的PDF格式。这款软件的出现,极大地简化了网页内容转化为便于阅读和打印的PDF...
PDF转换器是一款强大的工具,能够将PDF文档转换成多种格式,包括Word、TXT、HTML以及图像格式。在处理PDF文件时,这样的转换器是至关重要的,尤其当你需要编辑PDF内容或者在不同设备和应用程序间共享文件时。下面,...
在C#编程中,读取文本文件,如.txt、.cs或.html文件,是一项常见的任务。这涉及到使用System.IO命名空间中的类,如StreamReader和FileStream。以下将详细讲解如何实现这个功能,以及如何允许用户自定义目录。 首先...
另外,Adobe提供了PDF-to-HTML SDK,可以更高效地完成转换。 4. **TXT转HTML**:最简单,只需将文本内容直接插入HTML标签,如`<pre>`或`<code>`,保持原始格式不变。 前端部分,预览功能主要依赖IFrame元素。...
"all to txt" 提供了一种将各种电子书格式转换为纯文本(TXT)格式的解决方案。TXT格式因其简洁、通用和易于阅读的特性,被广泛用于跨平台的数据交换和阅读。下面将详细介绍关于电子书格式转换和TXT格式的相关知识点...
在项目“convert-html-to-word”中,提供的"convert html to word.txt"文件可能包含了实现此功能的Java代码示例或指导步骤。通过研究和理解这份文本,开发者可以学习如何将理论知识应用于实际编程实践中。 需要注意...
电子书转换器是一种工具软件,专门用于将特定格式的电子书,如.exe和.chm,转换为更通用的.txt文本格式。这样的转换器对于那些希望在没有特定阅读器或者想要在不同设备上轻松访问内容的用户来说非常有用。下面我们将...
用itext5 对pdf盖章,支持关键字盖章,或者坐标盖章,单页和多页都可以,下载即可用,完美盖章。有什么疑问的,欢迎留言,讨论交流。
### Thaiphoon Burner 如何获取 htp、html、txt、doc 格式的文件 在探讨如何利用Thaiphoon Burner这一专业工具获取不同格式的文件之前,我们首先来了解一下Thaiphoon Burner及其功能。Thaiphoon Burner是一款非常...