一个有用的方法, bak一下
public String html2Text(String inputString) {
String htmlStr = inputString;
String textStr = "";
java.util.regex.Pattern p_script;
java.util.regex.Matcher m_script;
java.util.regex.Pattern p_style;
java.util.regex.Matcher m_style;
java.util.regex.Pattern p_html;
java.util.regex.Matcher m_html;
try {
String regEx_script = "<[//s]*?script[^>]*?>[//s//S]*?<[//s]*?///[//s]*?script[//s]*?>";
String regEx_style = "<[//s]*?style[^>]*?>[//s//S]*?<[//s]*?///[//s]*?style[//s]*?>";
String regEx_html = "<[^>]+>";
p_script = Pattern.compile(regEx_script, Pattern.CASE_INSENSITIVE);
m_script = p_script.matcher(htmlStr);
htmlStr = m_script.replaceAll("");
p_style = Pattern.compile(regEx_style, Pattern.CASE_INSENSITIVE);
m_style = p_style.matcher(htmlStr);
htmlStr = m_style.replaceAll("");
p_html = Pattern.compile(regEx_html, Pattern.CASE_INSENSITIVE);
m_html = p_html.matcher(htmlStr);
htmlStr = m_html.replaceAll("");
textStr = htmlStr;
} catch (Exception e) {
System.err.println("Html2Text: " + e.getMessage());
}
return textStr.trim();
}
分享到:
相关推荐
在标题"html2text-1.0"中,我们可以推断出这是一款特定版本(1.0)的HTML到TXT转换软件。描述中的重复部分"【HTML转TXT】html2text-1.0-2009-6-2"可能表示这是一个2009年6月2日发布的更新或版本标识。 标签"html转...
html2text 是一个 Python 包可以将 HTML 转成 Markdown 格式。 示例代码: import html2text h = html2text.HTML2Text() h.ignore_links = True print h.handle("<p>Hello, ...
其中,“html2text”是一个非常实用的Python库,正如标题所示,它的主要功能是将HTML格式的网页内容转换为Markdown格式的文本,方便阅读和编辑。Markdown是一种轻量级的标记语言,其语法简洁明了,易于人读也易于...
HTML2Text是一个小巧而强大的工具,专门用于将HTML格式的网页内容转换成纯文本(TXT)格式。这个程序在UNIX/Linux环境中广泛使用,但也适用于其他操作系统。标题中的"html2text-1_2_1.tar.gz"表明这是一个版本为...
资源分类:Python库 所属语言:Python 资源全名:html2text-3.200.2.tar.gz 资源来源:官方 安装方法:https://lanzao.blog.csdn.net/article/details/101784059
资源分类:Python库 所属语言:Python 资源全名:html2text_no_md_escapes-2020.8.8-py2-none-any.whl 资源来源:官方 安装方法:https://lanzao.blog.csdn.net/article/details/101784059
### Python使用html2text库实现从HTML转Markdown的方法详解 #### 概述 在Web开发、数据处理等领域中,经常需要将HTML格式的文本转换成Markdown格式,以便于阅读或进一步处理。Python作为一种广泛使用的编程语言,...
from html2text import HTML2Text html = '<h1>Hello, World!</h1><p>Welcome to the world of programming.</p>' converter = HTML2Text() text = converter.handle(html) print(text) ``` 这段代码会输出: ```...
html2text 将HTML转换为带有markdown风味的文本 介绍 确保所有人都能阅读您的电子邮件! 将HTML转换为原始文本,对于发送带有格式相当好的TXT文档作为后备格式的精美HTML电子邮件很有用(例如,对于那些不允许HTML...
开源项目-jaytaylor-html2text是一个基于Golang的库,专门设计用于将HTML文档转换成纯文本格式。这个库的创建者是Jay Taylor,它为开发者提供了一种方便、高效的方法,从HTML源代码中提取主要内容,适用于那些需要...
html2text 用 Go 编写的 html 到文本转换器。 这个库将从源代码中剥离 html 标签并对文本执行清理。 这包括正确添加新行和从链接附加到 url 之类的事情。 安装 去 github.com/sgoertzen/html2text 用法 import " ...
Python中的html2text库是一个非常实用的工具,它允许开发者将HTML格式的文本转换成Markdown格式,便于阅读和编辑。Markdown是一种轻量级的标记语言,它的语法简洁明了,适合编写文档、笔记或者博客文章。 html2text...
html2text html2text是一个Rust板条箱,可将HTML转换为纯文本。 它利用Servo项目HTML解析器html5ever,使用DOM生成html2text html2text是一个Rust板条箱,可将HTML转换为纯文本。 它利用Servo项目HTML解析器...
html2text html2text是一个Python脚本,可将HTML页面转换为清晰易读的纯ASCII文本。 更好的是,ASCII也恰好是有效的Markdown(文本到HTML格式)。 用法: html2text [filename [encoding]] 选项 描述 --version ...
html2text html2text是一个非常简单的脚本,它使用DOM方法将HTML转换为类似于浏览器将呈现的格式-非常适合需要快速文本表示的地方。 例如: < html > < title > Ignored Title </ title > < ...
html2text-lib 用于将 HTML 转换为纯文本的 C++ 库。 起源 该库基于应用程序 html2text: ://www.aaronsw.com/2002/html2text/ ##去做 创建一些示例和文档。
6. **工具与库**:有许多现成的工具和编程库可以方便地完成HTML到文本的转换,例如Python的`html2text`库,它能将HTML字符串转换为Markdown格式的文本,或者JavaScript的`html-text`库,同样实现了这个功能。...
- **在线工具**:网络上有很多在线HTML到Text转换工具,如`html2text`网站,只需复制HTML内容,粘贴并点击转换即可。 4. **百度编辑器(UEditor)与HTML转换** - UEditor提供了丰富的编辑功能,生成的HTML内容...