`
huhu_long
  • 浏览: 71855 次
  • 性别: Icon_minigender_1
  • 来自: 杭州
社区版块
存档分类
最新评论

html2text

阅读更多
一个有用的方法, bak一下

public String html2Text(String inputString) {
	String htmlStr = inputString;
	String textStr = "";
	java.util.regex.Pattern p_script;
	java.util.regex.Matcher m_script;
	java.util.regex.Pattern p_style;
	java.util.regex.Matcher m_style;
	java.util.regex.Pattern p_html;
	java.util.regex.Matcher m_html;

	try {
		String regEx_script = "<[//s]*?script[^>]*?>[//s//S]*?<[//s]*?///[//s]*?script[//s]*?>";
		String regEx_style = "<[//s]*?style[^>]*?>[//s//S]*?<[//s]*?///[//s]*?style[//s]*?>";
		String regEx_html = "<[^>]+>";

		p_script = Pattern.compile(regEx_script, Pattern.CASE_INSENSITIVE);
		m_script = p_script.matcher(htmlStr);
		htmlStr = m_script.replaceAll("");

		p_style = Pattern.compile(regEx_style, Pattern.CASE_INSENSITIVE);
		m_style = p_style.matcher(htmlStr);
		htmlStr = m_style.replaceAll("");

		p_html = Pattern.compile(regEx_html, Pattern.CASE_INSENSITIVE);
		m_html = p_html.matcher(htmlStr);
		htmlStr = m_html.replaceAll("");

		textStr = htmlStr;

	} catch (Exception e) {
		System.err.println("Html2Text: " + e.getMessage());
	}

	return textStr.trim();
}
分享到:
评论

相关推荐

    【HTML转TXT】html2text-1.0

    在标题"html2text-1.0"中,我们可以推断出这是一款特定版本(1.0)的HTML到TXT转换软件。描述中的重复部分"【HTML转TXT】html2text-1.0-2009-6-2"可能表示这是一个2009年6月2日发布的更新或版本标识。 标签"html转...

    HTML转Markdownd的Python库html2text.zip

    html2text 是一个 Python 包可以将 HTML 转成 Markdown 格式。 示例代码: import html2text h = html2text.HTML2Text() h.ignore_links = True print h.handle("&lt;p&gt;Hello, ...

    Python-html2text将HTML转换为Markdown格式文本

    其中,“html2text”是一个非常实用的Python库,正如标题所示,它的主要功能是将HTML格式的网页内容转换为Markdown格式的文本,方便阅读和编辑。Markdown是一种轻量级的标记语言,其语法简洁明了,易于人读也易于...

    html2text-1_2_1.tar.gz_TXT文件_UNIX_html_html to txt_html2text

    HTML2Text是一个小巧而强大的工具,专门用于将HTML格式的网页内容转换成纯文本(TXT)格式。这个程序在UNIX/Linux环境中广泛使用,但也适用于其他操作系统。标题中的"html2text-1_2_1.tar.gz"表明这是一个版本为...

    Python库 | html2text-3.200.2.tar.gz

    资源分类:Python库 所属语言:Python 资源全名:html2text-3.200.2.tar.gz 资源来源:官方 安装方法:https://lanzao.blog.csdn.net/article/details/101784059

    Python库 | html2text_no_md_escapes-2020.8.8-py2-none-any.whl

    资源分类:Python库 所属语言:Python 资源全名:html2text_no_md_escapes-2020.8.8-py2-none-any.whl 资源来源:官方 安装方法:https://lanzao.blog.csdn.net/article/details/101784059

    python使用html2text库实现从HTML转markdown的方法详解.docx

    ### Python使用html2text库实现从HTML转Markdown的方法详解 #### 概述 在Web开发、数据处理等领域中,经常需要将HTML格式的文本转换成Markdown格式,以便于阅读或进一步处理。Python作为一种广泛使用的编程语言,...

    计算机软件-编程源码-html2text.zip

    from html2text import HTML2Text html = '&lt;h1&gt;Hello, World!&lt;/h1&gt;&lt;p&gt;Welcome to the world of programming.&lt;/p&gt;' converter = HTML2Text() text = converter.handle(html) print(text) ``` 这段代码会输出: ```...

    html2text:Golang HTML到纯文本转换库

    html2text 将HTML转换为带有markdown风味的文本 介绍 确保所有人都能阅读您的电子邮件! 将HTML转换为原始文本,对于发送带有格式相当好的TXT文档作为后备格式的精美HTML电子邮件很有用(例如,对于那些不允许HTML...

    开源项目-jaytaylor-html2text.zip

    开源项目-jaytaylor-html2text是一个基于Golang的库,专门设计用于将HTML文档转换成纯文本格式。这个库的创建者是Jay Taylor,它为开发者提供了一种方便、高效的方法,从HTML源代码中提取主要内容,适用于那些需要...

    html2text:用 Go 编写的 html 到文本转换器

    html2text 用 Go 编写的 html 到文本转换器。 这个库将从源代码中剥离 html 标签并对文本执行清理。 这包括正确添加新行和从链接附加到 url 之类的事情。 安装 去 github.com/sgoertzen/html2text 用法 import " ...

    python使用html2text库实现从HTML转markdown的方法详解

    Python中的html2text库是一个非常实用的工具,它允许开发者将HTML格式的文本转换成Markdown格式,便于阅读和编辑。Markdown是一种轻量级的标记语言,它的语法简洁明了,适合编写文档、笔记或者博客文章。 html2text...

    html2text-将HTML呈现为纯文本-Rust开发

    html2text html2text是一个Rust板条箱,可将HTML转换为纯文本。 它利用Servo项目HTML解析器html5ever,使用DOM生成html2text html2text是一个Rust板条箱,可将HTML转换为纯文本。 它利用Servo项目HTML解析器...

    html2text:将HTML转换为Markdown格式的文本

    html2text html2text是一个Python脚本,可将HTML页面转换为清晰易读的纯ASCII文本。 更好的是,ASCII也恰好是有效的Markdown(文本到HTML格式)。 用法: html2text [filename [encoding]] 选项 描述 --version ...

    html2text:一个将HTML转换为纯文本格式PHP组件

    html2text html2text是一个非常简单的脚本,它使用DOM方法将HTML转换为类似于浏览器将呈现的格式-非常适合需要快速文本表示的地方。 例如: &lt; html &gt; &lt; title &gt; Ignored Title &lt;/ title &gt; &lt; ...

    html2text-lib:用于将 HTML 转换为纯文本的 C++ 库

    html2text-lib 用于将 HTML 转换为纯文本的 C++ 库。 起源 该库基于应用程序 html2text: ://www.aaronsw.com/2002/html2text/ ##去做 创建一些示例和文档。

    html转换成text

    6. **工具与库**:有许多现成的工具和编程库可以方便地完成HTML到文本的转换,例如Python的`html2text`库,它能将HTML字符串转换为Markdown格式的文本,或者JavaScript的`html-text`库,同样实现了这个功能。...

    百度编辑器html转换成text

    - **在线工具**:网络上有很多在线HTML到Text转换工具,如`html2text`网站,只需复制HTML内容,粘贴并点击转换即可。 4. **百度编辑器(UEditor)与HTML转换** - UEditor提供了丰富的编辑功能,生成的HTML内容...

Global site tag (gtag.js) - Google Analytics