`
ybhuxiao
  • 浏览: 193260 次
  • 性别: Icon_minigender_1
  • 来自: 北京
社区版块
存档分类
最新评论

从html里面提取文本,只保留br和p

    博客分类:
  • java
阅读更多
从网上down了很多信息,但是带了一些不需要的table,div等标签,影响显示布局,就批量清理一下,我这里只保留p和br,要保留其他的,稍微修改一下规则就ok了

原理很easy:
1. 换掉所有的script和style
2. '换成'',方便操作数据库,这个不需要可以去掉
3. 把要保留的标签如<br />替换为[--br /--]
4. 替换掉剩下的以“<”开始以“>”结尾的内容
5. 把[--abc--]这类东西换回来,使用反向引用

	/**
	 * description: 只保留br、p标签<br>
	 * 
	 * @return 2010-4-2
	 * @author huxiao kskr@qq.com
	 */
	public static String clear(String htmlStr) {
		return htmlStr.replaceAll("<script.*</script>", "").replaceAll("<style.*</style>", "").replaceAll("'", "''").replaceAll("<(/?p|br[^>]*)>", "[--$1--]").replaceAll("<[^<>]+>", " ").replaceAll("\\[--([^-]+)--\\]", "<$1>");
	}



0
0
分享到:
评论

相关推荐

    C#获取HTML中的文本信息

    在IT领域,尤其是在Web开发中,经常需要处理HTML文档并从中提取文本信息。"C#获取HTML中的文本信息"这个主题涉及到的是如何使用C#语言从HTML文档中剥离出纯文本内容,通常是为了数据分析、信息提取或者内容展示等...

    html标签集合大全

    - **作用**:预格式化文本,保留文本原有的空格和换行。 - **示例**: ```html 这是 一个 预格式化文本示例。 ``` #### 5. `&lt;center&gt;` 标签 - **作用**:使内容居中显示。 - **示例**: ```html 这是...

    html转换成text

    3. **提取文本内容**:从DOM树中提取纯文本的过程,就是遍历每一个节点,忽略掉HTML标签,只保留文本节点的内容。对于嵌套的HTML元素,我们需要递归地处理子节点,确保没有遗漏任何文本。 4. **处理特殊情况**:...

    asp去掉html,保留img br p div的正则实现代码

    本文将深入探讨如何使用正则表达式在ASP中移除HTML标签,但保留`&lt;img&gt;`, `&lt;br&gt;`, `&lt;p&gt;` 和 `&lt;div&gt;` 这些特定标签。这种操作对于数据展示、文本摘要或邮件处理等场景非常有用。 首先,我们需要了解正则表达式...

    php实现转换html格式为文本格式的方法

    通常情况下,这样的需求出现在需要从网页中提取文本信息进行进一步处理时。在这个过程中,需要去除HTML标签,只保留文本内容,有时还需考虑保留特定格式,比如段落、列表等。 在转换过程中,一个关键的步骤是过滤掉...

    C#实现将HTML转换成纯文本的方法

    在C#编程中,将HTML转换为纯文本是一项常见的任务,尤其在处理网页内容或邮件正文时。这个过程主要是为了去除HTML标记,保留文本...这样的方法在处理大量HTML数据时,能有效地提取出文本信息,便于进一步的分析和展示。

    html思维导图及总结

    - &lt;pre&gt;:显示预格式化文本,保留空白符和换行符。 - &lt;s&gt;:表示不再相关或者不再正确的文本。 4. HTML文档结构标签: - 、、、、、&lt;nav&gt;:用于定义文档的不同部分,有助于改善可访问性和SEO。 5. HTML5新增标签...

    李炎恢HTML课件

    根据给定的文件信息,我们可以总结出一系列关于HTML的基础知识点,这些...以上就是从给定文件中提取的关键HTML知识点,涵盖了HTML文档的基本结构、控制标记的格式及最常用的控制标记,为初学者提供了全面的入门指南。

    HTML----学习资料

    从给定的文件信息中,我们可以提取到一系列与HTML相关的知识点,这将为初学者提供一个全面的基础概览。以下是对这些知识点的详细说明: ### 1. HTML基础标签 - `&lt;HTML&gt;`:文档的根元素,所有其他HTML元素都应位于`...

    php提取网页正文内容的例子__3.docx

    4. **匹配中文内容**:正文往往包含在`&lt;div&gt;`, `&lt;p&gt;`, `&lt;h&gt;`等标签中,因此类会聚焦于这些标签内的中文文本。 然而,这并不总是能完美解决问题,因为还有可能残留如页脚信息等其他多余内容。为了进一步提高准确性,...

    HTML全部代码

    - **`&lt;pre&gt;` 标签**:预格式化文本,保留空格和换行符。 ### 块级与行内元素 - **块级元素**:如 `&lt;div&gt;`、`&lt;p&gt;` 等,每个元素都会独占一行。 - **行内元素**:如 `&lt;span&gt;`、`&lt;a&gt;` 等,多个行内元素可以在同一行内...

    python自学教程-09-常见的html标签.ev4.rar

    在Python中,常用的库有BeautifulSoup和lxml,它们可以帮助我们解析HTML文档,提取所需信息。例如,BeautifulSoup提供了`find_all()`方法来查找特定标签,`text`属性获取元素的文本内容,`get()`方法获取属性值。 6...

    HTML标记参考手册.txt

    从给定的文件信息中,我们可以提取到一系列关于HTML(超文本标记语言)的基本标签及其用法,这对于理解和创建网页内容至关重要。以下是对这些标签及其功能的详细解析: ### HTML文档结构 - `&lt;HTML&gt;`:这是HTML文档...

    html+css考试题.doc

    25. **标签**:`&lt;pre&gt;`用于预排版文本,保留原始的空格和换行。 以上就是从提供的文件内容中提炼出的HTML和CSS相关知识点。这些知识点涵盖了HTML元素、属性、链接、表格、样式控制等方面,对于理解和编写HTML和CSS...

    html标签大全html标签大全

    - `&lt;pre&gt;`:预格式化文本,保留空格和换行。 - `&lt;h1&gt;`至`&lt;h6&gt;`:标题标签,数字越大,标题越小。 - `&lt;b&gt;`:加粗文本。 - `&lt;i&gt;`:斜体文本。 - `&lt;tt&gt;`:等宽字体,通常用于代码展示。 - `&lt;cite&gt;`:引用文本。 - `&lt;em&gt;...

    JavaWeb笔记呀!

    - 部分标签无需结束标签,如换行标签`&lt;br/&gt;`。 - **文字标签与注释标签** - **文字标签**`&lt;font&gt;`用于修改文字样式,如大小和颜色。 - 属性包括`size`和`color`。 - `size`: 文字大小,取值范围为1-7。 - `...

    php获取网页标题和内容函数(不包含html标签)

    在PHP中,有时候我们需要从网页中提取特定信息,如标题和主要内容,这通常涉及到网络爬虫或数据抓取。下面的代码示例提供了一个简单的PHP函数,用于获取网页的标题和内容,同时去除HTML标签。 函数名为`...

    PHP strip_tags()去除HTML、XML以及PHP的标签介绍

    - 字符串过滤:在处理用户输入或从数据库中提取数据时,通常需要对字符串进行过滤,以确保安全性。 - PHP字符串函数:PHP提供了丰富的字符串处理函数,如`htmlspecialchars()`用于转义HTML特殊字符,`addslashes()`...

    asp.net(文章截取前几行作为列表摘要)无损返回HTML代码

    - **成对标签的闭合**: 对于成对出现的标签,如`&lt;p&gt;`和`&lt;/p&gt;`,需要确保在截取过程中,如果截取内容部分位于标签内部,则必须保留整个标签结构,否则在最终显示时会因为HTML结构不完整而无法正确显示。 #### 3. ...

Global site tag (gtag.js) - Google Analytics