从网上down了很多信息,但是带了一些不需要的table,div等标签,影响显示布局,就批量清理一下,我这里只保留p和br,要保留其他的,稍微修改一下规则就ok了
原理很easy:
1. 换掉所有的script和style
2. '换成'',方便操作数据库,这个不需要可以去掉
3. 把要保留的标签如<br />替换为[--br /--]
4. 替换掉剩下的以“<”开始以“>”结尾的内容
5. 把[--abc--]这类东西换回来,使用反向引用
/**
* description: 只保留br、p标签<br>
*
* @return 2010-4-2
* @author huxiao kskr@qq.com
*/
public static String clear(String htmlStr) {
return htmlStr.replaceAll("<script.*</script>", "").replaceAll("<style.*</style>", "").replaceAll("'", "''").replaceAll("<(/?p|br[^>]*)>", "[--$1--]").replaceAll("<[^<>]+>", " ").replaceAll("\\[--([^-]+)--\\]", "<$1>");
}
分享到:
相关推荐
在IT领域,尤其是在Web开发中,经常需要处理HTML文档并从中提取文本信息。"C#获取HTML中的文本信息"这个主题涉及到的是如何使用C#语言从HTML文档中剥离出纯文本内容,通常是为了数据分析、信息提取或者内容展示等...
- **作用**:预格式化文本,保留文本原有的空格和换行。 - **示例**: ```html 这是 一个 预格式化文本示例。 ``` #### 5. `<center>` 标签 - **作用**:使内容居中显示。 - **示例**: ```html 这是...
3. **提取文本内容**:从DOM树中提取纯文本的过程,就是遍历每一个节点,忽略掉HTML标签,只保留文本节点的内容。对于嵌套的HTML元素,我们需要递归地处理子节点,确保没有遗漏任何文本。 4. **处理特殊情况**:...
本文将深入探讨如何使用正则表达式在ASP中移除HTML标签,但保留`<img>`, `<br>`, `<p>` 和 `<div>` 这些特定标签。这种操作对于数据展示、文本摘要或邮件处理等场景非常有用。 首先,我们需要了解正则表达式...
通常情况下,这样的需求出现在需要从网页中提取文本信息进行进一步处理时。在这个过程中,需要去除HTML标签,只保留文本内容,有时还需考虑保留特定格式,比如段落、列表等。 在转换过程中,一个关键的步骤是过滤掉...
在C#编程中,将HTML转换为纯文本是一项常见的任务,尤其在处理网页内容或邮件正文时。这个过程主要是为了去除HTML标记,保留文本...这样的方法在处理大量HTML数据时,能有效地提取出文本信息,便于进一步的分析和展示。
- <pre>:显示预格式化文本,保留空白符和换行符。 - <s>:表示不再相关或者不再正确的文本。 4. HTML文档结构标签: - 、、、、、<nav>:用于定义文档的不同部分,有助于改善可访问性和SEO。 5. HTML5新增标签...
根据给定的文件信息,我们可以总结出一系列关于HTML的基础知识点,这些...以上就是从给定文件中提取的关键HTML知识点,涵盖了HTML文档的基本结构、控制标记的格式及最常用的控制标记,为初学者提供了全面的入门指南。
从给定的文件信息中,我们可以提取到一系列与HTML相关的知识点,这将为初学者提供一个全面的基础概览。以下是对这些知识点的详细说明: ### 1. HTML基础标签 - `<HTML>`:文档的根元素,所有其他HTML元素都应位于`...
4. **匹配中文内容**:正文往往包含在`<div>`, `<p>`, `<h>`等标签中,因此类会聚焦于这些标签内的中文文本。 然而,这并不总是能完美解决问题,因为还有可能残留如页脚信息等其他多余内容。为了进一步提高准确性,...
- **`<pre>` 标签**:预格式化文本,保留空格和换行符。 ### 块级与行内元素 - **块级元素**:如 `<div>`、`<p>` 等,每个元素都会独占一行。 - **行内元素**:如 `<span>`、`<a>` 等,多个行内元素可以在同一行内...
在Python中,常用的库有BeautifulSoup和lxml,它们可以帮助我们解析HTML文档,提取所需信息。例如,BeautifulSoup提供了`find_all()`方法来查找特定标签,`text`属性获取元素的文本内容,`get()`方法获取属性值。 6...
从给定的文件信息中,我们可以提取到一系列关于HTML(超文本标记语言)的基本标签及其用法,这对于理解和创建网页内容至关重要。以下是对这些标签及其功能的详细解析: ### HTML文档结构 - `<HTML>`:这是HTML文档...
25. **标签**:`<pre>`用于预排版文本,保留原始的空格和换行。 以上就是从提供的文件内容中提炼出的HTML和CSS相关知识点。这些知识点涵盖了HTML元素、属性、链接、表格、样式控制等方面,对于理解和编写HTML和CSS...
- `<pre>`:预格式化文本,保留空格和换行。 - `<h1>`至`<h6>`:标题标签,数字越大,标题越小。 - `<b>`:加粗文本。 - `<i>`:斜体文本。 - `<tt>`:等宽字体,通常用于代码展示。 - `<cite>`:引用文本。 - `<em>...
- 部分标签无需结束标签,如换行标签`<br/>`。 - **文字标签与注释标签** - **文字标签**`<font>`用于修改文字样式,如大小和颜色。 - 属性包括`size`和`color`。 - `size`: 文字大小,取值范围为1-7。 - `...
在PHP中,有时候我们需要从网页中提取特定信息,如标题和主要内容,这通常涉及到网络爬虫或数据抓取。下面的代码示例提供了一个简单的PHP函数,用于获取网页的标题和内容,同时去除HTML标签。 函数名为`...
- 字符串过滤:在处理用户输入或从数据库中提取数据时,通常需要对字符串进行过滤,以确保安全性。 - PHP字符串函数:PHP提供了丰富的字符串处理函数,如`htmlspecialchars()`用于转义HTML特殊字符,`addslashes()`...
- **成对标签的闭合**: 对于成对出现的标签,如`<p>`和`</p>`,需要确保在截取过程中,如果截取内容部分位于标签内部,则必须保留整个标签结构,否则在最终显示时会因为HTML结构不完整而无法正确显示。 #### 3. ...