`

去除XML标签提取内容以及去除内容中的特殊字符

    博客分类:
  • Java
阅读更多

昨天弄的xml除了dtd的问题之后,还有两个问题,

一个是xml标签的内容里面还有标签,例如:<book>我有<strong>2</strong>本书。

一个是内容里面有特殊字符,譬如:<contents>这本书主要说:冒险、励志。</contents>

这两种情况存在的前提下,我要是用来作为文件名称生成文件时必然报错,所以先要料理掉这两个畔脚石。

 

1、去除xml标签内容中的标签,值提取内容:

参考这个链接就OK啦:http://blog.csdn.net/lxqssx/article/details/4075087

String docExplainStr = docExplain.replaceAll("<{1}[^<>]*>{1}","");
String docExplainStr = docExplain.replaceAll("<.*?>", "");

 两个我都试过,都挺好的。

 

2、特殊字符处理:

/**
 * 转义正则特殊字符 ($()*+.[]?\^{},|/\:?"<>)
 * @param keyword
 * @return
 */
public String escapeExprSpecialWord(String keyword) {
	String[] fbsArr = {"/","\\",":","*","?","\"","<",">","|", "(", ")","+", "[", "]", "^", "{", "}","、"};
	for (String key : fbsArr) {
		if (keyword.contains(key)) {
			keyword = keyword.replace(key,"");
		}
	}
	return keyword;
}

 参考链接:http://blog.csdn.net/bbirdsky/article/details/45368709

我这个参考上面那个改的,就是根据需要多加了类型。

分享到:
评论

相关推荐

    HTMLParser提取网页内容

    `:清理完成后,返回处理过的HTML字符串,此时的HTML已经去除了JavaScript、CSS和XML声明,更适合进行文本内容的提取。 4. **提取正文和标题**: 虽然上述代码主要关注的是清理HTML,但要提取网页的正文和标题,还...

    去除编辑器样式中HTML

    在网页开发过程中,我们经常需要处理富文本编辑器生成的内容,这些内容可能包含了各种HTML标签和样式,有时候为了保持页面的统一性和整洁性,我们需要去除编辑器生成的HTML样式。这个过程涉及到HTML解析、DOM操作...

    Python-Html内容文章提取器Python中的web爬虫

    6. **清洗文本**:处理特殊字符、换行符,可能还需要进行词干提取和停用词移除等预处理步骤。 7. **保存结果**:将提取到的文章内容保存到本地文件或数据库中。 提到的`python-goose-master`可能是一个开源项目,...

    PHP strip_tags()去除HTML、XML以及PHP的标签介绍

    `strip_tags()`是PHP中一个非常实用的字符串处理函数,它的主要作用是移除字符串中的HTML、XML以及PHP标签。这个函数在处理用户输入、防止XSS(跨站脚本攻击)或者格式化数据时非常有用。下面我们将详细介绍`strip_...

    Python使用正则表达式去除(过滤)HTML标签提取文字功能

    Python中的正则表达式是处理文本的强大工具,尤其在处理HTML文档时,它可以用来去除HTML标签,从而提取纯文本内容。在上述示例中,我们看到一个名为`filter_tags`的函数,它专门用于从HTML字符串中过滤掉标签并保留...

    用来提取Html标记中的文字

    而“用来提取Html标记中的文字”这个话题涉及到的是从HTML文档中提取纯文本内容,这是一个常见的需求,特别是在数据处理、信息提取、爬虫程序等领域。以下是一些关于这个主题的知识点: 1. **HTML解析**:要从HTML...

    对Xpath 获取子标签下所有文本的方法详解

    XPath,全称XML Path Language,是一种在XML文档中查找信息的语言。它被广泛应用于Web抓取,特别是Python的Scrapy框架中,用于选取XML或HTML文档中的节点。本文将深入探讨如何使用XPath来获取子标签下的所有文本内容...

    网页源文件中的汉字提取

    当我们需要从网页中获取纯文本内容,尤其是汉字时,往往需要去除HTML标签和其他非文本元素,以得到干净、易于处理的文本。 这个过程涉及到多个步骤和技术,以下是一些关键知识点: 1. **HTML基础知识**:HTML是...

    XML文件转成TXT文件

    - 转换过程中可能需要对XML数据进行格式化,例如去除空白字符或保持原始格式。 - 如果TXT文件需要保持与XML文件相同的结构,可能需要自定义转换规则,比如使用特定分隔符表示元素层次。 总的来说,C#提供了一套强大...

    php提取网页正文内容的例子__1.docx

    - 郑晓提出的思路是首先提取`body`标签内的内容,然后移除所有链接、`script`、`style`标签以及空标签。接着,选取那些位于`div`、`p`、`h`等常见正文标签内的非链接中文内容。这种方法假设正文通常包含在这些结构...

    php提取网页正文内容的例子__6.docx

    根据提供的文档信息,本文将详细解析“PHP提取网页正文内容”的相关知识点,重点围绕文档标题、描述以及部分内容中提到的方法和技术进行深入分析。 ### 一、PHP提取网页正文内容的基本概念 #### 1.1 任务背景与...

    将网页中的文本信息进行提取

    - 提取后的文本往往需要进一步处理,如去除标点符号、数字、HTML标签,甚至特定的停用词,以提高文本质量。 - 对于特定需求的过滤,例如只保留某些类别的内容,可能需要更复杂的逻辑,如识别并保留特定标签内的...

    php提取网页正文内容的例子__5.docx

    在Web开发中,有时我们需要从网页中提取出主要的文章内容,以便进行数据分析、信息聚合或存档。这个过程通常被称为正文提取。PHP作为一门广泛使用的服务器端脚本语言,提供了多种方法来实现这个功能。下面我们将深入...

    TinyXML UML 图

    - **字符操作**: 如btrim、ltrim、rtrim等,用于去除字符串两端或两端的特定字符。 ### TiXmlVisitor类和文档遍历 - **TiXmlVisitor**: 用于访问XML文档的类,可以通过实现Visit相关函数来处理XML结构中的各种节点...

    php提取网页正文内容的例子__4.docx

    - **提取`body`标签内的内容**:网页的主要内容通常位于`&lt;body&gt;`标签内,因此第一步是提取这部分内容。 - **剔除链接和特定标签**:删除所有链接(`&lt;a&gt;`标签)、脚本(`&lt;script&gt;`标签)和样式(`&lt;style&gt;`标签),...

    将html转换为XML的控件HtmlAgilityPack

    通过引入这个dll,开发者可以在自己的代码中调用HtmlAgilityPack的功能,实现HTML到XML的转换以及其他HTML处理任务。 总之,HtmlAgilityPack是一个强大的工具,尤其对于处理和分析HTML内容的.NET开发者来说,它可以...

    C++ XML解析器源码

    2. **预处理**:去除XML文档中的空白字符,保留有意义的文本。 3. **解析XML结构**: - **词法分析**:将输入的XML字符串分解成一系列的标记(tokens),如开始标签、结束标签、属性等。 - **语法分析**:根据XML...

    php提取网页正文内容的例子__2.docx

    在Web开发中,有时我们需要从网页中提取主要内容,以便进行数据分析、信息聚合或创建摘要。PHP作为一种常用的服务器端脚本语言,提供了多种方法来处理HTML文档。本文将探讨如何使用PHP提取网页正文内容,特别是基于...

    linux C/C++实现的通过url访问网页提取网页文字内容

    可以使用正则表达式匹配`&lt;[^&gt;]*&gt;`来去除HTML标签,只保留文本内容。 6. 关闭连接:调用`close()`关闭套接字。 在实际开发中,为了提高代码的可维护性和效率,可以使用现有的库来处理HTTP请求(如libcurl)和HTML...

    网络爬虫-如何去除文本信息中的干扰数据-Python实例源码.zip

    在进行网络爬虫的过程中,我们经常需要处理大量抓取到的文本信息,这些信息往往包含很多干扰数据,如HTML标签、特殊字符、广告代码等。去除这些干扰数据是数据分析和清洗的重要步骤,以便后续能够有效地进行信息提取...

Global site tag (gtag.js) - Google Analytics