`
pan_java
  • 浏览: 285635 次
  • 性别: Icon_minigender_1
  • 来自: 杭州
社区版块
存档分类
最新评论

Htmlparser 得到替换后的文本

阅读更多
需求:替换HTML文件内的全部链接然后得到替换后的HTML文件

考虑采用Htmlparser解析

代码如下

public class DoReplaceHtmlHref implements Callable<String> {

		private String content;

		public DoReplaceHtmlHref(String content) {
			this.content = content;
		}

		public String call() throws Exception {
			Parser myParser = new Parser();
			StringBuffer sbContent = new StringBuffer();

			try {
				myParser.setInputHTML(content);

				//得到页面的所的节点集合
				NodeList nodes = myParser
						.extractAllNodesThatMatch(new NodeFilter() {
							public boolean accept(Node node) {
								return true;
							}
						});

				for (int i = 0; i < nodes.size(); i++) {
					Node node = nodes.elementAt(i);
					//如果为链接节点
					if (node instanceof LinkTag) {
						LinkTag linkTag = (LinkTag) node;
						//设置此链接节点的内容
						sbContent.append("<a href=www.163.com>");			} else if (node instanceof TextNode) {
						//如果为文本节点直接获取内容
						TextNode text = (TextNode) node;
						sbContent.append(text.getText());
					} else {
						//如果为其他节点在文本两端加上<>
						sbContent.append('<');
						sbContent.append(node.getText());
						sbContent.append('>');
					}
				}
			} catch (Exception e) {
				log.error("parse html enode is error");
			}
			return sbContent.toString();
		}

	}
分享到:
评论

相关推荐

    htmlparser网页分析

    9. 结合其他工具:HTMLParser可以与其他工具结合使用,如Jsoup,后者是一个更现代的HTML解析库,提供更友好的API和更强的CSS选择器支持。两者结合可以提高处理复杂HTML文档的效率。 10. 性能考虑:虽然HTMLParser...

    htmlparser1.4完整包下载

    3. **标签处理**:HTMLParser支持对HTML标签进行操作,如查找、替换、删除或修改标签的属性。 4. **内容提取**:能够方便地从HTML文档中提取文本内容,这对于数据抓取或信息提取任务非常有用。 5. **错误处理**:...

    htmlparser2.0_dll+htmlparserAPI

    1. **事件驱动的解析**:HTMLParser2.0采用事件驱动模型,当解析器遇到如标签开始、结束、文本等内容时,会触发相应的事件,开发者可以注册事件处理器来响应这些事件。 2. **灵活性**:库支持自定义解析策略,可以...

    htmlparser(c#,java)

    - 在C#中,HTMLParser库可能需要NuGet包管理器安装,集成后可以通过`using`语句引入相关命名空间,然后就可以在项目中直接使用。 - Java项目中,HTMLParser通常作为依赖项添加到构建工具(如Maven或Gradle)的配置...

    解析htmlparser的所有jar包

    HTMLParser是一个Java库,专为解析HTML文档而设计。...在这个压缩包中,你可能找到了...有了这个压缩包中包含的所有jar包,你将能够充分利用HTMLParser的功能,无论你是进行简单的文本提取还是复杂的网页处理任务。

    htmlparser

    开发者可以轻松地获取或设置标签的属性,以及查找、替换或删除特定的标签。 5. **文本内容提取**:对于需要从HTML中提取文本内容的应用,HTMLParser提供了方便的接口。例如,可以提取段落、链接、标题等特定元素中...

    HTMLParser

    例如,可以提取特定标签内的链接,或者替换某些文本内容。 5. **灵活性**:HTMLParser提供了多种解析策略,包括简单的元素遍历和基于DOM(Document Object Model)的解析。用户可以根据项目需求选择最适合的解析...

    HtmlParser

    可以轻松地查找、替换或删除特定标签及其属性,这对于数据提取和页面重构非常有用。 5. **DOM模型**:除了事件驱动的解析,HTMLParser还支持DOM(Document Object Model)模型。通过DOM,开发者可以像操作XML一样...

    Java正则表达式入门 + HTMLParser使用详解

    Java正则表达式是编程语言Java中用于处理字符串的强大工具,它允许程序员通过简洁的语法进行复杂的文本匹配、查找、替换和验证。自从Java 1.4引入`java.util.regex`包以来,Java程序员就可以方便地使用正则表达式来...

    htmlparser中文文档

    - **修改HTML**:支持对解析后的HTML文档进行修改,如替换文本、添加或删除节点等。 - **高性能**:即使面对复杂的HTML结构,也能保持快速稳定的解析性能。 #### 三、HTMLParser的安装与集成 HTMLParser作为一个...

    HtmlParser的使用

    请替换“最新版本号”为HTMLParser库的最新稳定版本。 三、基本用法 HTMLParser的核心类是`Parser`,它提供了一系列的方法来解析HTML文档。下面是一些基本的使用示例: 1. 创建Parser对象并解析HTML字符串: ```...

    javajsp中使用HTMLParser

    1. **解析HTML文档**:HTMLParser能够读取HTML源码,并将其转化为一系列的事件,如开始标签、结束标签、文本等。开发者可以通过监听这些事件来处理HTML结构。 2. **DOM树构建**:HTMLParser能够构建一个基于DOM...

    基于HTMLParser的Web信息抽取系统的设计与实现

    正则表达式是一种强大的文本匹配工具,广泛应用于字符串搜索和替换中。在Web信息抽取中,正则表达式被用来精确匹配和抽取特定模式的文本,如电子邮件地址、电话号码、网址等。例如,一个常见的电子邮件地址匹配正则...

    html解析的利器,htmlParser

    `htmlParser`提供了事件驱动的解析模式,当解析器遇到如打开标签、关闭标签、文本内容等事件时,会触发相应的回调函数,这样我们就可以在这些回调中执行自定义逻辑。 例如,如果你想要提取所有的`&lt;a&gt;`标签链接,你...

    HTMLParser提取网页内容

    可以使用HTMLParser库提供的API来遍历DOM树,查找这些元素并获取其文本内容。 例如,对于标题提取,可以遍历HTML中的所有`&lt;h1&gt;`到`&lt;h6&gt;`标签,然后收集它们的文本;对于正文,可以寻找段落标签或其他可能包含正文...

    前端开源库-htmlparser-to-html

    1. **JSON到HTML转换**:`htmlparser-to-html`库的主要任务是将`htmlparser`或`htmlparser2`库解析HTML文档后得到的JSON结构转换回HTML文本。这两个解析器可以将HTML文档分解成易于处理的数据结构,包括元素(tag)...

    htmlparser 相关jar包

    HTMLParser是一个Java库,用于解析HTML文档...例如,可以创建一个HTMLParser实例,设置解析规则,然后解析网页,提取出指定的链接、文本或特定标签的内容。对于处理大量不规则HTML的项目,HTMLParser是一个强大的工具。

    htmlparser解析html分页

    可以通过设置错误处理策略,如忽略或替换非法字符,确保解析过程的稳定性。 8. **注意事项** - HTMLParser不支持XML,如果你需要解析XML文档,应使用`xml.parsers.expat`库。 - 解析过程中,需注意内存管理和性能...

    htmlparser.jar

    4. 内容提取:对于数据抓取任务,HTMLParser可以帮助开发者快速提取网页中的关键信息,如文本内容、链接、图片等。 5. 配合其他库:在提供的文件列表中,我们看到有log4j-1.2.11.jar和junit-3.8.1.jar。Log4j是流行...

    Objective-C的一个HTMLParser

    2. Web视图的本地化:修改网页内容以适应本地化需求,比如替换特定链接或图片。 3. 自动化测试:模拟用户交互,验证网页元素的正确性。 4. 网页内容的过滤和清洗:去除广告或其他不需要的元素,提供更纯净的阅读体验...

Global site tag (gtag.js) - Google Analytics