`
lzy.je
  • 浏览: 150553 次
  • 性别: Icon_minigender_1
  • 来自: 沈阳
社区版块
存档分类
最新评论

htmlparser 中修改 HTML 内容的方法

阅读更多

          htmlparser(HTML Parser )是 sourceforge.net 上的一个成熟的 java 项目。它可以解析 HTML 页面,用来抽取或修改其内容,通过过滤器、访问者来访问程序关心的标签(Tag)。

 

htmlparser 写道
HTML Parser is a Java library used to parse HTML in either a linear or nested fashion. Primarily used for transformation or extraction, it features filters, visitors, custom tags and easy to use JavaBeans. It is a fast, robust and well tested package.

 

          一般使用 htmlparser 来做 HTML 解析后的抽取工作,但对 HTML 内容进行结构化修改则比较少用到。前段有一个对 HTML 抓取后修改其中所有链接地址的需求,使用 htmlparser 将 HTML 页面中附带资源(non html resource)的 URL 地址都做一下转换,包括链接(LinkTag)、图片(ImageTag)、框架页(FrameTag)、表单(FormTag)标签中指定的资源地址,还包括 head 中的 link(HeaderLinkTag)标签中指定的 CSS/favicon.ico 以及 script(ScriptExTag)标签中指定的 JS 文件资源地址。对于后二者 HeaderLinkTag 和 ScriptExTag 标签的处理功能在 htmlparser 是没有实现的,需要自己通过编写继承于 TagNode/CompositeTag 基类的自定义标签来做匹配、修改逻辑。

 

          OK 言归正传,下面给出在 htmlparser 中修改 HTML 内容的 2 种方法。

 

          首先,第 1 种修改方法可以通过自定义继承 UrlModifyingVisitor 的子类来自定义修改 URL 逻辑,通过 org.htmlparser.Parser 提供的遍历模式来完成修改。 直接上代码。

 

import java.net.MalformedURLException;
import java.net.URL;
import java.util.logging.Logger;

import org.htmlparser.Tag;
import org.htmlparser.Text;
import org.htmlparser.tags.FormTag;
import org.htmlparser.tags.FrameTag;
import org.htmlparser.tags.ImageTag;
import org.htmlparser.tags.LinkTag;
import org.htmlparser.visitors.UrlModifyingVisitor;

import org.lzy.fwswaper.FwswaperServlet;
import org.lzy.fwswaper.htmlhandler.HtmlHandlerHelper;
import org.lzy.fwswaper.util.ExceptionUtils;

public class HtmlparserUrlModifier extends UrlModifyingVisitor
{
	private static final Logger log =
		Logger.getLogger(HtmlparserUrlModifier.class.getName());

	private URL base = null;
	
	public HtmlparserUrlModifier(URL base)
	{
		super("");
		
		this.setBaseUrl(base);
	}

	public void setBaseUrl(URL base)
	{
		if (!HtmlHandlerHelper.isHttpLikeProtocolUrl(base))
			throw new IllegalArgumentException(String.format(
					"Base url argument '%s' is not http like protocol. " +
					"They are not prefix with '%s' or '%s'", this.base.toString(),
					HtmlHandlerHelper.HttpProtocol, HtmlHandlerHelper.HttpsProtocol));

		this.base = base;
	}
	
    public void visitStringNode(Text stringNode)
    {
    	// MUST override this method.
    	// Super class UrlModifingVistor wrote: 'this.modifiedResult.append (stringNode.toHtml());'.
    	// It will append stringNode.toHtml() conent to outside of <html/> tag if not override it.
    }

	public void visitTag(Tag tag)
	{
		try {
	    	if (tag instanceof LinkTag) {

				LinkTag link = (LinkTag) tag;

				log.info(String.format("Found link: '%s' => '%s'.", link.getLinkText(), link.extractLink()));

				if (link.isHTTPLikeLink())
					link.setLink(this.modifying(new URL(base, link.getLink())));
				
			} else if (tag instanceof HeaderLinkTag) {

				HeaderLinkTag link = (HeaderLinkTag) tag;

				log.info(String.format("Found head link: '%s' => '%s'.", link.getLinkText(), link.getLink()));
				
				URL url = new URL(base, link.getLink());
				
				if (HtmlHandlerHelper.isHttpLikeProtocolUrl(url))
					link.setLink(this.modifying(url));

			} else if (tag instanceof ScriptExTag) {

				ScriptExTag script = (ScriptExTag) tag;

				String src = script.getSrc();

				if ((src != null) && (src.length() > 0)) {
					
					log.info(String.format("Found script: '%s' => '%s'.", script.getLanguage(), src));

					URL url = new URL(base, src);

					if (HtmlHandlerHelper.isHttpLikeProtocolUrl(url))
						script.setSrc(this.modifying(url));
				}

			} else if (tag instanceof ImageTag) {	

				ImageTag img = (ImageTag) tag;	

				log.info(String.format("Found image => '%s'.", img.getImageURL()));
				
				URL url = new URL(base, img.getImageURL());
				
				if (HtmlHandlerHelper.isHttpLikeProtocolUrl(url))
					img.setImageURL(this.modifying(url));
				
			} else if (tag instanceof FrameTag) {

				FrameTag frame = (FrameTag) tag;
				
				log.info(String.format("Found frame: '%s' => '%s'.", frame.getText(), frame.getFrameLocation()));
				
				URL url = new URL(base, frame.getFrameLocation());
				
				if (HtmlHandlerHelper.isHttpLikeProtocolUrl(url))
					frame.setFrameLocation(this.modifying(url));
				
			} else if (tag instanceof FormTag) {
				
				FormTag form = (FormTag) tag;
				
				log.info(String.format("Found form: '%s' => (%s) '%s'.", form.getFormName(), form.getFormMethod(), form.extractFormLocn()));
				
				URL url = new URL(base, form.extractFormLocn());
				
				if (HtmlHandlerHelper.isHttpLikeProtocolUrl(url))
					form.setFormLocation(this.modifying(url));
			}

		} catch(Exception e) {
			log.warning(String.format("Modify url failed. Exception message: '%s'.",
					ExceptionUtils.getStackTrace(e)));
		}

		super.visitTag(tag);
	}
	
	protected String modifying(URL url) throws MalformedURLException
	{
		// Modifying url and return.
		
		return null;
	}
}

 

PrototypicalNodeFactory factory = new PrototypicalNodeFactory();
factory.registerTag(new HeaderLinkTag());
factory.registerTag(new ScriptExTag());

Parser parser = Parser.createParser(html, charset);
parser.setNodeFactory(factory);

// Match and modify link image and frame tag url address.
HtmlparserUrlModifier modifier = new HtmlparserUrlModifier(this.base);

parser.visitAllNodesWith(modifier);

String html = modifier.getModifiedResult();

 

          通过上面的 HtmlparserUrlModifier 中的具体处理,并在 org.htmlparser.PrototypicalNodeFactory 中注册 HeaderLinkTag 和 ScriptExTag 这 2 个要匹配的自定义标签类型,我们就可以对 html 内容进行结构化修改了,实际看了 htmlparser 的源码就会发现根本上最后就是 setAttribute 方法的调用。

          这里有两个问题需要说明:

 

          1. 在继承 UrlModifyingVisitor 对它进行扩展时,一定要重载其 visitStringNode 方法,否则会发现在 htmlparser 处理后的结果中,在 html 标签外还会有页面所有的文本内容的副本,这里的文本是指那些用于在浏览器中显示的文字内容。正如上述代码中所示,在我重载的 visitStringNode 方法中没有做任何处理。通过 UrlModifyingVisitor 源码可以看到 visitStringNode 方法默认实现如下。

 

public void visitStringNode(Text stringNode)
{
	modifiedResult.append (stringNode.toHtml());
}

 

          2. 不能通过 org.htmlparser.Parser 类的 parse 方法在解析过程中对 html 内容进行修改,因为在解析完成后,你会发现必须通过 reset 方法来复位,这样之前的处理结果就全部失效了。

 

          其次,第 2 种方法是通过 org.htmlparser.util.NodeList 保存结构化的 html 内容并对其修改,最后通过它的 toHtml 方法将修改结果导出。 示例代码如下所示。

 

private String parse(String html, String charset) throws ParserException {
	Parser parser = Parser.createParser(html, charset);
	NodeList list = parser.parse(null);
	String html = recurse(list).toHtml();
	System.out.println(html);
}

private NodeList recurse(NodeList list) {
	if(list==null)
		return null;
	
	Node node = null;
	SimpleNodeIterator iterator = list.elements();
	
	while(iterator.hasMoreNodes())
	{
		node = iterator.nextNode();
		if(node==null)
			break;
		if(node instanceof Tag)
		{
			Tag tag = (Tag)node;
			
			// Modifying attributes or something else.

			recurse(node.getChildren());
		}
	}
	
	return null;
}

 

          好了,这次要说的就是上面的这 2 个方法,希望能对有需要的兄弟有所帮助。记得上次在问答频道里有人问过这问题。

 

作者:lzy.je
出处:http://lzy.iteye.com
本文版权归作者所有,只允许以摘要和完整全文两种形式转载,不允许对文字进行裁剪。未经作者同意必须保留此段声明,且在文章页面明显位置给出原文连接,否则保留追究法律责任的权利。

 

 

6
0
分享到:
评论

相关推荐

    java解析html工具htmlparser的jar包及api文档

    API文档是使用HTMLParser的关键,它详尽地解释了库中每个类、方法和接口的用途。通过API文档,开发者可以了解如何初始化解析器,如何遍历HTML元素,以及如何处理各种HTML标签。例如,HTMLParser库可能会提供如`...

    htmlparser.jar文件

    在Java开发中,如果你需要处理或分析HTML内容,HTMLParser是一个非常有用的工具。这个库提供了一套API,使得开发者能够方便地遍历、修改或者提取HTML文档中的信息。 在描述中提到的“org.htmlparser.Node”和其他的...

    Html解析助手htmlparser.jar

    1. **导入库**:在Java项目中,首先需要将`htmlparser.jar`添加到类路径中,以便能够使用其提供的类和方法。 2. **创建解析器**:通过实例化解析器类,如`HtmlParser`,并设置相应的解析模式和配置。 3. **解析HTML*...

    htmlparser中文文档

    - **修改HTML**:支持对解析后的HTML文档进行修改,如替换文本、添加或删除节点等。 - **高性能**:即使面对复杂的HTML结构,也能保持快速稳定的解析性能。 #### 三、HTMLParser的安装与集成 HTMLParser作为一个...

    htmlparser网页分析

    4. 使用示例:在"HTMLParser使用详解-Node内容.doc"中,可能详细介绍了如何创建和配置解析器对象,设置解析事件处理器,以及如何通过遍历节点来提取或修改HTML内容。例如,可以使用`TagStart`事件捕获元素开始,`...

    HTMLParser.net源代码HTMLParser.net使用demo

    这个库使得开发者能够方便地从HTML中提取数据,处理DOM(文档对象模型),以及与网页内容进行交互。本项目名为"HTMLParser.net源代码HTMLParser.net使用demo",显然是一个包含示例代码的压缩包,用于展示如何在实际...

    HtmlParser源码及demo

    用户可以通过遍历DOM树来访问和修改HTML内容。 3. **事件驱动解析**:除了DOM模型,HTMLParser还支持事件驱动的解析方式。在这种模式下,解析器会在遇到特定HTML元素或事件时触发回调函数,允许开发者对解析过程...

    Winista.Htmlparser.Net 源码 +Demo

    Winista.Htmlparser.Net是一个基于C#的开源HTML解析库,它为开发者提供了一种高效且灵活的方式来处理HTML文档,尤其在需要从HTML中提取数据或者进行网页抓取时显得尤为重要。本文将深入探讨该库的核心功能、设计原理...

    htmlparser1.4完整包下载

    3. **标签处理**:HTMLParser支持对HTML标签进行操作,如查找、替换、删除或修改标签的属性。 4. **内容提取**:能够方便地从HTML文档中提取文本内容,这对于数据抓取或信息提取任务非常有用。 5. **错误处理**:...

    Winista.HtmlParser.zip

    例如,如果你想从HTML中获取所有`&lt;a&gt;`标签,可以使用提供的查询方法,该方法接受CSS选择器作为参数,返回匹配的元素列表。然后,你可以进一步访问每个元素的属性,如`href`,以获取链接地址。此外,Winista....

    HtmlParser c#源码+demo

    这个库可能包含了一系列的方法和类,帮助开发者在C#环境中高效且准确地解析HTML内容,类似于Java中的Jsoup或者Python的BeautifulSoup。源码的提供使得我们可以深入理解其工作原理,并根据实际需求进行定制化修改。 ...

    htmlparser解析API

    HTMLParser设计的目的是为了方便地解析、提取或修改HTML内容,适用于网页数据抓取和HTML文档处理。 在使用HTMLParser时,首先需要创建一个`Parser`对象。可以通过传递一个`URLConnection`对象来构造`Parser`,这样...

    htmlparser(c#,java)

    - 它通常提供API来修改HTML结构,如添加、删除或替换元素,这对于处理动态生成的内容非常有用。 总之,HTMLParser是一个强大的工具,无论是在C#还是Java环境中,都能帮助开发者有效地解析和操作HTML文档,广泛应用...

    HtmlParser源码及其jar包

    2. **DOM(Document Object Model)解析**:HTMLParser也能将整个HTML文档转换为DOM树,这使得开发者可以通过DOM API遍历和修改HTML结构。例如,可以查找特定的DOM节点,或者使用XPath表达式来定位信息。 3. **SAX...

    htmlparser2.0_dll+htmlparserAPI

    过滤器在HTML解析中起着重要作用,它们允许开发者根据特定规则筛选或修改HTML内容。例如,你可以创建一个过滤器来删除所有广告元素,或者将某些URL替换为短链接。 `thumbelina.dll`和`sitecapturer.dll`可能与屏幕...

    HtmlParser用于将HTML转换为PugJinja2和Blade模板的交互式工具

    HTMLParser是一款强大的交互式工具,专门设计用于将HTML代码转换为Pug、Jinja2和Blade这三种流行的模板引擎格式。这个工具对于开发者来说,尤其是那些习惯于使用静态HTML,但希望转向更强大、更简洁的模板语言的...

    HTMLParser使用文档和jar包

    通过阅读这份文档,你可以了解到如何初始化解析器,如何处理HTML元素,以及如何处理HTML中的属性和文本内容。 其次,`HTMLParser-2.0-SNAPSHOT-src.zip`是源代码包,它包含了HTMLParser的源代码。对于开发者来说,...

    htmlparser1_6.jar

    总之,htmlparser1_6.jar是一个强大的工具,用于解析和操作HTML文档,尤其适合那些需要从HTML中提取信息或者需要对HTML进行结构化处理的Java应用。其灵活性和错误处理能力使其成为处理不规则HTML的可靠选择。

    HTMLParser-2.0-SNAPSHOT

    5. **Text类**:表示HTML中的文本内容,不包含任何HTML标签。Text对象提供了获取纯文本的方法。 6. **事件驱动模型**:HTMLParser支持事件驱动的解析模式。你可以注册监听器,当解析到特定的HTML元素时,监听器会被...

    htmlparser-1.6p.jar

    HTMLParser是一个强大的Java库,专为高效且准确地解析HTML文档而设计。它在处理HTML时表现出色,即使...在具体项目中,可以根据需求选择合适的方法和策略,灵活应用HTMLParser提供的功能,以实现高效的数据处理和解析。

Global site tag (gtag.js) - Google Analytics