`
hpjianhua
  • 浏览: 241545 次
  • 性别: Icon_minigender_1
  • 来自: 广州
社区版块
存档分类

htmlparser自定义标签UlTag

阅读更多

htmlparser如何自定义UlTag标签:

 

代码如下:

 

public class UlTag extends CompositeTag {
	
	 private static final String[] mIds = new String[] {"ul"}; 
	 
	 public String[] getIds(){
	       return (mIds);
	 }
     public String[] getEnders (){
    	 return (mIds);
	 }
}

 

标签要先注册后使用:

 

代码如下:

			// 注册并输入HTML
			PrototypicalNodeFactory p = new PrototypicalNodeFactory();
			p.registerTag(new UlTag());

NodeFilter filter1 = new NodeClassFilter(UlTag.class);

NodeList nodes = parser.extractAllNodesThatMatch(filter1)

 

 

0
1
分享到:
评论

相关推荐

    扩展HTMLParser对自定义标签的处理能力

    资源名称:扩展HTMLParser对自定义标签的处理能力内容简介: HTMLParser是一个用来解析HTML文档的开放源码项目,它具有小巧、快速、使用简单的特点以及拥有强大的功能。 现在该项目的最新版本是Integration Build ...

    HtmlParser

    1. **创建自定义解析器**: 首先,我们需要继承Python的`HTMLParser`类,并重写其方法,如`handle_starttag`、`handle_endtag`和`handle_data`,以便在遇到HTML标签开始、结束或数据时执行特定操作。 2. **启动爬虫*...

    htmlparser

    META-INF/maven/org.htmlparser/htmlparser/pom.properties META-INF/maven/org.htmlparser/htmlparser/pom.xml org.htmlparser.Parser.class org.htmlparser.PrototypicalNodeFactory.class org.htmlparser.beans....

    c#版htmlparser htmlparser.dll htmlparser源代码

    标签`c# htmlparser`表明这个库是为C#语言设计的,这意味着它可以无缝集成到任何.NET Framework或.NET Core项目中,利用C#的特性如 LINQ 来简化数据提取。 标签`dll`提醒我们这个库是以DLL形式提供的,这意味着它是...

    htmlparser.jar文件

    HTMLParser提供了多种方法来访问和操作解析树,比如`parseContent()`用于获取整个文档的节点列表,`visitAllNodesWith()`可以遍历所有节点并应用自定义的访问器,`getFirstNodeWithTag()`用于找到第一个特定标签的...

    htmlParser2.0.jar

    2. **自定义标签处理**:一个独特的特性是它支持处理自定义的HTML标签,这对于解析包含非标准标签或者XHTML文档特别有用。 3. **事件驱动模型**:解析器采用事件驱动模型,当遇到HTML元素、属性或其他结构时,会...

    HTMLParser.net源代码HTMLParser.net使用demo

    开发者可以订阅这些事件来实现自定义逻辑。 5. **灵活性**:除了基本的HTML解析,HTMLParser.net还支持XML和SVG解析,并且可以与其他.NET XML库集成,如LINQ to XML。 6. **性能优化**:HTMLParser.net被设计为...

    htmlparser1.6最新版

    4. **标签过滤与选择**:HTMLParser允许开发者通过指定标签名或CSS选择器来过滤和选择需要处理的HTML元素,这对于提取特定内容非常方便。 5. **字符编码识别**:HTMLParser可以自动检测HTML文档的字符编码,确保...

    HTMLParser 2.0

    2. 创建自定义解析器:继承HTMLParser类并创建一个新的解析器类,覆盖需要处理的事件方法。 ```python class MyParser(HTMLParser): def handle_starttag(self, tag, attrs): # 处理开始标签 pass def handle_...

    htmlparser网页分析

    由于HTML经常存在不规范的情况,如缺少闭合标签、嵌套错误等,HTMLParser通过容错机制,能够较好地解析这些不规则的HTML。 2. DOM模型:HTMLParser基于DOM模型工作,将HTML文档转换为一棵节点树。每个HTML元素、...

    拓展HtmlParse标签支持

    为了解决这个问题,我们需要对HtmlParser进行扩展,增加对未知或自定义标签的支持。扩展HtmlParser通常包括以下几个步骤: 1. **注册新标签**:编写代码来注册自定义或不常见标签,使HtmlParser能够识别它们。这...

    HtmlParser 2.1 码源

    通过这些事件,开发者可以构建自定义的解析逻辑,如提取特定标签的数据、过滤HTML标签等。 4. **类库架构** HtmlParser的核心类包括`HtmlParser`、`Node`和`Element`等。`HtmlParser`负责解析过程,`Node`是所有...

    htmlparser1_6.jar

    4. **灵活性**:HTMLParser允许用户自定义解析策略,对于不规则或非标准的HTML也能较好地处理。这在处理现实世界中的网页时尤为重要,因为许多网页可能不符合严格的HTML规范。 5. **错误处理**:库内置了错误处理...

    htmlparser1.4完整包下载

    HTMLParser库的设计目标是简单易用且具有灵活性,它允许开发者通过事件驱动的方式处理HTML元素,如开始标签、结束标签、文本内容等。在1.4版本中,可能包括了以下主要功能: 1. **解析HTML**:HTMLParser可以解析...

    htmlparser的jar包

    这些事件可以是开始标签、结束标签、文本内容等。通过注册监听器,你可以对这些事件进行处理。例如,你可以创建一个自定义的`NodeVisitor`来遍历整个HTML文档,或者使用`Parser`的`print`方法将HTML源码按照特定格式...

    HtmlParser源码及其jar包

    源码版本可供开发者查看和修改代码,以便自定义和扩展功能。 在实际使用HTMLParser时,开发者首先需要将其jar包添加到项目类路径中,然后可以使用提供的API开始解析HTML。例如,可以创建一个`HTMLParser`实例,设置...

    htmlparser库与教程

    4. **遍历和访问HTML元素**:HTMLParser提供了对HTML文档节点的遍历方法,如`getElementsByTag()`,可以根据标签名获取元素集合。通过`getText()`或`getAttribute()`等方法,可以获取元素的内容和属性值。 5. **...

    htmlparser-1.0.5

    1. **事件驱动模型**:HTMLParser基于事件驱动模型工作,当解析器遇到HTML标签、属性、文本等内容时,会触发相应的事件,如开始标签、结束标签、文本内容等。开发者可以通过注册事件处理器来响应这些事件,从而实现...

    htmlparser2.0_dll+htmlparserAPI

    1. **事件驱动的解析**:HTMLParser2.0采用事件驱动模型,当解析器遇到如标签开始、结束、文本等内容时,会触发相应的事件,开发者可以注册事件处理器来响应这些事件。 2. **灵活性**:库支持自定义解析策略,可以...

    HTMLParser-2.0-API.CHM

    3. **标签处理**:HTMLParser支持自定义标签处理器。你可以为每一个HTML标签编写处理类,指定在遇到该标签时如何处理。这在需要对特定标签进行特殊操作时非常有用。 4. **解析结果的树形结构**:HTMLParser可以将...

Global site tag (gtag.js) - Google Analytics