`
tianyalinfeng
  • 浏览: 443202 次
  • 性别: Icon_minigender_1
  • 来自: 苏州
社区版块
存档分类
最新评论

htmlparser 自定义标签

    博客分类:
  • Java
 
阅读更多

//构造自定义标签类

static class bTag extends CompositeTag {
     private static final String[] mIds = new String[] {"B"};
     public String[] getIds (){
         return (mIds);
     }
 }

 

//注册自定义标签

PrototypicalNodeFactory factory = new PrototypicalNodeFactory();
   factory.registerTag(new bTag());
   parser.setNodeFactory(factory);

//获取自定义标签

NodeFilter filter = new TagNameFilter("B");
    NodeList list = parser.extractAllNodesThatMatch(filter);
    for(int i=0;i<list.size();i++){
     System.out.println(list.elementAt(i).toPlainTextString());
    }

 

 

 

分享到:
评论

相关推荐

    扩展HTMLParser对自定义标签的处理能力

    资源名称:扩展HTMLParser对自定义标签的处理能力内容简介: HTMLParser是一个用来解析HTML文档的开放源码项目,它具有小巧、快速、使用简单的特点以及拥有强大的功能。 现在该项目的最新版本是Integration Build ...

    HtmlParser

    1. **创建自定义解析器**: 首先,我们需要继承Python的`HTMLParser`类,并重写其方法,如`handle_starttag`、`handle_endtag`和`handle_data`,以便在遇到HTML标签开始、结束或数据时执行特定操作。 2. **启动爬虫*...

    c#版htmlparser htmlparser.dll htmlparser源代码

    标签`c# htmlparser`表明这个库是为C#语言设计的,这意味着它可以无缝集成到任何.NET Framework或.NET Core项目中,利用C#的特性如 LINQ 来简化数据提取。 标签`dll`提醒我们这个库是以DLL形式提供的,这意味着它是...

    htmlparser.jar文件

    HTMLParser提供了多种方法来访问和操作解析树,比如`parseContent()`用于获取整个文档的节点列表,`visitAllNodesWith()`可以遍历所有节点并应用自定义的访问器,`getFirstNodeWithTag()`用于找到第一个特定标签的...

    htmlParser2.0.jar

    2. **自定义标签处理**:一个独特的特性是它支持处理自定义的HTML标签,这对于解析包含非标准标签或者XHTML文档特别有用。 3. **事件驱动模型**:解析器采用事件驱动模型,当遇到HTML元素、属性或其他结构时,会...

    htmlparser1.6最新版

    4. **标签过滤与选择**:HTMLParser允许开发者通过指定标签名或CSS选择器来过滤和选择需要处理的HTML元素,这对于提取特定内容非常方便。 5. **字符编码识别**:HTMLParser可以自动检测HTML文档的字符编码,确保...

    HTMLParser 2.0

    2. 创建自定义解析器:继承HTMLParser类并创建一个新的解析器类,覆盖需要处理的事件方法。 ```python class MyParser(HTMLParser): def handle_starttag(self, tag, attrs): # 处理开始标签 pass def handle_...

    htmlparser网页分析

    由于HTML经常存在不规范的情况,如缺少闭合标签、嵌套错误等,HTMLParser通过容错机制,能够较好地解析这些不规则的HTML。 2. DOM模型:HTMLParser基于DOM模型工作,将HTML文档转换为一棵节点树。每个HTML元素、...

    HtmlParser 2.1 码源

    通过这些事件,开发者可以构建自定义的解析逻辑,如提取特定标签的数据、过滤HTML标签等。 4. **类库架构** HtmlParser的核心类包括`HtmlParser`、`Node`和`Element`等。`HtmlParser`负责解析过程,`Node`是所有...

    htmlparser1.4完整包下载

    HTMLParser库的设计目标是简单易用且具有灵活性,它允许开发者通过事件驱动的方式处理HTML元素,如开始标签、结束标签、文本内容等。在1.4版本中,可能包括了以下主要功能: 1. **解析HTML**:HTMLParser可以解析...

    htmlparser1_6.jar

    4. **灵活性**:HTMLParser允许用户自定义解析策略,对于不规则或非标准的HTML也能较好地处理。这在处理现实世界中的网页时尤为重要,因为许多网页可能不符合严格的HTML规范。 5. **错误处理**:库内置了错误处理...

    htmlparser的jar包

    这些事件可以是开始标签、结束标签、文本内容等。通过注册监听器,你可以对这些事件进行处理。例如,你可以创建一个自定义的`NodeVisitor`来遍历整个HTML文档,或者使用`Parser`的`print`方法将HTML源码按照特定格式...

    HtmlParser源码及其jar包

    HTMLParser库的优势在于其对HTML不规则性的容忍度,它可以处理嵌套不正确、缺失闭合标签等常见问题。此外,它还支持XML和SGML,扩展了其应用范围。 在提供的压缩文件中,有两个版本: - `htmlparser1_6_20060610....

    htmlparser-1.0.5

    1. **事件驱动模型**:HTMLParser基于事件驱动模型工作,当解析器遇到HTML标签、属性、文本等内容时,会触发相应的事件,如开始标签、结束标签、文本内容等。开发者可以通过注册事件处理器来响应这些事件,从而实现...

    htmlparser2.0_dll+htmlparserAPI

    1. **事件驱动的解析**:HTMLParser2.0采用事件驱动模型,当解析器遇到如标签开始、结束、文本等内容时,会触发相应的事件,开发者可以注册事件处理器来响应这些事件。 2. **灵活性**:库支持自定义解析策略,可以...

    拓展HtmlParse标签支持

    为了解决这个问题,我们需要对HtmlParser进行扩展,增加对未知或自定义标签的支持。扩展HtmlParser通常包括以下几个步骤: 1. **注册新标签**:编写代码来注册自定义或不常见标签,使HtmlParser能够识别它们。这...

    HTMLParser使用文档和jar包

    3. **标签和属性处理**:HTMLParser提供了一系列接口和类,如`Tag`和`Attribute`,用于处理HTML标签和属性,允许开发者自定义处理逻辑。 4. **DOM树构建**:虽然不是完整的DOM解析器,但HTMLParser可以构建一个简化...

    HTMLParser 使用文档、jar包、以及源码

    这使得HTMLParser不仅可以用于基本的标签提取,还能用于更复杂的网页数据抓取和分析。 总的来说,HTMLParser是一个功能丰富的HTML解析工具,对于需要处理HTML的Java开发者来说,它是一个强大且灵活的解决方案。通过...

    解析htmlparser的所有jar包

    3. **标签和属性处理**:HTMLParser能处理不规范的HTML,因为它设计时考虑到了HTML的非结构化特性。它可以识别并处理标签的嵌套、未闭合的标签以及不正确的属性值。 4. **过滤和转换**:你可以通过自定义处理器或...

    HTMLParser-2.0-API.CHM

    3. **标签处理**:HTMLParser支持自定义标签处理器。你可以为每一个HTML标签编写处理类,指定在遇到该标签时如何处理。这在需要对特定标签进行特殊操作时非常有用。 4. **解析结果的树形结构**:HTMLParser可以将...

Global site tag (gtag.js) - Google Analytics