`
gcgmh
  • 浏览: 355921 次
  • 性别: Icon_minigender_1
  • 来自: 北京
社区版块
存档分类
最新评论

htmlparser解析自定义标签功能

 
阅读更多
import org.htmlparser.tags.CompositeTag; 
 
public class StrongTag extends CompositeTag { 
 
    private static final String mIds[] = { 
        "strong" 
    }; 
    private static final String mEndTagEnders[] = { 
        "strong" 
    }; 
 
    public Strong() 
    { 
    } 
 
    public String[] getIds() 
    { 
        return mIds; 
    } 
    public String[] getEndTagEnders() 
    { 
        return mEndTagEnders; 
    } 
 
} 



上面就是定义这个tag标签继承CompositeTag
然后最重要的是,在使用的时候要注册这个tag

parser = new Parser(url);
PrototypicalNodeFactory p=new PrototypicalNodeFactory();
p.registerTag(new Li());
parser.setNodeFactory(p);
4行代码注册完成,,一个简单的标签自定义完成。
分享到:
评论

相关推荐

    扩展HTMLParser对自定义标签的处理能力

    资源名称:扩展HTMLParser对自定义标签的处理能力内容简介: HTMLParser是一个用来解析HTML文档的开放源码项目,它具有小巧、快速、使用简单的特点以及拥有强大的功能。 现在该项目的最新版本是Integration Build ...

    htmlparser解析Html的jar包和源文件包(两个)

    - **标签识别**:HTMLParser能够识别并处理HTML文档中的各种标签,如`<div>`、`<p>`、`<a>`等,同时支持自定义标签。 - **属性解析**:解析HTML元素的属性,例如`href`、`class`等,并提供访问这些属性的API。 - *...

    htmlparser解析html分页

    HTMLParser是一个用于解析HTML文档的库,尤其在处理非结构化或不标准的HTML时非常有用。这个库可能被用于从网页中提取数据,比如在爬虫项目中,或者进行自动化测试时解析页面内容。本篇文章将深入探讨HTMLParser的...

    htmlparser(HTML页面解析)例子

    总结来说,HTMLParser是Python中用于解析HTML文档的基础工具,通过自定义事件处理方法,我们可以轻松地从中提取所需信息。尽管它可能不如某些更高级的库那样功能全面,但对于理解HTML结构和进行基础的数据提取,...

    解析htmlparser的所有jar包

    在这个压缩包中,你可能找到了HTMLParser项目的所有必需jar包,这将帮助你全面地利用这个库的功能。 HTMLParser的核心功能包括: 1. **解析HTML**:HTMLParser可以读取HTML文档并将其转换为一个可操作的DOM...

    使用HTMLParser解析网页,找出文章后下载保存

    总结来说,使用HTMLParser解析网页涉及到以下步骤: 1. 继承`HTMLParser`并重写相关方法以定义解析逻辑。 2. 找到文章内容所在的标签,如`<p>`或`<article>`,并在适当的方法中处理它们。 3. 收集文章文本,并在适当...

    htmlparser解析API

    你可以自定义`NodeVisitor`来执行特定的操作,比如提取特定标签的数据。 ```java class MyNodeVisitor implements NodeVisitor { @Override public void visitTag(Tag tag) { // 在这里处理每个访问的标签 } ...

    Html解析助手htmlparser.jar

    3. **事件驱动解析**:`htmlparser.jar`支持事件驱动的解析模式,当遇到特定的HTML标签或事件时,会触发回调函数,这种方式对内存使用友好,适用于处理大型HTML文档。 4. **灵活性**:这个库允许用户自定义解析规则...

    HtmlParser

    1. **创建自定义解析器**: 首先,我们需要继承Python的`HTMLParser`类,并重写其方法,如`handle_starttag`、`handle_endtag`和`handle_data`,以便在遇到HTML标签开始、结束或数据时执行特定操作。 2. **启动爬虫*...

    HTML文档解析器 HTMLParser

    此外,开发者还可以利用HTMLParser库进行自定义解析任务,例如从HTML文档中提取特定信息、清洗HTML代码、或者在服务器端预处理HTML以减轻客户端的负担。在JavaScript中,有像`jsdom`这样的库可以模拟浏览器的HTML...

    htmlparser_Java网页解析器

    5. **灵活性**:库提供了多种配置选项,允许用户自定义解析行为,如忽略某些标签、修改元素处理方式等。 为了使用`HtmlParser`,你需要将压缩包中的`jar`文件添加到你的Java项目类路径中。这可以通过IDE(如Eclipse...

    HTMLParser-2.0-API.CHM

    3. **标签处理**:HTMLParser支持自定义标签处理器。你可以为每一个HTML标签编写处理类,指定在遇到该标签时如何处理。这在需要对特定标签进行特殊操作时非常有用。 4. **解析结果的树形结构**:HTMLParser可以将...

    jsoup-1.7.1

    Java 程序在解析HTML 文档时,相信大家都接触过htmlparser 这个开源项目,我曾经在IBM DW 上发表过两篇关于htmlparser 的文章,分别是:从HTML中攫取你所需的信息 和扩展HTMLParser 对自定义标签的处理能力。...

    网络爬虫资源包及使用教程

    Java 程序在解析HTML 文档时,相信大家都接触过htmlparser 这个开源项目,我曾经在IBM DW 上发表过两篇关于htmlparser 的文章,分别是:从HTML中攫取你所需的信息 和扩展HTMLParser 对自定义标签的处理能力。...

    jsoup支持包_教程_源代码

    Java 程序在解析HTML 文档时,相信大家都接触过htmlparser 这个开源项目,我曾经在IBM DW 上发表过两篇关于htmlparser 的文章,分别是:从HTML中攫取你所需的信息 和扩展HTMLParser 对自定义标签的处理能力。...

    htmlParser2.0.jar

    2. **自定义标签处理**:一个独特的特性是它支持处理自定义的HTML标签,这对于解析包含非标准标签或者XHTML文档特别有用。 3. **事件驱动模型**:解析器采用事件驱动模型,当遇到HTML元素、属性或其他结构时,会...

    c#版htmlparser htmlparser.dll htmlparser源代码

    源代码是开发者理解库工作原理、自定义功能或调试问题的重要资源。`htmlparser源代码`通常包含`.cs`文件,这些文件由C#编写,展示了如何实现HTML解析的各种逻辑。通过阅读源代码,开发者可以学习到如何处理HTML标签...

    HTMLParser 2.0

    2. 创建自定义解析器:继承HTMLParser类并创建一个新的解析器类,覆盖需要处理的事件方法。 ```python class MyParser(HTMLParser): def handle_starttag(self, tag, attrs): # 处理开始标签 pass def handle_...

    基于Java的HTML文档解析器 HTMLParser.zip

    2. **数据挖掘**:在进行网页数据挖掘时,可以利用HTMLParser解析HTML,提取有价值的结构化数据。 3. **HTML清洗**:对于从网络上获取的不规范的HTML,HTMLParser可以用来清理和标准化HTML代码。 4. **自动化测试*...

    htmlparser的jar包

    之后,通过`import`语句引入所需的类,就可以开始使用HTMLParser解析HTML文档了。 总的来说,HTMLParser是一个强大且灵活的工具,适用于需要解析和操作HTML的Java应用,如爬虫、数据提取、网页自动化等场景。通过...

Global site tag (gtag.js) - Google Analytics