`
韩悠悠
  • 浏览: 839849 次
  • 性别: Icon_minigender_1
  • 来自: 深圳
社区版块
存档分类
最新评论

htmlParser源码分析之1---类图

 
阅读更多

          需要做一个垂直搜索引擎,比较了nekohtml和htmlparser 的功能,尽管nekohtml在容错性、性能等方面的口碑好像比htmlparser好(htmlunit也用的是nekohtml),但感觉 nekohtml的测试用例和文档都比htmlparser都少,而且htmlparser基本上能够满足垂直搜索引擎页面处理分析的需求

 

htmlparser的类图如下:

 



 

 

 

 

 

 

 

 

  • 大小: 185.3 KB
  • 大小: 72.8 KB
  • 大小: 22 KB
  • 大小: 39.1 KB
  • 大小: 26.1 KB
  • 大小: 28.4 KB
  • 大小: 30.9 KB
  • 大小: 41.1 KB
分享到:
评论

相关推荐

    前端开源库-parse5-htmlparser2-tree-adapter

    在`parse5-master`这个压缩包中,很可能包含了parse5库的源码和相关资源,你可以通过阅读源码、查看示例和文档来更深入地理解这个库的工作原理,以及如何有效地使用`parse5-htmlparser2-tree-adapter`。同时,熟悉这...

    java解析html工具htmlparser的jar包及api文档

    在提供的压缩包中,`HTMLParser-2.0-SNAPSHOT-bin`可能是可执行的二进制文件,包括了编译好的JAR文件和其他运行所需的资源。而`HTMLParser-2.0-SNAPSHOT`可能包含了源代码,这对于开发者来说是宝贵的,因为他们可以...

    HTMLParser-2.0-SNAPSHOT

    这个"HTMLParser-2.0-SNAPSHOT"版本可能是HTMLParser的一个开发版本或测试版本,包含了最新的特性和改进。 HTMLParser提供了丰富的API,使得开发者可以方便地操作HTML元素,如标签、属性和文本。以下是一些关键的...

    HTMLParser-2.0-SNAPSHOT-bin.zip JAVA html解析库

    if (end == -1) end = frame.indexOf(">"); String frameUrl = frame.substring(5, end - 1); if (filter.accept(frameUrl)) links.add(frameUrl); } } } catch (ParserException e) {//捕捉parser的...

    htmlparser-1.6p.jar

    "htmlparser-1.6p.jar"是该库的特定版本,用于在Java环境中集成和使用。 HTMLParser的核心功能包括: 1. **标签和属性处理**:它可以识别并解析HTML文档中的各种标签,如`<html>`, `<head>`, `<body>`等,同时处理...

    HtmlParser源码及其jar包

    - `HTMLParser-2.0-SNAPSHOT-src.zip`:这是一个开发中的版本,标记为“SNAPSHOT”,意味着它包含了最新的开发成果,可能包含新功能和改进。源码版本可供开发者查看和修改代码,以便自定义和扩展功能。 在实际使用...

    正则表达式+_HTMLParser使用详解-2010-03-21

    正则表达式与HTMLParser是两种在处理文本数据时非常重要的工具。正则表达式(Regular Expression)是一种模式匹配语言,常用于字符串的查找、替换和提取等操作,而HTMLParser则是用来解析HTML文档结构的工具,尤其在...

    HtmlParser学习笔记-- htmlparser简介

    1. **Node**: Node是构建HTML页面树结构的基础,它代表了HTML文档中的每一个元素。Node接口定义了一系列方法,包括获取父节点、子节点和兄弟节点,将节点转换为HTML文本,确定节点在原始HTML源码中的位置,以及...

    HTMLParser 2.0最新jar API 源代码

    1. **HTMLParser-2.0-SNAPSHOT-doc.zip**:这部分是API文档,包含了HTMLParser 2.0的详细接口说明。通过解压这个文件,开发者可以了解到如何使用该库的各种方法、类和接口。在开发过程中,API文档是必不可少的参考...

    HTMLParser 使用文档、jar包、以及源码

    2. **HTMLParser-2.0-SNAPSHOT-doc.zip**:这是HTMLParser库的API文档,包含了详细的Javadoc。通过解压并查阅这个文档,开发者可以了解每个类、方法和接口的功能,这对于理解和使用库中的各种功能至关重要。 3. **...

    htmlparser的jar包

    HTMLParser提供了两种主要的解析方式:事件驱动和DOM(Document Object Model)模型。这两个jar包——htmlparser.jar和htmllexer.jar,包含了实现这些功能所需的类和方法。 htmlparser.jar是核心库,它包含了...

    HTMLParser的Jar文件

    HTMLParser的Jar文件有如下几种: htmlparser.jar filterbuilder.jar htmllexer.jar sitecapturer.jar thumbelina.jar

    Winista.HTMLParser源码

    《Winista.HTMLParser源码解析与应用》 Winista.HTMLParser是一个用于网页爬虫开发的开源库,其源代码提供了一种高效的方式,帮助开发者解析HTML文档并从中提取所需信息。该库专为Visual Studio 2008设计,使得在...

    HtmlParser源码及demo

    1. **HTML解析**:HTMLParser提供了对HTML文档的解析能力,将HTML文本转换为可操作的对象模型。它能够处理嵌套标签、属性、注释以及实体引用等HTML元素。 2. **DOM(Document Object Model)**:HTMLParser基于DOM...

    前端开源库-htmlparser-to-html

    1. **JSON到HTML转换**:`htmlparser-to-html`库的主要任务是将`htmlparser`或`htmlparser2`库解析HTML文档后得到的JSON结构转换回HTML文本。这两个解析器可以将HTML文档分解成易于处理的数据结构,包括元素(tag)...

    Winista.Htmlparser.Net 源码 +Demo

    1. **AnalyzeHtml**:这个项目可能展示了如何分析HTML文档,通过调用HtmlParser的API来提取特定元素、属性或者文本内容。 2. **WebParser**:可能是一个简单的网页抓取器,利用HtmlParser解析网页,提取所需信息,...

    HTMLParser使用文档和jar包

    首先,`HTMLParser-2.0-SNAPSHOT-doc.zip`包含了HTMLParser的使用文档。这份文档通常包含API参考、教程、示例代码和用户指南,是学习和理解HTMLParser的关键资源。通过阅读这份文档,你可以了解到如何初始化解析器,...

    htmlparser-1.2.1 jar

    htmlparser-1.2.1jar包下载htmlparser-1.2.1jar包下载

Global site tag (gtag.js) - Google Analytics