`
m635674608
  • 浏览: 5028218 次
  • 性别: Icon_minigender_1
  • 来自: 南京
社区版块
存档分类
最新评论

java开源HTML解析器收集

    博客分类:
  • java
 
阅读更多
  • HTML文档解析器 HTMLParser

    HTML Parser 是一个对HTML进行分析的快速实时的解析器,最新的发行版本是1.6,另外2.0的开发版本已经两年没有进展了。 示例代码: Parser parser = new Parser ("http://whatever"); NodeList list = parser.parse (null); Node node = list.elementAt...更多HTMLParser信息
  • HTML解析器 jsoup

    本站使用 jsoup 来解析 HTML。 jsoup 是一款 Java 的HTML 解析器,可直接解析某个URL地址、HTML文本内容。它提供了一套非常省力的API,可通过DOM,CSS以及类似于JQuery的操作方法来取出和操 作数据。 jsoup的主要功能如下: 从一个URL,文件或字符串中解析H...更多jsoup信息

    最近更新: jsoup 1.7.2 发布,支持 CSS 类伪码选择器 发布于 3个月前

  • HTML文档解析器 NekoHTML

    NekoHTML是一个Java语言的 HTML扫描器和标签补全器(tag balancer) ,使得程序能解析HTML文档并用标准的XML接口来访问其中的信息。这个解析器能够扫描HTML文件并“修正”许多作者(人或机器)在编写HTML文档 过程中常犯的错误。 NekoHTML能增补缺失的父元素、...更多NekoHTML信息
  • Html文档解析器 JTidy

    JTidy 是 HTML Tidy 用Java语言实现的版本,提供了一个HTML的语法检查器和很好的打印功能。JTidy可以用来清除格式不好和不对的 HTML。此外,JTidy提供了对整个HTML的DOM分析器。程序员可以将JTidy当作一个处理HTML文件的DOM解析器来使用。...更多JTidy信息
  • Html文档解析器 HtmlCleaner

    HtmlCleaner是一个开源的Java语言的Html文档解析器。HtmlCleaner能够重新整理HTML文档的每个元素并生成结构良 好(Well-Formed)的 HTML 文档。默认它遵循的规则是类似于大部份web浏览器为创文档对象模型所使用的规则。然而,用户可以提供自定义tag和规则组来...更多HtmlCleaner信息
  • 通用网页正文抽取 cx-extractor

    基于行块分布函数的通用网页正文抽取:线性时间、不建DOM树、与HTML标签无关 对于Web信息检索来说,网页正文抽取是后续处理的关键。 虽然使用正则表达式可以准确的抽取某一固定格式的页面,但面对形形色色的HTML,使用规则处理难免捉襟见肘。能不能高效、准...更多cx-extractor信息
  • HTML 解析和生成器 Cobra

    Cobra 是一个纯 Java 的HTML 解析和生成器,支持 HTML 4 、JavaScript、CSS 2 示例代码: import org.lobobrowser.html.parser.*; import org.lobobrowser.html.test.*; import org.lobobrowser.html.gui.*; import org.lobobrowser.html.*; import org.w...更多Cobra信息
  • HTML 解析器 Jericho

    Jericho HTML解析器是一个Java库,以分析和操纵部分的HTML文件,其中包括服务器端的标签,而过滤掉任何无法识别的或无效的HTML 。它也提供高层次的HTML表单操作函数。 示例代码: import net.htmlparser.jericho.*; import java.util.*; import java.io.*;...更多Jericho信息

    最近更新: Jericho 3.3 发布,HTML 解析器 发布于 6个月前

  • xhtmlrenderer

    解析HTML和CSS,并且能输出成image,PDF等格式. Flying Saucer is an XML/CSS renderer, which means it takes XML files as input, applies formatting and styling using CSS, and generates a rendered representation of that XML as output. The out...更多xhtmlrenderer信息
  • HTML解析器 CyberNeko

    CyberNeko 是一个HTML解析器,它可以将HTML文件解析成w3c的Document对象。也就是 NekoHTML更多CyberNeko信息
  • HTML 解析类库 MozillaParser

    MozillaParser 是一个 Java 的HTML 解析类库,基于 mozilla 的html 解析器,提供了Java类到 Mozilla类的一个桥接,输入一个HTML文本,输出一个 Java 的 Document 对象。更多MozillaParser信息
  • HTML解析器 HotSax

    HotSAX是一个快速,小型的footprint,用于HTML/XML/XHTML的非确认的SAX2解析。它可以在简单的Web代理、页面抓取器和爬虫程序中使用。它类似于Apache Xerces分析器。更多HotSax信息
  • Java的HTML解析器 Jerry

    Jerry 是 Jodd 工具包中的一个HTML解析工具。它有点像是用Java实现的jQuery。Jerry是一个高效简洁的Java库,用来简化HTML的解析,遍历和操 作。 Jerry的API在设计的时候完全向jQuery靠拢,几乎和jQuery一样,所以有时候你可以直接copy jQuery的代码来用。当...更多Jerry信息
  • 网页缩略图生成类库 Scrender

    Scrender是一个用来生成网页缩略图的Java类库,基于SWT开发。它实质上是调用本地浏览器引擎对要进行截图的网站进行渲染,然后保存该网页的缩略图。 示例代码请看这里。更多Scrender信息
  • Java的HTML解析包 jScraper

    jScraper 提供了简单的接口用来解析HTML文本,它将HTML文本转成Java的对象。 查看 jScraper 的 JavaDoc 文档: http://sharkysoft.com/software/java/html/docs/javadocs/...更多jScraper信息
  • XSS HTMLFilter

    XSS HTMLFilter这是一个采用Java实现的开源类库。用于分析用户提交的输入,消除潜在的跨站点脚本攻击(XSS),恶意的HTML,或简单的 HTML格式错误。 示例代码: // retrieve input from user... String input = ... String clean = new HTMLInputFilter().fil...更多XSS HTMLFilter信息
  • HTML4J

    HTML4J 是一个 Java 解析 HTML 的类库。示例代码: Reader re = ... // Create the document HTMLDoc doc = new HTMLDoc(); // Load its content doc.load(re); // Get the HTML HTMLFragment html = doc.getHTML(); // ...更多HTML4J信息
  • HTML解析器 TagSoup

    TagSoup 是一个Java开发符合SAX的HTML解析器更多TagSoup信息
  • HTML解析器 JoyHTML

    JoyHTML的目的是解析HTML文本当中的链接和正文,利用超链接密度法为主要判断依据的标记窗算法,采用DOM树解析模式。JoyHTML更多JoyHTML信息
  • HTML解析器 VietSpider

    VietSpider HTMLParser 是一个纯 Java 的 HTML DOM 解析器,支持 HTML 4.0.1 。具有语法检查、自动关闭元素,可以处理一些匹配错误的元素,执行效率高。更多VietSpider信息
    • HTML生成库 renderSnake

    • RenderSnake 是一个轻量级的Java类库用来通过Java方法生产html页面,包含4个核心类库: HtmlCanvas , a class that has methods for all HTML 4.01 and HTML5 tags for opening and closing it HtmlAttributes, a class that has methods for all existin...更多renderSnake信息
    • 网页抽取工具 Krabber

      Krabber是kVitrail的网页抽取工具。 Krabber的设计目标是提供一个可以为Java应用调用的、可以执行网页上的JavaScript代码、并返回JavaScript代码执行后的网页的HTML代码的网页抽取工具。更多Krabber信息
    • Java的HTML解析库 gohtml

      gohtml 是一个很小的 Java 类库,用来解析 HTML 文档,目前尚未公开发布版本。更多gohtml信息

       

       

      http://www.7mdm.com/1176.html

分享到:
评论

相关推荐

    java开源包6

    Blister是一个用于操作苹果二进制PList文件格式的Java开源类库(可用于发送数据给iOS应用程序)。 重复文件检查工具 FindDup.tar FindDup 是一个简单易用的工具,用来检查计算机上重复的文件。 OpenID的Java客户端...

    java开源包10

    Blister是一个用于操作苹果二进制PList文件格式的Java开源类库(可用于发送数据给iOS应用程序)。 重复文件检查工具 FindDup.tar FindDup 是一个简单易用的工具,用来检查计算机上重复的文件。 OpenID的Java客户端...

    java开源包9

    Blister是一个用于操作苹果二进制PList文件格式的Java开源类库(可用于发送数据给iOS应用程序)。 重复文件检查工具 FindDup.tar FindDup 是一个简单易用的工具,用来检查计算机上重复的文件。 OpenID的Java客户端...

    java开源包8

    Blister是一个用于操作苹果二进制PList文件格式的Java开源类库(可用于发送数据给iOS应用程序)。 重复文件检查工具 FindDup.tar FindDup 是一个简单易用的工具,用来检查计算机上重复的文件。 OpenID的Java客户端...

    java开源包4

    Blister是一个用于操作苹果二进制PList文件格式的Java开源类库(可用于发送数据给iOS应用程序)。 重复文件检查工具 FindDup.tar FindDup 是一个简单易用的工具,用来检查计算机上重复的文件。 OpenID的Java客户端...

    java开源包5

    Blister是一个用于操作苹果二进制PList文件格式的Java开源类库(可用于发送数据给iOS应用程序)。 重复文件检查工具 FindDup.tar FindDup 是一个简单易用的工具,用来检查计算机上重复的文件。 OpenID的Java客户端...

    java开源包101

    Blister是一个用于操作苹果二进制PList文件格式的Java开源类库(可用于发送数据给iOS应用程序)。 重复文件检查工具 FindDup.tar FindDup 是一个简单易用的工具,用来检查计算机上重复的文件。 OpenID的Java客户端...

    java开源包1

    Blister是一个用于操作苹果二进制PList文件格式的Java开源类库(可用于发送数据给iOS应用程序)。 重复文件检查工具 FindDup.tar FindDup 是一个简单易用的工具,用来检查计算机上重复的文件。 OpenID的Java客户端...

    java开源包3

    Blister是一个用于操作苹果二进制PList文件格式的Java开源类库(可用于发送数据给iOS应用程序)。 重复文件检查工具 FindDup.tar FindDup 是一个简单易用的工具,用来检查计算机上重复的文件。 OpenID的Java客户端...

    java开源包2

    Blister是一个用于操作苹果二进制PList文件格式的Java开源类库(可用于发送数据给iOS应用程序)。 重复文件检查工具 FindDup.tar FindDup 是一个简单易用的工具,用来检查计算机上重复的文件。 OpenID的Java客户端...

    java开源包11

    Blister是一个用于操作苹果二进制PList文件格式的Java开源类库(可用于发送数据给iOS应用程序)。 重复文件检查工具 FindDup.tar FindDup 是一个简单易用的工具,用来检查计算机上重复的文件。 OpenID的Java客户端...

    java开源包7

    Blister是一个用于操作苹果二进制PList文件格式的Java开源类库(可用于发送数据给iOS应用程序)。 重复文件检查工具 FindDup.tar FindDup 是一个简单易用的工具,用来检查计算机上重复的文件。 OpenID的Java客户端...

    java开源爬虫框架

    Java开源爬虫框架,如标题所示,主要涉及的是利用Java编程语言进行网络数据抓取的工具,其中WebMagic是一个常见的选择。WebMagic是一个轻量级、可扩展的Java爬虫框架,它允许开发者以简洁的代码实现复杂的网络爬取...

    JAVA上百实例源码以及开源项目源代码

    简介 笔者当初为了学习JAVA,收集了很多经典源码,源码难易程度分为初级、中级、高级等,详情看源码列表,需要的可以直接下载! 这些源码反映了那时那景笔者对未来的盲目,对代码的热情、执着,对IT的憧憬、向往!...

    Java资源包01

    Blister是一个用于操作苹果二进制PList文件格式的Java开源类库(可用于发送数据给iOS应用程序)。 重复文件检查工具 FindDup.tar FindDup 是一个简单易用的工具,用来检查计算机上重复的文件。 OpenID的Java客户端...

    crawler4j是Java实现的开源网络爬虫

    - **网页解析**:内置了 HTML 解析器,能够解析网页内容并提取所需信息。 - **异常处理**:具备错误恢复机制,遇到网络问题时能够自动重试。 3. **使用 crawler4j 创建爬虫的步骤** - **设置项目依赖**:将 `...

    阿里开源项目合集

    **Fastjson** 是一款用Java编写的高性能JSON解析器和生成器,具有以下优势: - **高性能**:在JSON序列化和反序列化方面表现优秀; - **易用性**:API简洁明了,易于理解和使用; - **支持性强**:支持广泛的Java...

    Java-readability-master.zip_readability_readability java

    1. **源代码**:包含了实现`readability`功能的Java类和方法,可能包括HTML解析、元素权重计算、内容筛选等功能。 2. **测试用例**:为了验证`readability`库的正确性和性能,开发者可能编写了测试用例来覆盖各种...

    Java的jdk资源包

    Java使用自动垃圾收集机制来管理内存,避免了程序员手动释放内存,减少了内存泄露的风险。 7. **Java多线程**: Java内置了对多线程的支持,允许开发者在同一程序中同时执行多个任务,提高了程序的效率。 8. **...

    Java JVMDI Coverage Tool-开源

    Java JVMDI Coverage Tool 是一个基于Java调试接口(JVMDI,Java Virtual Machine Debug Interface)的开源工具,用于实现代码覆盖率分析。这个工具的核心功能是在运行测试时追踪代码执行情况,进而生成行覆盖率报告...

Global site tag (gtag.js) - Google Analytics