java开源HTML解析器收集

m635674608

浏览: 5091237 次
性别:
来自: 南京

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

博客分类：

java

HTML Parser 是一个对HTML进行分析的快速实时的解析器，最新的发行版本是1.6，另外2.0的开发版本已经两年没有进展了。示例代码： Parser parser = new Parser ("http://whatever"); NodeList list = parser.parse (null); Node node = list.elementAt...更多HTMLParser信息

HTML解析器 jsoup

本站使用 jsoup 来解析 HTML。 jsoup 是一款 Java 的HTML 解析器，可直接解析某个URL地址、HTML文本内容。它提供了一套非常省力的API，可通过DOM，CSS以及类似于JQuery的操作方法来取出和操作数据。 jsoup的主要功能如下：从一个URL，文件或字符串中解析H...更多jsoup信息

最近更新： jsoup 1.7.2 发布，支持 CSS 类伪码选择器发布于 3个月前

HTML文档解析器 NekoHTML

NekoHTML是一个Java语言的 HTML扫描器和标签补全器(tag balancer) ,使得程序能解析HTML文档并用标准的XML接口来访问其中的信息。这个解析器能够扫描HTML文件并“修正”许多作者（人或机器）在编写HTML文档过程中常犯的错误。 NekoHTML能增补缺失的父元素、...更多NekoHTML信息

Html文档解析器 JTidy

JTidy 是 HTML Tidy 用Java语言实现的版本，提供了一个HTML的语法检查器和很好的打印功能。JTidy可以用来清除格式不好和不对的 HTML。此外，JTidy提供了对整个HTML的DOM分析器。程序员可以将JTidy当作一个处理HTML文件的DOM解析器来使用。...更多JTidy信息

Html文档解析器 HtmlCleaner

HtmlCleaner是一个开源的Java语言的Html文档解析器。HtmlCleaner能够重新整理HTML文档的每个元素并生成结构良好(Well-Formed)的 HTML 文档。默认它遵循的规则是类似于大部份web浏览器为创文档对象模型所使用的规则。然而，用户可以提供自定义tag和规则组来...更多HtmlCleaner信息

通用网页正文抽取 cx-extractor

基于行块分布函数的通用网页正文抽取：线性时间、不建DOM树、与HTML标签无关对于Web信息检索来说，网页正文抽取是后续处理的关键。虽然使用正则表达式可以准确的抽取某一固定格式的页面，但面对形形色色的HTML，使用规则处理难免捉襟见肘。能不能高效、准...更多cx-extractor信息

HTML 解析和生成器 Cobra

Cobra 是一个纯 Java 的HTML 解析和生成器，支持 HTML 4 、JavaScript、CSS 2 示例代码： import org.lobobrowser.html.parser.*; import org.lobobrowser.html.test.*; import org.lobobrowser.html.gui.*; import org.lobobrowser.html.*; import org.w...更多Cobra信息

HTML 解析器 Jericho

Jericho HTML解析器是一个Java库，以分析和操纵部分的HTML文件，其中包括服务器端的标签，而过滤掉任何无法识别的或无效的HTML 。它也提供高层次的HTML表单操作函数。示例代码： import net.htmlparser.jericho.*; import java.util.*; import java.io.*;...更多Jericho信息

最近更新： Jericho 3.3 发布，HTML 解析器发布于 6个月前

xhtmlrenderer

解析HTML和CSS，并且能输出成image，PDF等格式. Flying Saucer is an XML/CSS renderer, which means it takes XML files as input, applies formatting and styling using CSS, and generates a rendered representation of that XML as output. The out...更多xhtmlrenderer信息

HTML解析器 CyberNeko

CyberNeko 是一个HTML解析器,它可以将HTML文件解析成w3c的Document对象。也就是 NekoHTML更多CyberNeko信息

HTML 解析类库 MozillaParser

MozillaParser 是一个 Java 的HTML 解析类库，基于 mozilla 的html 解析器，提供了Java类到 Mozilla类的一个桥接，输入一个HTML文本，输出一个 Java 的 Document 对象。更多MozillaParser信息

HTML解析器 HotSax

HotSAX是一个快速，小型的footprint,用于HTML/XML/XHTML的非确认的SAX2解析。它可以在简单的Web代理、页面抓取器和爬虫程序中使用。它类似于Apache Xerces分析器。更多HotSax信息

Java的HTML解析器 Jerry

Jerry 是 Jodd 工具包中的一个HTML解析工具。它有点像是用Java实现的jQuery。Jerry是一个高效简洁的Java库，用来简化HTML的解析，遍历和操作。 Jerry的API在设计的时候完全向jQuery靠拢，几乎和jQuery一样，所以有时候你可以直接copy jQuery的代码来用。当...更多Jerry信息

网页缩略图生成类库 Scrender

Scrender是一个用来生成网页缩略图的Java类库，基于SWT开发。它实质上是调用本地浏览器引擎对要进行截图的网站进行渲染，然后保存该网页的缩略图。示例代码请看这里。更多Scrender信息

Java的HTML解析包 jScraper

jScraper 提供了简单的接口用来解析HTML文本，它将HTML文本转成Java的对象。查看 jScraper 的 JavaDoc 文档： http://sharkysoft.com/software/java/html/docs/javadocs/...更多jScraper信息

XSS HTMLFilter

XSS HTMLFilter这是一个采用Java实现的开源类库。用于分析用户提交的输入，消除潜在的跨站点脚本攻击(XSS)，恶意的HTML，或简单的 HTML格式错误。示例代码： // retrieve input from user... String input = ... String clean = new HTMLInputFilter().fil...更多XSS HTMLFilter信息

HTML4J

HTML4J 是一个 Java 解析 HTML 的类库。示例代码： Reader re = ... // Create the document HTMLDoc doc = new HTMLDoc(); // Load its content doc.load(re); // Get the HTML HTMLFragment html = doc.getHTML(); // ...更多HTML4J信息

HTML解析器 TagSoup

TagSoup 是一个Java开发符合SAX的HTML解析器更多TagSoup信息
HTML解析器 JoyHTML

JoyHTML的目的是解析HTML文本当中的链接和正文，利用超链接密度法为主要判断依据的标记窗算法，采用DOM树解析模式。更多JoyHTML信息

HTML解析器 VietSpider

VietSpider HTMLParser 是一个纯 Java 的 HTML DOM 解析器，支持 HTML 4.0.1 。具有语法检查、自动关闭元素，可以处理一些匹配错误的元素，执行效率高。更多VietSpider信息

HTML生成库 renderSna ke

RenderSnake 是一个轻量级的Java类库用来通过Java方法生产html页面，包含4个核心类库： HtmlCanvas , a class that has methods for all HTML 4.01 and HTML5 tags for opening and closing it HtmlAttributes, a class that has methods for all existin...更多renderSnake信息

网页抽取工具 Krabber

Krabber是kVitrail的网页抽取工具。 Krabber的设计目标是提供一个可以为Java应用调用的、可以执行网页上的JavaScript代码、并返回JavaScript代码执行后的网页的HTML代码的网页抽取工具。更多Krabber信息

Java的HTML解析库 gohtml

gohtml 是一个很小的 Java 类库，用来解析 HTML 文档，目前尚未公开发布版本。更多gohtml信息

http://www.7mdm.com/1176.html

分享到：

java 假分页 | htmlcleaner 使用示例

2015-05-07 13:52
浏览 1301
评论(0)
分类:编程语言
查看更多

发表评论

您还没有登录,请您登录后再发表评论

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论