`
kaidi0314
  • 浏览: 86048 次
  • 性别: Icon_minigender_1
  • 来自: 广州
社区版块
存档分类
最新评论

java解析html工具

阅读更多
1、jsoup 比较好用
Java 程序在解析 HTML 文档时,相信大家都接触过 htmlparser 这个开源项目,我曾经在 IBM DW 上发表过两篇关于 htmlparser 的文章,分别是:从 HTML 中攫取你所需的信息和 扩展 HTMLParser 对自定义标签的处理能力。但现在我已经不再使用 htmlparser 了,原因是 htmlparser 很少更新,但最重要的是有了 jsoup 。
jsoup 是一款 Java 的 HTML 解析器,可直接解析某个 URL 地址、HTML 文本内容。它提供了一套非常省力的 API,可通过 DOM,CSS 以及类似于 jQuery 的操作方法来取出和操作数据
参考教程:http://www.ibm.com/developerworks/cn/java/j-lo-jsouphtml/index.html?ca=drs-#

2、 dom4j
使用Tidy 把html转成xml,然后用dom4j 解析xml;

3、 xalan

4、NekoHTML+HttpClient
分享到:
评论

相关推荐

    java解析html工具htmlparser的jar包及api文档

    HTMLParser是一个Java库,专为解析HTML而设计。它提供了对HTML文档的解析能力,使得开发者可以方便地处理网页内容,提取有用的信息或者进行数据抓取。这个工具在IT行业中,尤其是在Web开发和数据处理领域,有着广泛...

    java 解析 html

    在这个场景下,我们讨论的是如何利用Java解析HTML以获取特定标签路径下的内容,例如`html/body/div/div/`。 首先,我们需要一个强大的库来解析HTML,如Jsoup。Jsoup是一个用于处理实际世界HTML的Java库,它提供了一...

    html解析工具

    java实现对html解析,实现通过id,class等tag进行解析。

    java 解析 chm 文件

    Java解析CHM文件是将Microsoft的 Compiled HTML Help (CHM) 文件转换成HTML网页的过程。CHM文件是一种常见的帮助文档格式,它包含了多个HTML页面、图像和其他资源,并使用了一种特殊的压缩方法存储。在Java中处理CHM...

    java解析工具包

    本文将深入探讨四个流行的Java解析库:Fastjson、Dom4j、Jdom和Jsoup,它们各自具有独特的优势和适用场景。 首先,Fastjson是阿里巴巴开源的一个高性能的JSON库。它提供了极简的API,使得在Java对象和JSON数据之间...

    java对mht文件解析

    1. **DOMFragmentParser**:这是一个自定义的解析器类,用于解析HTML片段并构建DOM树。 2. **IOUtils**:Apache Commons IO库提供了一系列处理输入/输出流的方法,便于文件读写操作。 3. **Quoted-Printable解码**:...

    java解析html

    Java 解析 HTML 主要涉及到的是如何在 Java 程序中处理 HTML 文档,以便提取、操作或分析其中的数据。这通常需要借助于特定的库和工具。在给定的描述中提到了一个博客链接,但无法直接访问,因此我将提供一个通用的...

    freemarker java解析依赖工具类.zip

    这个"freemarker java解析依赖工具类.zip"文件似乎包含了用于处理Freemarker模板的Java源代码和实用工具类。下面将详细介绍Freemarker的基本概念、工作原理以及如何在Java中使用它。 Freemarker是一个基于模板的...

    java html解析 工具jsoup和一个简单例子

    Java HTML解析工具Jsoup是一个强大的库,专门设计用于处理HTML文档,提取和操作数据。它提供了类似于DOM、CSS以及jQuery的API,使得在Java中处理HTML变得简单易行。Jsoup能够连接到网页,下载HTML内容,然后进行解析...

    java解析DWG文件为json使用superMap

    【标题】:“java解析DWG文件为json使用superMap” 【描述】:“java使用superMap解析DWG文件为json输出,本地通过,附件中为word操方式按照步骤可以导入数据集” 【标签】:“java解析DWG文件json java读取dwg...

    Java HTML解析类

    纯Java写的html解析类,解析为自上而下顺序解析。解析效率一般,不支持js,可以满足日常使用。

    JavaUser-Agent解析库

    JavaUser-Agent解析库是用于处理和解析HTTP请求头中的User-Agent字符串的工具,这对于Web开发、数据分析或爬虫程序来说非常关键。User-Agent字符串包含了访问网站的客户端信息,如浏览器类型、版本、操作系统等。在...

    EPUB 解析 (java)

    Java解析模块会将这些内容解压、提取,并可能进行进一步的处理,如图像的重命名和移动,以适应不同的设备和阅读环境。 在FBreader的优化版本中,可能包括了性能提升、内存管理优化、错误修复或新特性添加。例如,...

    java实现HTML解析图片批量下载

    总之,通过使用Jsoup,我们可以轻松地解析HTML文档,找到所有的图片链接,并使用Java的网络和文件I/O功能将它们下载到本地。这个项目不仅可以作为学习Java网络编程和HTML解析的实践,还可以应用于各种实际场景,例如...

    Java中解析html的开源项目04

    HTMLParser是一个用于解析HTML的开源项目,它为开发者提供了处理HTML文档的强大工具。在这个"Java中解析html的开源项目04"部分,我们将深入探讨HTMLParser库的功能、用法以及如何在实际项目中应用。 HTMLParser库...

    使用Java编程解析HTML文档

    ### 使用Java编程解析HTML文档 #### 一、引言 随着互联网的发展,解析HTML文档的需求日益增加。无论是搜索引擎还是各种在线应用,都需要高效地提取HTML文档中的信息。Java作为一种广泛使用的编程语言,提供了多种...

    Java html代码解析

    1. **解析HTML**:Jsoup可以将HTML字符串转化为一个可操作的Document对象,这个对象与DOM树类似,可以层级化地表示HTML结构。例如: ```java String html = "<html><head><title>Test</title></head><body><p>Hello,...

    java解析chm

    Java解析CHM(Compiled Help Manual)文件是一种技术,主要用于处理微软Windows系统中常见的帮助文档格式。CHM文件是由HTML页面和其他资源压缩而成的,通常包含索引、目录和搜索功能。`chm4j`是一个Java库,专门设计...

    jsoup Java HTML解析器

    1. **HTML解析**:jsoup能够解析HTML字符串或从URL加载页面,将HTML转换为一个复杂的DOM结构,就像浏览器所做的那样。这个DOM可以被用来遍历和查找元素,或者进行进一步的操作。 2. **DOM操作**:jsoup提供了类似于...

    java html解析

    java的 html解析工具,使用时直接将包添加到工程即可

Global site tag (gtag.js) - Google Analytics