论坛首页 综合技术论坛

HTML Parser 使用 例子

浏览 9235 次
精华帖 (0) :: 良好帖 (0) :: 新手帖 (1) :: 隐藏帖 (0)
作者 正文
   发表时间:2010-11-22  
htmlparser是一个纯的java写的html解析的库,它不依赖于其它的java库文件,主要用于改造或提取html。它能超高速解析html,而且不会出错。现在htmlparser最新版本为2.0。毫不夸张地说,htmlparser就是目前最好的html解析和分析的工具。无论你是想抓取网页数据还是改造html的内容,用了htmlparser绝对会忍不住称赞。

最近用Heritrix下载了大概1.5G 左右的网页,但是内容包含了很多HTML标签内容,打算今天搞下HTMLParser,写下简单使用实例。
(待续)
   发表时间:2010-12-02  
恩。推荐看看jsoup,也不错的,类似于jQuery的查询方式。
0 请登录后投票
   发表时间:2010-12-09  
感觉新星jsoup不错
0 请登录后投票
   发表时间:2010-12-09  
我也用 jsoup ,感觉不错!
0 请登录后投票
   发表时间:2010-12-09   最后修改:2010-12-09
htmlparser可以结合nekohtml使用下。。htmlparser很小但感觉解析网页很easy啊,很好的开源工具。抓取网页heritrix,功能挺强大的。nutch也不错,省硬盘空间。
0 请登录后投票
   发表时间:2010-12-10  
试试jsoup吧,好吃又好玩
0 请登录后投票
   发表时间:2010-12-14  
<i>aaaaaaaaa</i>解析不到
0 请登录后投票
   发表时间:2010-12-14  
http://www.iteye.com/topic/828723
0 请登录后投票
论坛首页 综合技术版

跳转论坛:
Global site tag (gtag.js) - Google Analytics