论坛首页 Java企业应用论坛

Java解析HTML

浏览 22322 次
锁定老帖子 主题:Java解析HTML
精华帖 (0) :: 良好帖 (0) :: 新手帖 (0) :: 隐藏帖 (0)
作者 正文
   发表时间:2010-11-30  
nurenok 写道
JSOUP谁用谁知道

+1
0 请登录后投票
   发表时间:2010-11-30  
htmlparser很好用,基本就相当于DOM遍历,至于想要其他更好的效果,就自己封装吧
0 请登录后投票
   发表时间:2010-11-30  
如果没有记错,一个叫做jsoup的html解析器,速度非常快。类似于python中的BeautifulSoup
0 请登录后投票
   发表时间:2010-11-30  
illu 写道
nurenok 写道
JSOUP谁用谁知道

+1

++1
0 请登录后投票
   发表时间:2010-12-01   最后修改:2010-12-01
qiren83 写道
illu 写道
nurenok 写道
JSOUP谁用谁知道

+1

++1

有空打算写写jsoup的中文的一些东西,这玩意我从0.3.1开始用,最近发现已经更新的若干个版本了。
我觉得在jsoup面前,htmlparser还是比较难用的,方便易用性上与jsoup不是一个级别。

但有一个小前提,就是你用过jquery,了解jquery的一些语法,那就会瞬间上手了,
不了解也没关系,因为学起来也比较简单,能看懂它的英文文档基本上很快就学会了,

一句话,实在太好用了
0 请登录后投票
   发表时间:2010-12-01  
qiren83 写道
illu 写道
nurenok 写道
JSOUP谁用谁知道

+1

++1

+++1
0 请登录后投票
   发表时间:2010-12-01  
抛出异常的爱 写道
dom4j 支持 xpath
div[@id=123]

恩 用dom4j处理节点
0 请登录后投票
   发表时间:2010-12-01  
aoliwen521 写道
目前没有接触过需求需要专门去抓别人的东西。。但是以前面试写过一个抓信息的。。
当时就是抓javaeye。。我愚蠢的使用正则表达式抓。。看来比较麻烦啊。
xpath,我就怕他页面万一不规范,不能正常的操作了。


正则很累人的
0 请登录后投票
   发表时间:2010-12-01  
谢谢讨论,我试试dom4j 、 jsoup 、 xalan 、NekoHTML+HttpClient with xpath
0 请登录后投票
   发表时间:2010-12-01  
看来大家都有“拿来主义”的需求。
不仅扣人家页面风格,连内容也要抓。
0 请登录后投票
论坛首页 Java企业应用版

跳转论坛:
Global site tag (gtag.js) - Google Analytics