论坛首页 Java企业应用论坛

DOM4HTML(W3C标准实现)源代码

浏览 6214 次
精华帖 (0) :: 良好帖 (0) :: 新手帖 (5) :: 隐藏帖 (0)
作者 正文
   发表时间:2010-03-02  
summerbell 写道
johnson.lee 写道
最近在写一个爬虫程序,需要分析HTML,网上开源的HTML分析库也不少,为了挑战一下,自己写了一个。


试试Tika。


自己实现HTML解析并不是仅仅是为了使用它,更重要的是学习解析HTML的思想,用别人的只知道用,不知道为什么那么用。

大致看了一下Tika,感觉它抽象得很好,提取不同类型的数据,用不用的实现。思想值得借鉴。
0 请登录后投票
   发表时间:2010-03-09  
links.getLength();

这句应该放在for循环外面;
int length = links.getLength();
for(int i=0; i<length; i++){
    ....
}
0 请登录后投票
   发表时间:2010-03-09  
jmeye 写道
links.getLength();

这句应该放在for循环外面;
int length = links.getLength();
for(int i=0; i<length; i++){
    ....
}


确实,细节问题应该要注意,thks!
0 请登录后投票
   发表时间:2010-04-20  
最新下载:

http://code.google.com/p/dom4html/downloads/list

0 请登录后投票
论坛首页 Java企业应用版

跳转论坛:
Global site tag (gtag.js) - Google Analytics