锁定老帖子 主题:DOM4HTML(W3C标准实现)源代码
精华帖 (0) :: 良好帖 (0) :: 新手帖 (5) :: 隐藏帖 (0)
|
|
---|---|
作者 | 正文 |
发表时间:2010-03-02
summerbell 写道 johnson.lee 写道 最近在写一个爬虫程序,需要分析HTML,网上开源的HTML分析库也不少,为了挑战一下,自己写了一个。
试试Tika。 自己实现HTML解析并不是仅仅是为了使用它,更重要的是学习解析HTML的思想,用别人的只知道用,不知道为什么那么用。 大致看了一下Tika,感觉它抽象得很好,提取不同类型的数据,用不用的实现。思想值得借鉴。 |
|
返回顶楼 | |
发表时间:2010-03-09
links.getLength();
这句应该放在for循环外面; int length = links.getLength(); for(int i=0; i<length; i++){ .... } |
|
返回顶楼 | |
发表时间:2010-03-09
jmeye 写道 links.getLength();
这句应该放在for循环外面; int length = links.getLength(); for(int i=0; i<length; i++){ .... } 确实,细节问题应该要注意,thks! |
|
返回顶楼 | |
发表时间:2010-04-20
|
|
返回顶楼 | |