- 浏览: 3167 次
- 性别:
- 来自: 北京
最新评论
文章列表
众所周知,Htmlparser本身有一些小bug,而且也有三年没更新了。所以现在基于java的信息抽取多转向NekoHtml。不过Htmlparser本身还是有不少优点,主要是扩展性强,其利用的设计模式值得学习。由于时间的关系,现在项目还是使用Htmlparser,以后有时间会对nekohtml进行研究。
今天遇到的bug来自于对<script>的解析。假如一个网页的部分代码如下,那么HtmlParser是必然会出错的:
<script language="javascript">
var strMsg = "<di ...
- 2009-07-05 23:43
- 浏览 3167
- 评论(0)