`
bazhuang
  • 浏览: 150416 次
  • 性别: Icon_minigender_1
  • 来自: 杭州
社区版块
存档分类
最新评论

jsoup 1.6.0的问题

    博客分类:
  • java
 
阅读更多
今天再看一个jsoup的问题时候,发现如下代码会出现问题:
Document doc = Jsoup.parse("<table><tr><td>0</td></tr></table>","http://www.iteye.com");

最后发现转换之后td中的内容就丢失了,然后仔细debug一下jsoup的代码,发现在TreeBuilderState这个类中有个nullString变量,内容为“0X0000”,悲剧了,它直接把0作为null字符串对待了,吃掉它了。

最后去http://search.maven.org/#artifactdetails%7Corg.jsoup%7Cjsoup%7C1.6.1%7Cjar,找了一下最新的1.6.1版本源码,发现代码已经发生了改变。前后2段代码如下:
private static String nullString = String.valueOf(0x0000);
 private static String nullString = String.valueOf('\u0000');

第一行是1.6.0中的代码,1.6.1中就已经是修改过的了。
后面的修改为\u0000,这样就一切搞定了。

把三方库升级到1.6.1就可以了,开源包在使用上还是要多注意一些,bug总是有的,估计有时候还需要自己去hack修复。选用三方库的时候还是慎重一些。不过就这次碰到的这个问题,是没有办法,htmlparser有它的bug无法满足要求。
分享到:
评论

相关推荐

    jsoup-jsoup-1.6.1.zip

    遇到问题时,可以在官方论坛、GitHub或其他社区寻找解决方案。 总的来说,jsoup是一款强大的HTML解析工具,它简化了HTML处理的复杂性,让开发者可以更加专注于业务逻辑。无论是用于网页抓取、数据提取还是内容清洗...

    jsoup-1.6.0-sources

    很好用的一下html页面分析jar包jsoup-1.6.0-sources

    jsoup-1.6.0

    jsoup 的主要功能如下: 1. 从一个 URL,文件或字符串中解析 HTML; 2. 使用 DOM 或 CSS 选择器来查找、取出数据; 3. 可操作 HTML 元素、属性、文本; jsoup 是基于 MIT 协议发布的,可放心使用于商业项目。

    无涯教程(LearnFk)-JSoup教程离线版.pdf

    推荐的Java版本为1.6.0_21,可以通过访问Oracle官网下载JDK。 环境设置是使用JSoup的关键一步。首先,需要在命令行界面中通过输入java -version命令来检查Java是否已经安装在计算机上。如果未安装或需要更新版本,...

    维语词典源码.zip

    从项目整体的架构上目测应该是学生作品,一开始项目缺少jsoup-1.6.0.jar和ksoap2-android-assembly-2.4-jar-with-dependencies.jar这两个jar包,都已经找齐了放进去了,项目可以正常运行,不过看懂显示的什么还需要...

    oschina+技术架构介绍.ppt

    在软件环境方面,OSChina 使用的是RedHat Enterprise Linux 5.3操作系统,搭配Sun JDK 1.6.0,Nginx 0.8.x作为反向代理服务器,Tomcat 7.x作为应用服务器,以及Percona Server 5.1(MySQL的一个衍生版本)作为数据库...

Global site tag (gtag.js) - Google Analytics