jsoup 获取文档不全的解决方法 -

nonobaba

浏览: 65095 次
来自: 北京

最近访客更多访客>>

gaofeng393

u012363178

songhait

dongcaoheneric

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

jsoup 获取文档不全的解决方法

博客分类：

jsoup

jsoup 截断文档

jsoup是个好东东，有了它，再也不用从底层开始解析html文档了，而且如果文档是xml或者json的，利用它做转换也是极好极方便的，而且如果你访问的url存在302跳转，他回直接解析跳转后的内容，太强大了，不过在解析html的时候我发现了一个问题，代码如下


 Document  doc = Jsoup.connect(WEIXIN_GET_MSG_ANALYSE_DATA_URL).data("token",token).data("begin_date",beginDate).data("end_date",endDate).cookies(cookies).ignoreContentType(true)..get();

            JSONObject jsonObject = (JSONObject) JSON.parse(doc.body().html());

我发现返回的数据总是不全，大概是1024*1024的长度,我在浏览器直接调用此接口返回的文档是完整的，但是用jsoup确实半截文档，我怀疑jsoup的内部的问题，或来我调试追踪代码，追踪到如下文档，在HttpConnection中

dataStream = conn.getErrorStream() != null ? conn.getErrorStream() : conn.getInputStream();
                        bodyStream = res.hasHeaderWithValue(CONTENT_ENCODING, "gzip") ?
                                new BufferedInputStream(new GZIPInputStream(dataStream)) :
                                new BufferedInputStream(dataStream);

                        res.byteData = DataUtil.readToByteBuffer(bodyStream, req.maxBodySize());

玄机就在req.maxBodySize();中，我看了一下maxBodySize初始化的代码，原来默认的是1024*1024，so ga，终于找到问题原因了，直接把代码改成如下代码


 Document  doc = Jsoup.connect(WEIXIN_GET_MSG_ANALYSE_DATA_URL).data("token",token).data("begin_date",beginDate).data("end_date",endDate).cookies(cookies).ignoreContentType(true).maxBodySize(Integer.MAX_VALUE).get();

            JSONObject jsonObject = (JSONObject) JSON.parse(doc.body().html());

运行ok，搞定

分享到：