关于httpclient用法， post提交，抓取数据不全

0 0

关于httpclient用法， post提交，抓取数据不全20

请教下面纠结的问题：
我用httpclient，post提交参数，抓取指定检索到的的数据(分多个页面，一个页面一次提交请求)，大部分抓取的数据都是全的，大概抓取了100左右页面数据，就开始有一页面的数据不全，断断续续，不全的数据是：没有我指定参数提交的检索到的数据(只有静态页面的数据，即：没有业务数据)，但是请求返回来的状态是200，也获取不到异常，纠结了好几天;代码：

public String clientPost(String urll, String htmlbody) {
String[] repParams = htmlbody.split("&");
List<NameValuePair> data = new ArrayList<NameValuePair>();
HttpPost post = new HttpPost(urll);
for (String param : repParams) {
data.add(new BasicNameValuePair(param.substring(0,
param.indexOf("=")), param.substring(
param.indexOf("=") + 1, param.length())));
}
try {
// 参数
post.setEntity(new UrlEncodedFormEntity(data, "utf-8"));
// execute post
HttpResponse response = httpClient.execute(post);
if (response.getStatusLine().getStatusCode() == 200) {

a++;
System.out.println("第：" + a + "次请求成功");
HttpEntity entity = response.getEntity();
BufferedReader read = new BufferedReader(new InputStreamReader(
entity.getContent(), "utf-8"));
String currentLine;
System.out.println("entity.getContent:"
+ entity.getContent().toString().length());
StringBuffer buff = new StringBuffer();
while ((currentLine = read.readLine()) != null) {
buff.append(currentLine);
}
System.out.println("buff长度：" + buff.length());
if (buff.length() < 60000) { //数据不全判断
int i = 1;
clientPost(urll, htmlbody);
System.out.println("第" + (a - i) + "页请求了" + (++i) + "次");
} else {
String urlContent = post.getURI().getRawPath()
+ "\r\n"
+ post.getRequestLine().toString()
+ "\r\n"
+ displayInfo(new UrlEncodedFormEntity(data,
"utf-8").getContent());
logContent(urlContent, buff.toString(), a + ".html");
System.out.println("buff:--------------"
+ buff.toString().length());
return buff.toString();
}
}

} catch (UnsupportedEncodingException e) {
e.printStackTrace();
logNetErr(e);
} catch (ClientProtocolException e) {
e.printStackTrace();
logNetErr(e);
} catch (IOException e) {
e.printStackTrace();
logNetErr(e);
} finally {
post.releaseConnection();
httpClient.getConnectionManager().closeExpiredConnections();
}
return null;
}

还请各位碰到这样的问题指教下：

问题补充：

rommal7090 写道

你把代码全贴上来看看

没有必要吧，这个地方是出错的关键地方，函数的参数 htmlbody，是请求体，每次调用不一样，每一次调用就是请求一页的数据

问题补充：

wangqj 写道

有可能是源数据的问题，应该先确定抓取源的问题

，问题是：要是源数据问题的话，我这边是可以捕获的到异常的信息的吧，可否讲具体点呢

问题补充：

fslx2008 写道

你要抓取的页面是否有ajax的异步数据，页面如果包含这些延迟加载的数据，是不能通过一次抓取得到全部数据的。

这个不对的，异步加载的话，还是会再一次请求的。

问题补充：

wangqj 写道

源数据问题，你不一定能捕获到，如果你请求的页面dao报了异常，返回的数据为null，前端页面只是没有数据而已，你完全觉察不到

问题很好解决，如果内容有问题的打log

就这么说吧，我再一次补充下我的问题：如：我在一网站搜索框输入想要的car，出现了1万条数据，即：1000页，一页10条，我每一页去抓取，就一个post请求(有参数)，当我抓取到了100页(大概)时候，突然有一页数据不全，不全意思是有数据，但是没有我要的业务数据，有的数据只是些静态的页面数据而已，这种情况，断断续续的，数据即使不全，请求的状态也是200(即成功)，也捕获不到异常，上面说的做log这个我想过，但是我现在要知道，哪出问题了，是我的连接请求问题呢？还是数据源问题呢？总之搞清楚出问题的根源。谢谢各位，有经验者请多多想想，多多指导。

问题补充：

hac103 写道

哥们，你用httpclient是模拟浏览器访问网页/登录等，这种东西感觉你最好先搞个抓包工具先看访问网页post，get的东西，就能找到你先要的东西了。

我想httpclient模拟浏览器，会有缓存机制(猜测)，具体的还没有深入研究

问题补充：

fslx2008 写道

你要抓取的页面是否有ajax的异步数据，页面如果包含这些延迟加载的数据，是不能通过一次抓取得到全部数据的。

我用fiddler工具，查看到了，不是异步加载(ajax)，一次请求全部数据都得到了，当然也很谢谢你的问答！~~

问题补充：

xj753277 写道

判断一定是抓取的页面有ajax请求，当你抓取的时候 ajax还没返回，所以就没抓全

没有异步请求，确定

问题补充：

wangqj 写道

1、到了第100页，他的库里存的数据有问题（比如库里存了带html标签的内容，导致页面标签不闭合），页面没有数据，但是你请求返回的肯定是200，只有一些静态内容。可以用日志打印一下url，手动去请求一下试试
2、如果是服务器压力导致的异常问题，你sleep10秒钟再抓一次试试

你说的是服务器压力问题，这个我想过，且，要sleep10秒。但是当100页数据不全(服务器压力问题)，那么到了101等更多的页面时候，为什么就不会有数据不全的问题呢？我没有做任何的sleep操作。再一次请教下~~！谢谢

问题补充：

guazi 写道

既然前100页没有问题，说明代码基本是ok的，数据源的问题可能比较大，这样，你把没有抓到数据的请求打印出来，然后用这些参数去确认一下，看是否能拉到数据，我怀疑是拉不到的。试试吧

其实这些问题，我们只是在猜测吧，如网络异常，数据源问题等等。我想我现在要做的应该是把具体的某一次没有成功的请求(数据不全)，重新请求，可能不会再出现了，数据不全的问题。这我想只是个解决问题方法的转变吧，但是我想确认知道这个问题出现的根源吧。这样以后再出现这种问题或者没有出现这种问题，我可以提前做好相应的方法去准备。

问题补充：

fslx2008 写道

问题补充：

fslx2008 写道

你要抓取的页面是否有ajax的异步数据，页面如果包含这些延迟加载的数据，是不能通过一次抓取得到全部数据的。

这个不对的，异步加载的话，还是会再一次请求的。

没看懂你说的意思，我说的不知道你看懂没有，页面中包含通过ajax延迟加载的数据的话，只抓取一次是不能将整个页面的内容取到的，而且从你的问题和代码中也没有关于再一次请求的实现

没有延迟加载的，我确认过没有用到ajax，在这一块

问题补充：

fslx2008 写道

不知道你能否把你要抓取的页面发来，让大家一起分析下呢，你的实现代码就不用了。

链接：http://59.151.93.244/search!doOverviewSearch.action