html dom jsoup httpclient

zhuyufufu

浏览: 140447 次
性别:
来自: 南京

最近访客更多访客>>

BeyondPC

mxlyzc

robotmen

learnschema1

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

博客分类：

编程相关
Java相关
Html Css Js

html dom jsoup httpclient post

xml dom 对大多数java程序员来说并不陌生，但是html dom可能就不是那么面善了。

jsoup 就是用来处理 html dom的一个组件。其与dom4j、xstream等xml dom组件类似。

jsoup加载完html文本生成document对象之后，用来操作dom的通用操作就可以使用了。如：getElementById、getElementsByName等。

代码：加载html文本为dom对象，获取id为username的元素的属性value的值

Document doc = Jsoup.parse(htmlString);
String username = doc.getElementById("username").attr("value");

另附上 httpclient jar包 jsoup jar包

httpclient设置头部参数，以及获取头部参数，设置消息体参数的代码：

httpclient设置头部参数

/**
	 * 设置请求头
	 * @param post
	 */
	private static void setHeaders(HttpPost post) {
		post.setHeader("Accept", "text/html, application/xhtml+xml, */*");
		post.setHeader("Accept-Language", "zh-CN");
		post.setHeader("User-Agent", "Mozilla/5.0 (Windows NT 6.1; WOW64; Trident/7.0; rv:11.0) like Gecko");
		post.setHeader("Content-Type", "application/x-www-form-urlencoded");
		post.setHeader("Accept-Encoding", "gzip, deflate");
	
		post.setHeader("DNT", "1");
		post.setHeader("Connection", "Keep-Alive");
		post.setHeader("Cache-Control", "no-cache");
		post.setHeader("Cookie", Cookie);
	}
/**
	 * 设置请求头
	 * @param get
	 */
	private static void setHeaders(HttpGet get) {
		get.setHeader("Accept", "text/html, application/xhtml+xml, */*");
		get.setHeader("Accept-Language", "zh-CN");
		get.setHeader("User-Agent", "Mozilla/5.0 (Windows NT 6.1; WOW64; Trident/7.0; rv:11.0) like Gecko");
		get.setHeader("Content-Type", "application/x-www-form-urlencoded");
		get.setHeader("Accept-Encoding", "gzip, deflate");
		
		get.setHeader("DNT", "1");
		get.setHeader("Connection", "Keep-Alive");
		get.setHeader("Cache-Control", "no-cache");
		get.setHeader("Cookie", Cookie);
	}

httpclient发送get请求

private static String getSessionId() throws IOException, Exception {
		HttpClient client = new DefaultHttpClient();
		HttpGet get = new HttpGet("http://url/");
		HttpResponse responsex = client.execute(get);
		Header[] headers = responsex.getAllHeaders();
		for (int i = 0; i < headers.length; i++) {
			Header header = headers[i];
			String name = header.getName();
			String value = header.getValue();
			if("Set-Cookie".equals(name)){
				String[] vals = value.split(";");
				for (int j = 0; j < vals.length; j++) {
					String val = vals[j];
					if(val.contains("ASP.NET_SessionId")){
						Cookie = val;
					}
				}
			}
		}
		if(!responsex.getStatusLine().toString().contains("HTTP/1.1 200 OK")){
			throw new RuntimeException("某某失败");
		}
		HttpEntity entityx = responsex.getEntity();
		String entityMsgx = EntityUtils.toString(entityx);
		//解析html dom 得到输入参数
		Document doc = Jsoup.parse(entityMsgx);
		resetAllParams();
		__VIEWSTATE = doc.getElementById("__VIEWSTATE").attr("value");
		__EVENTVALIDATION = doc.getElementById("__EVENTVALIDATION").attr("value");
		isOpen = doc.getElementById("isOpen").attr("value");
		btlogin = doc.getElementById("btlogin").attr("value");
		
		return Cookie;
	}

发送post请求

/**
	 * 登录
	 * @param username
	 * @param password
	 * @throws IOException
	 * @throws Exception
	 */
	public static boolean login(String username, String password) throws IOException, Exception {
		//先访问首页获取sessionid
		getSessionId();
		//执行登陆过程
		HttpClient client = new DefaultHttpClient();
		HttpPost post = new HttpPost("http://loginurl");
		post.setHeader("Referer", "http://loginurl");
		setHeaders(post);
		
		// 登录表单的信息
		List<NameValuePair> qparams = new ArrayList<NameValuePair>();
		qparams.add(new BasicNameValuePair("__VIEWSTATE", __VIEWSTATE));
		qparams.add(new BasicNameValuePair("__EVENTVALIDATION", __EVENTVALIDATION));
		qparams.add(new BasicNameValuePair("isOpen", isOpen));
		qparams.add(new BasicNameValuePair("Text1", username));
		qparams.add(new BasicNameValuePair("Password1", password));
		qparams.add(new BasicNameValuePair("btlogin", btlogin));

		UrlEncodedFormEntity params = new UrlEncodedFormEntity(qparams, "utf-8");
		post.setEntity(params);
		// 相当于按了下确定登录的按钮，也就是浏览器调转了
		HttpResponse response = client.execute(post);
		if(!response.getStatusLine().toString().contains("HTTP/1.1 200 OK")){
			throw new RuntimeException("离校系统登陆失败");
		}
		
		HttpEntity entity = response.getEntity();
		String entityMsg = EntityUtils.toString(entity);
		if(entityMsg.contains("该用户不存在或用户名密码错误")){
			throw new RuntimeException("该用户不存在或用户名密码错误");
		}
		return true;
	}

jar.zip (1.4 MB)
下载次数: 2

分享到：

Oracle自带连接池使用(转载收录) | Oracle 清库脚本

2014-07-10 21:45
浏览 1148
评论(0)
分类:编程语言
查看更多

发表评论

您还没有登录,请您登录后再发表评论

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

html dom jsoup httpclient

评论

发表评论

相关推荐

最近访客 更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

html dom jsoup httpclient

评论

发表评论

相关推荐

oracle按照某一字段里的数字排序

JS onkeydown onenter

Java数组删除指定元素

sql 去重

linux 干掉所有java进程

Oracle自带连接池使用(转载收录)

Oracle 清库脚本

Java 对象存储到oracle Blob字段

Java 科学计数法数字转字符串

突破tomcat jsp编译65535行的限制

oracle 函数中游标及递归的应用

视频操作类

视频分割项目预研

Java POI Excel 行高自适应

Java POI Excel sheet 合并遇到的问题解决2

文档展示：使用iText转换各种图片为PDF

Java 进程执行外部程序，造成外部程序阻塞的一种原因

Java POI Excel sheet 合并遇到的问题解决

Java POI Excel sheet合并

文档展示：IcePDF 将PDF转换为图片

最近访客更多访客>>