httpclient自动获取页面编码设置进行字符编码,使httpclient适用所有网页抓取不乱码

jsczxy2

浏览: 1286771 次
性别:
来自: 常州

最近访客更多访客>>

error0702

sagadan

gaofeng393

yaonai2003

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

博客分类：

httpclient

httpclient

//生成HttpMethod的方法就不举例了，网上很多，这里只是写明如何使得Httpclient适用所有编码的网页抓取

	/**
	 * 获取页面html内容
	 * @param method
	 * @param methodType
	 * @return String
	 * @throws UnsupportedEncodingException
	 * @throws IOException
	 */
	private static String readInputStream(HttpMethod method) throws Exception{
		String charset = "UTF-8";
		if(method instanceof PostMethod){
			charset = ((PostMethod)method).getResponseCharSet();
		}else{
			charset = ((GetMethod)method).getResponseCharSet();
		}
		byte[] bytes = method.getResponseBody();
		String body = new String(bytes,"UTF-8");
		charset = getCharSetByBody(body,charset);
		return new String(bytes,charset);
	}
	
	/**
	 * 根据页面body获取字符编码
	 * @param html
	 * @param charset
	 * @return
	 */
	private static String getCharSetByBody(String html,String charset){
		Document document = parseJSoupDocumentFromHtml(html, Constants.parseBaseUri);
		Elements elements = document.select("meta");
		for(Element metaElement : elements){
			if(metaElement!=null && StringUtils.isNotBlank(metaElement.attr("http-equiv")) && metaElement.attr("http-equiv").toLowerCase().equals("content-type")){
				String content = metaElement.attr("content");
				charset = getCharSet(content);
				break;
			}
		}
		return charset;
	}
	
	/**
	 * 正则获取字符编码
	 * @param content
	 * @return
	 */
	private static String getCharSet(String content){
		String regex = ".*charset=([^;]*).*";
		Pattern pattern = Pattern.compile(regex);
		Matcher matcher = pattern.matcher(content);
		if(matcher.find())
			return matcher.group(1);
		else
			return null;
	}

分享到：

mysql中FIND_IN_SET的应用(判断某字符串 ... | jquery滚动保持定位层

2012-09-20 20:33
浏览 10580
评论(1)
分类:编程语言
查看更多

1 楼 kewangwu 2014-03-26

你好，有完整代码？parseJSoupDocumentFromHtml()、getCharSetByBody()都没有啊

发表评论

您还没有登录,请您登录后再发表评论

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

httpclient自动获取页面编码设置进行字符编码,使httpclient适用所有网页抓取不乱码

评论

发表评论

相关推荐

最近访客 更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

httpclient自动获取页面编码设置进行字符编码,使httpclient适用所有网页抓取不乱码

评论

发表评论

相关推荐

模拟浏览器js,有接口可用于爬虫

抓取Js动态生成数据且以滚动页面方式分页的网页

HttpClient优化相关

httpclient工具类【转】

HttpClient如何 关闭连接（转）

Httpclient Cookies 处理

httpclient代理[转]

java模拟浏览器包htmlunit，selenium

httpclient发送Json格式数据举例之google短网址

最近访客更多访客>>

HttpClient如何关闭连接（转）