Java抓取URL指定的HTML内容

boonya

浏览: 801852 次
性别:
来自: 成都

最近访客更多访客>>

ileme

zhuhai189

燃烧丶胸毛

limengna845567

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

博客分类：

Network

java 网络协议

通过Java获取到URL指定的内容，如果有目标数据可以再写代码解析获取到的内容

package com.boonya;
import java.io.IOException;
import java.net.HttpURLConnection;
import java.net.MalformedURLException;
import java.net.URL;
import java.util.Scanner;

public class WebCapturer {
	
	/**
	 * 根据用户获取的网络地址获取该网页的内容
	 * @param myURL  地址
	 *    如："http://www.google.com.hk/search?q=biao"
	 * @return
	 */
	@SuppressWarnings("resource")
	public static String getHtmlByURL(String myURL){
		URL url=null;
		String htmlContext="";
		try {
			url = new URL(myURL);
			HttpURLConnection conn;
			try {
				conn = (HttpURLConnection) url.openConnection();
				conn.setRequestProperty("User-Agent", // 很重要
						"Mozilla/5.0 (X11; U; Linux i686; zh-CN; rv:1.9.1.2) "
								+ " Gecko/20090803 Fedora/3.5.2-2.fc11 Firefox/3.5.2");
				conn.setRequestMethod("GET");
				Scanner scanner = new Scanner(conn.getInputStream());
				while (scanner.hasNextLine()) {
					htmlContext+=scanner.nextLine();
				}
			} catch (IOException e) {
				e.printStackTrace();
			}
		} catch (MalformedURLException e) {
			e.printStackTrace();
		}
		return htmlContext;
		
	}

	public static void main(String[] args) throws Exception {
		System.out.println(WebCapturer.getHtmlByURL("http://www.google.com.hk/search?q=biao"));
	}
}

分享到：

Memcached入门必备知识 | Servlet生成图片验证码

2013-05-16 17:59
浏览 2501
评论(3)
分类:互联网
查看更多

3 楼 boonya 2013-05-22

boonya 写道

加https://前缀表明是用SSL加密的

http的连接很简单,是无状态的;HTTPS协议是由SSL+HTTP协议构建的可进行加密传输、身份认证的网络协议要比http协议安全

2 楼 boonya 2013-05-22

加https://前缀表明是用SSL加密的

1 楼 ccscu 2013-05-17

如果是https://开头的，提示这个错误
javax.net.ssl.SSLHandshakeException: java.security.cert.CertificateException: No subject alternative DNS name matching developer.chrome.com found.
at com.sun.net.ssl.internal.ssl.Alerts.getSSLException(Alerts.java:174)
at com.sun.net.ssl.internal.ssl.SSLSocketImpl.fatal(SSLSocketImpl.java:1764)
at com.sun.net.ssl.internal.ssl.Handshaker.fatalSE(Handshaker.java:241)
at com.sun.net.ssl.internal.ssl.Handshaker.fatalSE(Handshaker.java:235)
at com.sun.net.ssl.internal.ssl.ClientHandshaker.serverCertificate(ClientHandshaker.java:1206)
at com.sun.net.ssl.internal.ssl.ClientHandshaker.processMessage(ClientHandshaker.java:136)
at com.sun.net.ssl.internal.ssl.Handshaker.processLoop(Handshaker.java:593)
at com.sun.net.ssl.internal.ssl.Handshaker.process_record(Handshaker.java:529)
at com.sun.net.ssl.internal.ssl.SSLSocketImpl.readRecord(SSLSocketImpl.java:958)
at com.sun.net.ssl.internal.ssl.SSLSocketImpl.performInitialHandshake(SSLSocketImpl.java:1203)
at com.sun.net.ssl.internal.ssl.SSLSocketImpl.startHandshake(SSLSocketImpl.java:1230)
at com.sun.net.ssl.internal.ssl.SSLSocketImpl.startHandshake(SSLSocketImpl.java:1214)
at sun.net.www.protocol.https.HttpsClient.afterConnect(HttpsClient.java:434)
at sun.net.www.protocol.https.AbstractDelegateHttpsURLConnection.connect(AbstractDelegateHttpsURLConnection.java:166)
at sun.net.www.protocol.http.HttpURLConnection.getInputStream(HttpURLConnection.java:1172)
at sun.net.www.protocol.https.HttpsURLConnectionImpl.getInputStream(HttpsURLConnectionImpl.java:234)
at com.bes.net.WebCapture.getHtmlByURL(WebCapture.java:29)
at com.bes.net.WebCapture.main(WebCapture.java:44)
Caused by: java.security.cert.CertificateException: No subject alternative DNS name matching developer.chrome.com found.
at sun.security.util.HostnameChecker.matchDNS(HostnameChecker.java:193)
at sun.security.util.HostnameChecker.match(HostnameChecker.java:77)
at com.sun.net.ssl.internal.ssl.X509TrustManagerImpl.checkIdentity(X509TrustManagerImpl.java:264)
at com.sun.net.ssl.internal.ssl.X509TrustManagerImpl.checkServerTrusted(X509TrustManagerImpl.java:250)
at com.sun.net.ssl.internal.ssl.ClientHandshaker.serverCertificate(ClientHandshaker.java:1185)
... 13 more

发表评论

您还没有登录,请您登录后再发表评论

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论