`
小网客
  • 浏览: 1244128 次
  • 性别: Icon_minigender_1
  • 来自: 北京
社区版块
存档分类
最新评论

使用jsoup或者httpclient解析https协议通用方法

    博客分类:
  • Java
 
阅读更多

需求:

基于jsoup或者httpclient爬取https数据的时候涉及到权限认证

实现:

直接在HttpsURLConnection的时候加入check操作

public static void checkQuietly() {
		try {
			HttpsURLConnection
					.setDefaultHostnameVerifier(new HostnameVerifier() {
						public boolean verify(String hostname,
								SSLSession session) {
							return true;
						}
					});
			SSLContext context = SSLContext.getInstance("TLS");
			context.init(null, new X509TrustManager[] { new X509TrustManager() {
				public void checkClientTrusted(X509Certificate[] chain,
						String authType) throws CertificateException {
				}

				public void checkServerTrusted(X509Certificate[] chain,
						String authType) throws CertificateException {
				}

				public X509Certificate[] getAcceptedIssuers() {
					return new X509Certificate[0];
				}
			} }, new SecureRandom());
			HttpsURLConnection.setDefaultSSLSocketFactory(context
					.getSocketFactory());
		} catch (Exception e) {
			e.printStackTrace();
		}
	}

PS:

涉及到证书或者自己业务单独剥离实现,原理类似

调用的时候:

checkQuietly() ;
Connection conn = Jsoup.connect(url).userAgent(MOZILLA_AGENT)
		.timeout(TIME_OUT);

 

0
0
分享到:
评论

相关推荐

    Java 爬虫工具Jsoup详解

    当我们要从一个网页中提取特定的信息时,可以使用Jsoup的connect()方法连接到目标URL,然后通过解析返回的HTML内容获取所需数据。例如,要获取网页中的所有图片链接,可以使用Jsoup的select()方法配合CSS选择器"img...

    通用论坛正文提取程序

    然而,由于标签中提到了"爬取",我们可以推断这个程序可能使用了Java或者相关语言来实现网络爬虫技术。 网络爬虫是互联网上的一种自动化程序,它遍历网页,抓取信息,并将这些信息存储到数据库中,便于进一步分析或...

    自己动手写网络爬虫

    在Java中,可以使用Jsoup、HttpClient等库来帮助发送HTTP请求,并解析返回的HTML内容。 在抓取网页的过程中,我们可能会遇到各种HTTP状态码,它们表示服务器对请求的响应结果。例如,状态码200表示请求成功,而404...

    java爬取各大平台价格

    在这个项目中,我们使用了几个关键的Java库来实现对多个电商平台的价格爬取,包括HtmlUnit、Jsoup和HttpClient。下面将详细解释这些工具以及如何利用它们进行网络爬虫开发。 1. **HtmlUnit**: HtmlUnit是一个无头...

    Webmagic0.5.2源码及jar包

    通常使用Jsoup或其他DOM解析库实现。 4. **Scheduler**: 调度器,管理待爬取的URL队列,决定下一个要爬取的页面。 5. **Pipeline**: 管道,处理解析后的数据,如存储到数据库、文件或进行进一步处理。 在0.5.2版本...

    java实现网络爬虫

    这个标签可能指的是Apache Commons库,其中包括多种工具类集合,如IO库(用于处理输入/输出),Net库(支持网络协议),Lang库(提供通用语言功能)。这些库可以简化代码,提高效率,比如Apache Commons IO的`...

    风车通用Web采集程序在线版_dotnet整站程序.rar

    在.NET环境中,此类程序通常使用C#或VB.NET等编程语言编写,利用HTTP协议与目标网站交互,结合HTML解析技术(如HtmlAgilityPack或Jsoup)来提取所需信息。 首先,我们来深入了解Web采集程序的工作原理。Web采集的...

    自主研发的一个java版本的分布式的通用爬虫

    在爬虫项目中,Java提供了丰富的库和框架,如Jsoup用于解析HTML,Apache HttpClient用于处理HTTP请求,这些都为开发高效稳定的爬虫提供了便利。 该爬虫系统采用了自动切换代理的功能,这对于大规模的网络爬取至关...

    基于Java的网页爬虫 JSpider.zip

    这些库可能包括Apache HttpClient用于HTTP请求,Jsoup用于HTML解析,或者Guava用于通用工具类。 3. **doc**:文档目录,可能包含了JSpider的API文档或者使用指南,对于理解和使用JSpider框架至关重要。 4. **src**...

    实现网络爬虫所需jar包

    总结来说,实现一个Java Web网络爬虫,通常会用到如Servlet API、HttpClient、Jsoup、Json库、XPath解析库、通用工具库以及日志框架等jar包。这些库共同构成了网络爬虫的基本架构,帮助开发者高效、稳定地完成数据...

    webmagic的所有jar包

    在WebMagic中,你可以选择使用Jsoup作为HTML解析器。 7. **xom.jar** 和 **nekohtml.jar**:这两个库主要用于XML和HTML的解析。XOM提供了一个简单、一致且类型安全的API来处理XML,而NekoHTML则是用于HTML解析的库...

    WebMagic依赖包

    在WebMagic中,Jsoup是解析网页结构,提取所需数据的关键组件。 9. **commons-lang-2.6.jar**:这是Apache Commons Lang的较早版本,同样提供了一些语言层面的扩展。虽然这个版本较旧,但在某些特定场景下可能仍然...

    java 网页信息采集源码

    - **lib**:依赖库,包含了项目运行所依赖的第三方jar包,如Jsoup、HttpClient等。 通过研究这些源码,你可以深入理解网络爬虫的实现细节,学习如何组织代码结构,处理HTTP请求,解析HTML,以及如何优雅地处理网络...

    java源码:Java网页爬虫 JSpider.zip

    1. **网络请求库的使用**:如使用`HttpURLConnection`、`HttpClient`或者第三方库如`OkHttp`来发送GET和POST请求获取网页内容。 2. **HTML解析**:使用如Jsoup等库解析HTML,提取所需的数据。 3. **线程与并发控制**...

    Java编写的HTML浏览器.rar

    2. **HTML解析**:项目可能使用了内置的Java HTML解析器,或者第三方库如Jsoup,来解析和渲染网页内容。 3. **网络编程**:Java的HttpURLConnection或者Apache HttpClient库可能被用来发送HTTP请求获取网页数据。 4....

    java实现的网页爬虫1.5版本聚焦爬虫抽取网页html

    为此,可能需要使用如Selenium这样的浏览器自动化工具,或者使用如Jsoup的异步执行功能。同时,为了提高爬取效率和数据质量,可以引入分布式爬虫技术,利用多台机器协同工作。 综上所述,"Java实现的网页爬虫1.5...

    Java获取网页数据步骤方法详解

    例如,我们可以使用Jsoup库来解析HTML文档。 第五步:获取需要的数据对自己创建的对象赋值 在获取需要的数据时,我们需要将提取的数据赋值给自己创建的对象。例如,我们可以使用Bid对象来存储提取的数据。 第六步...

    用Java写的海贼王漫画爬虫

    10. **道德与法律**:使用爬虫时,一定要遵守网站的robots.txt协议,尊重网站的版权,不要对服务器造成过大压力,避免触犯相关法律法规。 综上所述,这个Java爬虫项目涵盖了网络爬虫的基本原理和实践技巧,是一个很...

    Java爬虫程序

    在你提供的压缩包"Myspider4.1"中,很可能包含了上述技术的实现,以及详细的使用方法和示例代码。通过学习和分析这些代码,你可以深入了解Java爬虫的工作原理,并且能动手编写自己的爬虫程序。在实际应用中,还需要...

Global site tag (gtag.js) - Google Analytics